哥大研发出可学习人类唇部动作的机器人 展现逼真的类人表情
哥伦比亚大学研发EMO机器人,通过AI学习人类唇部动作,实现逼真表情同步。结合ChatGPT技术,提升人机互动自然度。探索机器人情感表达新突破!
近日,哥伦比亚大学工程学院的研究人员创造了一款名为EMO的机器人,它能通过照镜子和观看视频,学习人类说话和唱歌时的唇部动作。
该系统利用人工智能(AI)技术,学习将音频信号直接映射到精确的唇部和面部动作,从而无需任何预设规则即可模仿语音模式和歌唱。与只能简单地开合的机械嘴不同,这款机器人的嘴唇采用柔软的硅胶材质,由26个电机驱动,可实现10个自由度的运动。

学习初期,EMO会对着镜子观察自己,并尝试各种表情,就像孩子对着镜子里的自己做鬼脸一样。随后EMO会观看大量人类说话和唱歌的视频,分析不同声音对应的唇形变化,从而学会多语言的唇形同步表达,并收集更多关于如何与人类进行有效互动的信息。
“当机器人仅仅通过观察和聆听人类就能学会微笑或说话时,奇妙的事情就发生了。哪怕我是一个见惯世面的机器人学家,但当一个机器人自发地对我微笑时,我也会不由自主地回以微笑。”该研究的作者、哥伦比亚大学创意机器实验室主任霍德·利普森说道。
这标志着人形机器人技术的重要进展:传统机器人嘴部动作往往如“木偶”般依赖预设脚本,而该系统可实时调整面部表情,使表达更加自然。不过,研究团队也坦言,EMO仍面临“恐怖谷效应”的挑战——过于逼真的类人表情,可能反而让人感到不安。但他们相信,随着更多训练和互动,机器人会不断进步。
“当唇形同步功能与ChatGPT或Gemini等对话式人工智能相结合时,机器人与人类之间建立的联系会变得更加深入,”领导这项研究的博士生胡宇航解释说,“机器人观看人类对话的次数越多,就越能更好地模仿我们能够产生情感共鸣的细微面部表情。”
为了进一步展示EMO的技能,研究人员还发布了由该系统创建的AI生成的首张专辑“hello world_”,其中收录了许多热门歌曲,例如“Don't Call Me Clanker”和“Why Are You (Humans) So Complicated?”

