AI科技评论 09月12日

Morpheus：让机器人拥有细腻表情的人机交互新阶段

清华大学赵昊团队联合多家机构发布了Morpheus高拟真机器人面部系统，标志着人机情感交互进入新阶段。该系统融合了“混合驱动结构”、“自学习逆向建模”与“语音驱动情绪动画”三项关键技术，能够实时生成细腻表情，并在情绪识别准确率、唇形同步误差等方面表现出色。Morpheus通过Transformer解耦语音情绪与内容，利用混合驱动硬件平台实现刚柔并济的表情控制，并通过自建模学习网络实现表情的精准生成。该系统为下一代情感机器人奠定了技术基础，使其能够拥有可量产、可进化的表情。

🤖 **高拟真表情生成能力**: Morpheus系统通过创新的“混合驱动结构”和“自学习逆向建模”技术，实现了机器人面部表情的细腻表达。它融合了刚性驱动和线驱动的优势，能够精准控制眼部、口部等关键区域，同时通过线驱动实现鼻部、面颊等区域的微表情变化，从而生成高达25种精细表情，覆盖日常交流到复杂情感的表达。

🗣️ **语音驱动情绪动画**: Morpheus系统能够“听懂”情绪，其“语音驱动情绪动画”框架基于Transformer模型，能将输入语音分解为“语义内容”与“情绪特征”。结合情绪引导注意力机制，系统能动态调整表情权重，生成精确的blendshape系数，并通过DTW技术确保长句推理时唇形与情绪的零滞后同步，使机器人能够根据语音的语调和情感进行实时、自然的表情反应。

💡 **自学习与高效计算**: 该系统采用“自学习逆向建模”技术，通过MLP网络自动学习“电机指令—面部关键点”的复杂非线性映射，无需人工标定即可实时求解任意虚拟表情的电机指令。其算法计算效率高，可在NVIDIA Jetson AGX Xavier上实现约150帧/秒的推理速度，以30帧/秒的速度生成虚拟表情，并以50Hz频率控制舵机，保证了虚拟表情与真实表情的流畅同步。

🚀 **为情感机器人奠定基础**: Morpheus系统验证了“混合驱动+自学习”在复杂情感交互任务上的工业级可行性，并提供了可复用的技术栈，为下一代情感机器人提供了坚实的技术基座。它使得机器人能够拥有“可量产、可进化”的表情，预示着人机情感交互将更加深入和广泛。

清华AIR 赵昊团队 2025-08-19 17:35 广东

人机情感交互进入一个全新的阶段。

作者丨清华AIR 赵昊团队

机器人也能拥有“表情管理”？传统机械面部系统长期受限于硬件结构单一、控制算法死板，常常难以实现细腻丰富的情感表达。如今，这一局面有望被彻底改写。近日，清华大学智能产业研究院（AIR）的赵昊团队，联合北京智源研究院（BAAI）、清华大学交叉信息研究院（IIIS）、北京航空航天大学、华大等多家机构，共同发布了名为Morpheus的高拟真机器人面部系统。Morpheus首次融合“混合驱动结构”、“自学习逆向建模”与“语音驱动情绪动画”三项关键技术，能够实时生成多种细腻表情。实验数据显示，它在情绪识别准确率、唇形同步误差、以及用户对自然度的主观评价等核心指标上均表现出色，标志着人机情感交互进入一个全新的阶段。

Project Page：https://jiawenyang-ch.github.io/Morpheus-Hardware-Design/

arXiv：https://arxiv.org/abs/2507.16645

Morpheus整体图：(a) 前视图与面部自由度；(b) 侧视图与脖子自由度；(c) Morpheus以开心的语气讲出“welcome!”

三大创新突破传统瓶颈

语音驱动情绪动画框架，让机器人“听懂”情绪：

基于 Transformer 的情绪-内容解耦，将输入语音分离为“语义内容”与“情绪特征”。结合情绪引导注意力机制，动态调整表情权重，生成 33 维 blendshape 系数。利用DTW（动态时间规整）技术，确保长句推理时唇形、情绪同步零滞后。

语音驱动生成面部表情的机制与自建模网络框架

混合驱动硬件平台“刚柔并济”

33 个舵机融合「刚性机构+线驱动」双重优势：眼部、口部等关键区域采用刚性驱动确保精准控制；鼻部、面颊等微表情区域采用线驱动，实现细腻纹理变化。硬件结构紧凑，3D 打印一体成型。纯刚性驱动无法处理细腻表情，纯线驱动则稳定性不足，Morpheus的混合设计结合两者优势，在紧凑空间内实现高自由度表情控制。

Morpheus机械结构设计：(a)前视图；(b)侧视图（外骨骼透明化）；(c) Morpheus四模块：眉毛模块、眼睛模块、嘴模块、脖子模块。

硬件安装视频

自建模学习网络，让机器人“学会”表情

通过自建模，利用 MLP 网络在 5000 组随机电机指令—面部关键点数据中自动学习“电机空间→表情空间”的复杂非线性映射。只需输入目标表情即可实时求解任意虚拟表情的电机指令，无需人工标定。

情绪判断与唇形同步方面表现

Morpheus的突破不仅停留在技术概念层面，更通过严苛的实验数据证明了其性能表现。研究团队从三个维度进行深度解析：

情绪识别：

在“快乐、愤怒、厌恶、恐惧”四类测试中，快乐（90%）和愤怒（91%）的表情，其准确率较高，这反映了Morpheus生成动态且富有表现力动作的强大能力。而对于厌恶（66%）和恐惧（73%）的表情，相对较低的准确率表明这些表情更容易被混淆，表明它们之间的差异不够明显。

唇形同步：

模型在RAVDESS（有情绪）和HDTF（无情绪）语音上均实现了最低的LVE和EVE评分，这表明其在唇形同步性和情感表达方面具有卓越性能。

不同驱动的效果比较

研究人员比较了不同驱动模式（仅驱动嘴部、仅驱动眉毛、仅驱动刚性机构、混合驱动）在快乐下的表情结果，脸颊和鼻翼的细微表情运动幅度差异，表明了混合驱动的有效性。

Morpheus 25 种表情演绎

Morpheus的表情库不仅仅停留在基础的"喜怒哀乐"，而是实现了25种精细表情的生成，覆盖日常交流、极端情绪甚至微妙微表情。表情不仅包括Ekman的六大基本情绪理论中的快乐(Happy)、悲伤(Sad)、愤怒(Angry)、恐惧(Fear)、厌恶(Disgust)，还包括怀疑、满足、尴尬、害羞等表达复杂感情的复杂表情。

Morpheus生成的25个表情

语音驱动的表情生成结果

为了让读者更直观地感受 Morpheus 的情感张力，研究团队同步放出了多段 4K 高清演示视频（已上传至 YouTube 与 GitHub Release）。以下为核心片段一览：

Look at the sky

I'm going to the store.

I need to work late tonight.

I lost my keys.

The weather is changing.

It's time to eat.

The food smells good.

This is exactly what I've come to expect from you.

（更多视频请参考Project page网站：https://jiawenyang-ch.github.io/Morpheus-Hardware-Design/ ）

更多技术细节

微型低噪舵机驱动

研究驱动方案主要采用了Guohua 9g舵机，工作噪音为45-50dB，比通用舵机MG90s的50-60dB噪音更小，同时提供超后者4倍的扭矩。

零度硅胶脸皮

脸皮采用零度硅胶材料，最贴近人脸硬度，是仿人体产品最常用的材料。通过对比多种厚度的受力变形效果，研究最终选择了4mm厚度的脸皮。

算法计算效率高

系统在NVIDIA Jetson AGX Xavier上以约150帧/秒的速度进行推理，以30帧/秒的速度生成虚拟表情，并以50Hz的频率控制舵机，从而实现虚拟表情与真实表情之间流畅且同步的对齐。

为下一代情感机器人奠定技术基座

Morpheus 不仅证明了“混合驱动+自学习”在复杂情感交互任务上的工业级可行性，更为未来机器人面部系统提供了可复用的技术栈。从实验室到量产，今天，Morpheus 让机器人拥有了“可量产、可进化”的表情；明天，它将把每一次微笑、每一次挑眉都沉淀为全人类共用的情感基础设施·。下一代情感机器人，不再是一座孤岛，而是一片可生长、可分享的新大陆。