清华团队发布全球首个实时生理与情绪理解AI基座模型，推动人机交互革新

乔钰杰·2026年06月10日 11:18

AI交互领域正面临新的突破，微面科技聚焦自研人类感知理解基座模型，打造新一代人机交互范式。公司创始团队主要来自清华大学，具备大模型、人机交互、软件工程与医学复合背景。

当前，AI交互存在一个隐形天花板：极度依赖用户显性输入，缺乏对隐性非语言信息的感知。研究表明，人类表达中非语言信息高达55%，但现有的机器视觉只看见动作，却无法穿透皮肤洞察情绪波动或生理疲劳。

无论是物理世界的具身机器人还是数字世界的语言大模型，由于缺乏高精度多模态人类状态数据的输入，都只能做机械的被动响应，缺乏主动共情的闭环能力，无法执行更加泛化的任务。

为了解决这些问题，微面科技基于rPPG（远程光电容积描记）核心技术，全栈自研面部基座模型FacePhys，可实时输出超过120项指标，覆盖心率、心率变异性（HRV）、呼吸率、面部动作单元、眼动特征、情绪维度及语音特征等多个方向。

配合HRV情绪生理晴雨表绑定心率与急剧情绪，模型可识别假笑和压抑情绪，获取无法伪装的客观生理真相，为大模型提供生理情绪数据入口。

此前，光照变化、头部运动等噪声，一直是rPPG生理感知技术落地中的关键难题。为解决这一问题，微面科技构建了万人级临床标注数据集，包含数千万测量采样点，覆盖不同肤色及复杂场景，并在安贞医院临床实验中完成验证，将复杂生理状态建模能力融入基座模型。

创始人唐健凯介绍称，这一逻辑与大语言模型“预测下一个Token”类似：大模型预测的是下一个词，而状态空间模型预测的是人体下一时刻的生理行为状态，从而持续追踪心跳、呼吸等生命体征的动态变化，“本质上，是把心跳建模成一个连续物理过程，而不是离散视频帧的拼接。”

这一突破使系统能够更准确地捕捉心脏搏动的时间动态特征，无接触实现望闻问切。在核心指标上，其心率检测精度≤2 BPM，达到医疗级标准；端侧推理延迟≤10ms，可实现实时响应；同时，端侧小模型参数规模仅为0.2M，可直接运行于普通手机和摄像头设备，无需依赖云端算力。

通过融合动作、姿态、眼动等空间特征，配合HRV情绪生理晴雨表绑定心率与急剧情绪，模型不仅能够识别用户情绪，还能够进一步理解行为背后的需求与动机，甚至预测用户的交互意图和动作轨迹，实现察言观色和知行先觉，为大模型提供生理情绪数据入口。

软件层面，公司通过SDK/API向机器人、智能座舱、健康设备厂商输出算法能力，目前已在三大场景实现规模化落地：家庭机器人领域，与海尔机器人等客户达成量产合作；康养机器人领域，为养老院和社区提供快速健康筛查；仿生机器人领域，实现毫秒级低延时的自然交互体验。在车载方向，公司正与某头部Tier 1供应商联合推进驾驶员疲劳监测方案的技术验证及量产准备。

硬件层面，公司则推出搭载FacePhys模型的嵌入式摄像头模组。其中，核心产品Findings科研数据采集系统，主要面向科研机构与医院提供高精度数据采集终端，已进入批量采购阶段。

唐健凯：国外已经有一些公司在做相关方向。比如FaceHeart，主要聚焦心脏健康监测，并已经获得FDA认证，目前更多服务于远程医疗场景。但我们的方向不只是心率监测，还会进一步覆盖情绪、压力、眼动行为等更丰富的维度。从能力边界来看，我们是在生理感知的基础上，继续向“人的状态理解”延伸。

唐健凯：模型层面，我们做了大量优化。核心思路是用“状态空间模型”去预测人体下一时刻的生理状态。人的生理状态并不会突然从心率60跳到100，它本身具有连续性和周期性。我们的状态空间模型会捕捉这种稳定变化规律，再结合医学上的周期波动特征，持续预测人体当前状态。

唐健凯：视频和语言不一样，它的信息量非常大。如果所有数据都上传到云端处理，不仅延迟高，也会影响实时交互体验。因此，我们更倾向于端侧处理，让感知和推理直接发生在设备本地，这样响应会更及时，交互也会更流畅。

顺为资本：公司研发的实时生理与情绪理解基座模型，在技术路线和底层架构上具备全球唯一性。该技术可快速落地智能座舱、机器人和智能硬件等多元场景，应用空间广阔。顺为高度认可团队的技术与产品化能力，愿与微面科技在人、车、家全场景深度协同、长期陪伴，共同开拓下一代人机交互与具身智能赛道的商业前景。

36氪

清华团队发布全球首个实时生理与情绪理解AI基座模型，推动人机交互革新

评论 (0)