清华团队发布全球首个实时生理与情绪理解AI基座模型,推动人机交互革新
AI交互领域正面临新的突破,微面科技聚焦自研人类感知理解基座模型,打造新一代人机交互范式。公司创始团队主要来自清华大学,具备大模型、人机交互、软件工程与医学复合背景。
当前,AI交互存在一个隐形天花板:极度依赖用户显性输入,缺乏对隐性非语言信息的感知。研究表明,人类表达中非语言信息高达55%,但现有的机器视觉只看见动作,却无法穿透皮肤洞察情绪波动或生理疲劳。
无论是物理世界的具身机器人还是数字世界的语言大模型,由于缺乏高精度多模态人类状态数据的输入,都只能做机械的被动响应,缺乏主动共情的闭环能力,无法执行更加泛化的任务。
为了解决这些问题,微面科技基于rPPG(远程光电容积描记)核心技术,全栈自研面部基座模型FacePhys,可实时输出超过120项指标,覆盖心率、心率变异性(HRV)、呼吸率、面部动作单元、眼动特征、情绪维度及语音特征等多个方向。
配合HRV情绪生理晴雨表绑定心率与急剧情绪,模型可识别假笑和压抑情绪,获取无法伪装的客观生理真相,为大模型提供生理情绪数据入口。
此前,光照变化、头部运动等噪声,一直是rPPG生理感知技术落地中的关键难题。为解决这一问题,微面科技构建了万人级临床标注数据集,包含数千万测量采样点,覆盖不同肤色及复杂场景,并在安贞医院临床实验中完成验证,将复杂生理状态建模能力融入基座模型。
创始人唐健凯介绍称,这一逻辑与大语言模型“预测下一个Token”类似:大模型预测的是下一个词,而状态空间模型预测的是人体下一时刻的生理行为状态,从而持续追踪心跳、呼吸等生命体征的动态变化,“本质上,是把心跳建模成一个连续物理过程,而不是离散视频帧的拼接。”
这一突破使系统能够更准确地捕捉心脏搏动的时间动态特征,无接触实现望闻问切。在核心指标上,其心率检测精度≤2 BPM,达到医疗级标准;端侧推理延迟≤10ms,可实现实时响应;同时,端侧小模型参数规模仅为0.2M,可直接运行于普通手机和摄像头设备,无需依赖云端算力。
通过融合动作、姿态、眼动等空间特征,配合HRV情绪生理晴雨表绑定心率与急剧情绪,模型不仅能够识别用户情绪,还能够进一步理解行为背后的需求与动机,甚至预测用户的交互意图和动作轨迹,实现察言观色和知行先觉,为大模型提供生理情绪数据入口。
软件层面,公司通过SDK/API向机器人、智能座舱、健康设备厂商输出算法能力,目前已在三大场景实现规模化落地:家庭机器人领域,与海尔机器人等客户达成量产合作;康养机器人领域,为养老院和社区提供快速健康筛查;仿生机器人领域,实现毫秒级低延时的自然交互体验。在车载方向,公司正与某头部Tier 1供应商联合推进驾驶员疲劳监测方案的技术验证及量产准备。
硬件层面,公司则推出搭载FacePhys模型的嵌入式摄像头模组。其中,核心产品Findings科研数据采集系统,主要面向科研机构与医院提供高精度数据采集终端,已进入批量采购阶段。
唐健凯:国外已经有一些公司在做相关方向。比如FaceHeart,主要聚焦心脏健康监测,并已经获得FDA认证,目前更多服务于远程医疗场景。但我们的方向不只是心率监测,还会进一步覆盖情绪、压力、眼动行为等更丰富的维度。从能力边界来看,我们是在生理感知的基础上,继续向“人的状态理解”延伸。
唐健凯:模型层面,我们做了大量优化。核心思路是用“状态空间模型”去预测人体下一时刻的生理状态。人的生理状态并不会突然从心率60跳到100,它本身具有连续性和周期性。我们的状态空间模型会捕捉这种稳定变化规律,再结合医学上的周期波动特征,持续预测人体当前状态。
唐健凯:视频和语言不一样,它的信息量非常大。如果所有数据都上传到云端处理,不仅延迟高,也会影响实时交互体验。因此,我们更倾向于端侧处理,让感知和推理直接发生在设备本地,这样响应会更及时,交互也会更流畅。
顺为资本:公司研发的实时生理与情绪理解基座模型,在技术路线和底层架构上具备全球唯一性。该技术可快速落地智能座舱、机器人和智能硬件等多元场景,应用空间广阔。顺为高度认可团队的技术与产品化能力,愿与微面科技在人、车、家全场景深度协同、长期陪伴,共同开拓下一代人机交互与具身智能赛道的商业前景。