CVPR会议是由IEEE主办的计算机视觉和模式识别领域的国际学术盛会,其汇集了全球该领域内最前沿的研究成果和技术进展,是全球计算机视觉领域的三大顶级会议之一。
ABAW赛事是专注于开放环境下(in-the-wild)的情感行为分析的国际赛事,其致力于推动计算机视觉技术在开放环境下对人类情感行为的分析能力,进而增强人机交互系统在多样化场景中的应用性和适应性,至今已成功举办六届,成为全世界范围内学术翘楚与业界巨头的汇聚之地,吸引了包括南加州大学、中国科学技术大学、南洋理工大学、莱斯特大学、清华大学、天翼云、俄罗斯科学院、加拿大蒙特利尔计算机研究所、美国普渡大学等在内的诸多研究团队和行业专家去参加了。在最新一届的赛事中,中国科大-云知声联合团队从众多实力强劲的参赛队伍中脱颖而出,充分体现其在情感行为分析赛道的领先实力。
人类情感行为分析旨在通过多种模态信息(视觉、听觉、文本等模态)来捕获人类有关表情和情绪的状态,从而分析人类内心的潜在目的或心理状况。该领域致力于自动识别、理解和解释人类情感表达和行为,以及将其应用于情感识别、人机交互、心理健康等领域。
人类情感行为分析是一门跨学科领域,它综合运用视觉、听觉、文本等多种模态信息来捕捉和解析人类表情和情绪状态,以此实现对人类情感表达和行为的自动检验测试、深入理解与精确解释,进而推动情感识别、人机交互、心理健康监测等一系列应用的发展。
ABAW6涵盖了面部表情分析相关的多个挑战项目,包括AU、EXPR和VA三个传统挑战赛道,此外,今年ABAW6还新增了混合情绪识别(CE)和情绪模仿强度估计(EMI)两个全新赛道——CE赛道提供56个无任何标注的视频,要求参赛者利用已有的数据资源和预训练模型预测其中的7种混合情绪;而EMI赛道则要求参赛者分析模仿者的视频,以推断原始“源”视频中所表达的情感强度。五个赛道各有千秋,拥有各自独特应用价值的同时,也带来不同的挑战。
针对EXPR赛道数据集规模有限的挑战,研究团队采用了半监督学习技术。该技术通过为未标记的面部数据生成表情类别伪标签,扩充了训练数据集,从而提升了模型的泛化能力和识别精度。同时,研究团队针对数据集中的类别不平衡问题和半监督学习中有几率存在的数据偏差,引入了去偏反馈学习策略,有效提升了模型的稳健性和准确性。为了进一步弥补仅从静态图像获取特征的局限性,研究团队还引入了时间编码器(Temporal Encoder)。该组件能够学习和捕捉相邻表情图像特征之间的时间关系,从而增强了模型对面部表情随时间变化的动态理解能力。
针对CE赛道人类情绪表达变得复杂的挑战,需要同时考虑局部和全局的面部表情来做出判断,研究团队提出了一种基于集成学习的解决方案,采用卷积网络、视觉Transformer和多尺度局部注意网络分别训练三个表情分类模型,并通过后期融合技术将它们的输出合并,以综合考量局部和全局表情特征,从而明显提升了在RAF-DB数据集上的识别准确度。此外,方法还展示了在C-EXPR-DB数据集上部分区域实现零样本学习的能力,为复合表情识别的进一步研究和应用提供了新的方法和视角。
针对EMI赛道数据集中情感表达的复杂性和多样性的挑战,研究团队基于ResNet18和面部动作单元(AUs)提取了丰富的双通道视觉特征用于视频模态,以及基于Wav2Vec2.0提取了有效的单通道音频特征用于音频模态。这使我们也可以获得视听模态下综合的情感特征。此外,通过后期融合策略,我们对视觉和声学模型的预测进行了平均,从而更准确地估计了视听情感模仿强度。
作为这些成果的延续与总结,研究团队将这些研究成果整理成四篇学术论文,并于国际顶级(CVPR)会议上发表。
继2023年发布山海大模型以来,云知声持续推动AGI技术在智慧物联、智慧医疗等领域全面应用。基于山海大模型,云知声持续拓展智能体(Agent)、检索增强生成(RAG)及多模态融合能力,积极探索更广泛的应用场景,并先后入选北京市通用AI十大模型伙伴及大模型十大应用案例,成为大模型领域的佼佼者。这次技术评测,是云知声多模态能力拓展的重要阶段性成果。
展望未来,中国科大-云知声联合团队将继续秉持技术创新的精神,积极推动情感行为分析技术的研发与升级,打造更真实、生动且富有情感温度的人机智能对话世界。