阿里通义千问开源AI新模型,可借由影片推理判断“人类情绪”(组图)
阿里巴巴集团通义实验室团队11日宣布开源R1-Omni模型,该模型结合强化学习与可验证奖励(RLVR)方法,专注于提升多模态情感识别任务中的推理能力和泛化性能。
阿里巴巴「通义千问」AI大模型。(图/翻摄阿里巴巴)
简单来说,R1-Omni的特色在于推理能力上的提升。通过RLVR方法,AI能借由声音和影像对人类各种情绪做出判断及识别。
阿里巴巴「通义千问」 连接旗下所有产品。(图/翻摄微博)
《IT之家》报导,随著DeepSeek R1的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward(RLVR)方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。
据了解,R1-Omni在基于DeepSeek R1的基础上,能更清楚地理解视觉和听觉信息如何促进情绪识别,透过影片,能更加清楚辨别人类喜怒哀乐等情绪,并且给出详细推理过程,成为电脑在理解人脑的强化学习模式。
阿里通义团队选择开源Omni模型HumanOmni-0.5B作为基础模型,目前,已经开源出基本模型HumanOmni-0.5B、冷启动模型EMER-SFT、直接在MAFW和DFEW训练集上微调的模型MAFW-DFEW-SFT,以及最终模型R1-Omni。