-
和大模型语音聊天视频通话?Qwen2.5-Omni开源
3月27日,通义千问Qwen系列中的全新多模态大模型Qwen2.5-Omni宣布开源。
Qwen2.5-Omni作为通义系列模型中首个端到端全模态大模型,可以同时处理包括文本、图像、音频和视频等多种输入,并实时合成输出文本与自然语音。
这意味着,用户可以和Qwen进行语音聊天和视频通话,有网友对此表示强烈欣喜。
事实上,在一系列同等规模的单模态模型权威基准测试中,Qwen2.5-Omni在语音生成测评分数上达到了与人类持平的能力,这为该模型在语音和视频通话的可行性上提供了数据层面的支撑。
在具体技术上,Qwen2.5-Omni采用了通义团队全新首创的Thinker-Talker双核架构、Position Embedding融合音视频技术、位置编码算法TMRoPE(Time-aligned Multimodal RoPE)。
双核架构Thinker-Talker让Qwen2.5-Omni拥有了人类的“大脑”和“发声器”。Thinker负责处理和理解用户输入的内容,Talker则输出相应的语音标记。通过两者的配合完成了端到端的统一模型架构,将实时语义理解与语音生成形成协同。
TMRoPE则通过时间轴对齐实现视频与音频输入的精准同步,使得模型能够准确地捕捉到不同模态数据在时间维度上的对应关系,从而为生成连贯、准确的内容。
值得注意的是,Qwen2.5-Omni以7B的小尺寸让全模态大模型在产业上的广泛应用成为可能。用户在手机上,也能轻松部署和应用Qwen2.5-Omni模型。
目前,开发者和企业可免费下载商用Qwen2.5-Omni。
本文系观察者网独家稿件,未经授权,不得转载。
标签 Qwen- 责任编辑: 张睿佳
-
1.2亿老年人听力受损,专业服务机构给出新对策
2025-03-27 14:00 观网财经-消费 -
中国AI+!自主研发船体清洁机器人亮相全球
2025-03-27 13:09 观网财经-科创 -
张亚东辞任董事长,绿城中国进入“中交时代”
2025-03-27 10:47 观网财经-房产 -
库克闪现网易与丁磊见面,体验网易游戏
2025-03-27 09:04 观网财经-互联网 -
经历了“不平凡”的一年,农夫山泉业绩挺住了
2025-03-26 22:03 观网财经-消费 -
净利177亿,但快手慢下来了
2025-03-26 21:46 观网财经-互联网 -
AI与国运:中华文明将引领AI时代
2025-03-26 21:41 -
两件“国之重器”,同一个幕后功臣!
2025-03-26 21:38 观网财经-科创 -
上海全球投资促进大会:万亿级产业矩阵“磁吸”全球资本
2025-03-26 21:34 观网财经-宏观 -
茶咖日报|2024年新茶饮耗茶量30万吨,占茶叶内销总量1/8
2025-03-26 21:32 观网财经-消费 -
中国移动将与阿里共同建设运营AI数据中心
2025-03-26 19:33 观网财经-互联网 -
减持两家亏损企业,蚂蚁瘦身入账7.75亿元
2025-03-26 17:58 -
菜刀变镰刀?张小泉大涨后宣布控股股东预重整
2025-03-26 16:52 观网财经-消费 -
腾讯新游定档,或成端游新玩法“大三元”格局
2025-03-26 16:47 观网财经-互联网 -
原华为、百度核心科学家领衔,中国最豪华具身智能团队获创纪录融资
2025-03-26 16:16 观网财经-科创 -
“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
2025-03-26 15:06 -
胖东来,彻底“透明”
2025-03-26 14:26 观网财经-消费 -
补税+罚款,印度要求三星支付44亿
2025-03-26 14:04 观网财经-科创 -
腾讯元宝上线最新DeepSeekV3模型
2025-03-26 13:53 观网财经-互联网 -
手机直连卫星蓝牙?蓝凌星通完成数千万元天使+轮融资
2025-03-26 13:52 观网财经-科创
相关推荐 -
最新闻 Hot