豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语
- 2025-12-05 16:42:29
12月5日消息,今日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合专家大语言模型架构构建。
据介绍,2.0版本模型推理能力提升,可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%。
同时支持多模态视觉识别,不仅“听懂字”还能“看懂图”,通过单图和多图等视觉信息输入让文字识别更精准。

此外,2.0版本还支持日语、韩语、德语、法语等 13 种海外语种的精准识别。
并且重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级。
以历史人物生平讨论场景为例,当用户提及苏辙贬谪地“筠(yún)州”时,如果模型缺乏推理能力会易将其误识别为同音的“云州”“郓州”等。
而豆包语音识别模型2.0可依托“当前讨论苏轼、苏辙”这一背景,即便上下文从没出现过“筠州”,也能通过逻辑推理锁定用户所指的特定地名,最终实现对多音字地名的精准识别。
目前,豆包语音识别模型2.0已上线火山方舟体验中心并对外提供API服务。
相关文章
最新
- 3天前
2026国际工程建设博览会—2026第六届国际工程建设供应链博览会
- 3天前
技术底蕴与行业深耕双轮驱动:天跃科技以场景化智能,领跑巡检机器人赛道
- 3天前
现场签约8亿元!智身科技全球渠道生态大会圆满落幕,推动具身智能规模化落地
- 3天前
买机器人上京东!企业采购、租赁、部署机器人一站式搞定
- 3天前
枢途科技 HORA 多模态数据集入选 EAI-100,定义具身智能数据新高度
- 3天前
章鱼动力完成近5000万美元首轮融资,首发SYNTH深思架构赋能机器人实操升级
- 3天前
AI的"ChatGPT时刻"在物理世界:突破OpenClaw,千巡科技用"时空记忆"让AI接手工业场景
- 3天前
AI智能体重构传播链路,媒体管家上海软闻以技术驱动媒体公关业务逆势增长
- 3天前
际上导航:高精度定位感知技术 驱动无人工程机械产业变革
- 3天前
形朗科技亮相TCT ASIA 2026,签约多家伙伴加码中国市场
- 3天前
天空工场创投基金被投企业「深脉矿业」AWE 2026首秀:具身智能重构矿业勘探新范式
- 3天前
换新赋能,FIBRO转台引领工业部件再利用
荐读
-
AI智能体重构传播链路,媒体管家上海软闻以技术驱动媒体公关业务逆势增长
在流量红利见顶与注意力极度碎片化的双重挑战下,2026年春节后的公关传播市场正经历着一场深刻的“洗牌”。当传统的人工邀约模式因效率低下逐渐被品牌方摒弃时,媒体管...
-
还能这么“玩”?2025首届国际人形机器人街舞邀请赛高光时刻
机器人跳街舞,这是认真的吗?这不是一场传统的街舞Show,甚至舞台上“人”的元素都被弱化了,但它就是被朋友圈刷爆了,被媒体圈围观了,被大众们圈粉了!没错,街舞还...
-
电升油降!纯电动力连续4月成大三排SUV市场销冠 蔚来立大功
中汽终端公布了大三排SUV市场各动力类型的最新销量。数据显示,2025年12月纯电大三排SUV销量54518台,插混销量49760台,燃油销量38123台,增程...





