分享好友 资讯首页 资讯分类 切换频道

字节跳动正式发布端到端同声传译模型:准确率接近真人 3秒延迟

2025-07-28 16:04760kongyu

快科技7月24日消息,今日,字节跳动宣布正式发布端到端同声传译模型Seed LiveInterpret 2.0。

据介绍,这是首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界SOTA的同时,实现了极低语音延迟水平。

字节跳动表示,该模型基于全双工端到端语音生成理解框架,支持中英互译。

可实时处理多人语音输入,像人类同传译员一样以极低的延迟“边听边说”,一边接收源语言语音输入,一边直接输出目标语言的翻译语音。

图片

同时,Seed LiveInterpret 2.0还支持0样本声音复刻,沟通更流畅自然。

不过,目前模型主要支持中英互译。

相比传统机器同传系统,Seed LiveInterpret 2.0具有以下四大优势:

接近真人同传的翻译准确率

在多人会议等复杂场景中英双向翻译准确率超70%,单人演讲翻译准确率超80%,接近真人专业同传水平。

极低延迟的“边听边说”能力

翻译延迟可低至2-3秒,较传统机器同传系统降低超60%。

零样本声音复刻

只需采样实时语音信号,便能提取声音特征,用说话人的音色特质实时“说出”外语。

智能平衡翻译质量、延迟和语音输出节奏

根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性。

模型测评结果显示,在语音到文本同传任务中,Seed LiveInterpret 2.0中英互译平均翻译质量的人类评分达到74.8(评估译文准确率,满分100),较排名第二的基准系统(47.3分)超出58%。

图片

在语音到语音任务中,业界仅3个翻译系统支持该能力,其中Seed LiveInterpret 2.0中英互译平均翻译质量达到66.3分(除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标,满分100),远超其他基准系统,达到接近专业真人同传的水平。

同时,大部分基准系统也不支持声音复刻功能。

在延迟表现上,Seed LiveInterpret 2.0在语音到文本场景中,输出首字平均延迟仅2.21秒,在语音到语音场景中,输出延时仅2.53秒,做到了对翻译质量以及时延的均衡。

图片

举报
收藏 0
打赏 0
评论 0
2024年中国集成电路领域公开专利数据出炉
近日,上海硅知识产权交易中心(SSIPEX)发布2024年版《中国集成电路产业知识产权年度报告》(以下简称《报告》)。《报告》显示

0评论2025-08-0666

从“VIP回馈”到强制消费:保险机构站台的境外游套路有多深?
近日,南方都市报披露的一则消费纠纷,将低价境外游背后的维权困局再次推向公众视野。上海消费者黄先生的父母参加了号称“富德生

0评论2025-08-0692

鲁医健康说丨夏季高温 这份中医养生宝典快快收藏!
齐鲁网·闪电新闻7月29日讯 7月29日,山东省卫生健康委“鲁医健康说”健康知识发布会召开,本次发布的主题是夏季高温健康防护。

0评论2025-08-0684