Mistral推出超快翻译新模型,挑战大型AI实验室
作者: aeks | 发布时间: 2026-02-06 04:04 | 更新时间: 2026-02-06 04:04
学科分类: 信息与通信工程 网络空间安全 计算机科学与技术 软件工程
周三,总部位于巴黎的人工智能实验室Mistral发布了两款新的语音转文本模型:Voxtral Mini Transcribe V2和Voxtral Realtime。前者用于大批量转录音频文件,后者则能实现近实时转录,延迟控制在200毫秒以内;两款模型均可在13种语言之间进行互译。其中,Voxtral Realtime依据开源许可免费开放使用。
这两款模型拥有40亿参数,体积小巧到足以在手机或笔记本电脑上本地运行——Mistral称这在语音转文本领域尚属首次,这意味着私人对话无需上传至云端处理。据Mistral介绍,新模型不仅运行成本更低,出错率也低于同类竞品。
尽管Voxtral Realtime输出的是文本而非语音,Mistral仍将其视为跨越语言障碍实现流畅对话的重要一步,而苹果和谷歌也在竞相解决这一问题。目前谷歌的最新模型翻译延迟为两秒。
Mistral负责科学运营的副总裁皮埃尔·斯托克在接受《连线》杂志采访时表示:“我们正在构建一个能够无缝翻译的系统。这款模型基本上为此奠定了基础。我认为这个问题将在2026年得到解决。”
Mistral成立于2023年,由Meta和谷歌DeepMind的前员工创立。从能力层面看,它是少数几家欧洲公司中,能够开发出接近美国市场领导者(如OpenAI、Anthropic和谷歌)水平的基础人工智能模型的企业之一。
由于无法获得与美国同行同等水平的资金和计算资源,Mistral专注于通过富有创意的模型设计和对训练数据集的精心优化来提升性能。其目标是,模型开发各个环节的微小改进能转化为实质性的性能提升。“坦白说,太多的GPU会让人变得懒惰,”斯托克称,“你只会盲目测试很多东西,却不去思考通往成功的最短路径。”
Mistral的旗舰大型语言模型(LLM)在原始能力上虽不及美国竞争对手开发的同类模型,但该公司通过在价格与性能间取得平衡,开辟了自己的市场。“Mistral提供了一种更具成本效益的替代方案,其模型规模不大,但足够好用,且可公开共享,”萨里大学数字经济中心主任安娜贝勒·高维尔表示,“它或许不是一级方程式赛车,但却是一辆非常高效的家用车。”
与此同时,当美国同行投入数千亿美元角逐通用人工智能时,Mistral正打造一系列专业(尽管不那么引人注目)模型,旨在执行如语音转文本这类特定任务。
“Mistral并未将自己定位为利基市场玩家,但它确实在打造专业模型,”高维尔说,“作为拥有资源的美国公司,它们希望拥有强大的通用技术,不会浪费资源针对特定行业或地区的语言及特点进行微调。这些利润较低的业务就被留了出来,为中型企业创造了空间。”
随着美国与其欧洲盟友的关系出现恶化迹象,Mistral也愈发强调其欧洲根源。“欧洲存在一种趋势,企业尤其是政府,正密切关注对美国软件和人工智能公司的依赖,”IT咨询公司PAC的首席分析师丹·比勒表示。
在此背景下,Mistral将自己定位为最可靠的选择:一个源自欧洲、支持多语言、开源的替代方案,以对抗美国开发的专有模型。“他们的问题一直是:在一个由资金雄厚的美国企业主导的市场中,如何建立有防御能力的地位?”科技咨询公司D’Ornano + Co的创始人拉斐尔·多尔南诺表示,“Mistral迄今为止采取的方法是,希望成为符合欧盟所有法规的主权替代方案。”
比勒预测,尽管与美国巨头的性能差距仍将存在,但随着企业努力从人工智能投资中获取回报,并考虑地缘政治因素,针对行业和地区特定需求优化的小型模型将会迎来发展机遇。
“大型语言模型是主导讨论的巨头,但我不认为这种情况会永远持续,”比勒称,“小型且更注重地区性的模型在未来将发挥更大作用。”