微软发布了三款新的内部 AI 模型,用于文本、语音和图像生成。

微软发布了三款新的内部 AI 模型,用于文本、语音和图像生成。

4 hardware

微软AI推出三款全新多模态模型

在加强人工智能(AI)领域竞争力的努力中,Microsoft AI研究部门宣布发布三款自研模型,可生成文本、语音和图像。这一举措是对顶尖AI实验室竞争的回应。

模型用途关键指标
MAI‑Transcribe‑1将语音转写为文字支持25种语言,速度快2.5倍于Azure Fast
MAI‑Voice‑1创建音频轨道一秒钟生成一分钟音频,可调节声音
MAI‑Image‑2根据文本生成图像

该项目由MAI Superintelligence团队开发,该部门专注于先进AI系统的基础研究。2025年11月,执行董事穆斯塔法·苏莱曼(Mustafa Suleyman)加入了团队。

经济效益
研发人员特别关注降低计算成本,相较于Google和OpenAI的同类产品:

服务价格
文本解码$0.36/小时
语音合成每100万字符$22
图像处理每100万输入令牌$5;每生成100万输出令牌$33

这些模型已在Microsoft Foundry平台上部署。语音转写和合成服务可通过MAI Playground使用。

与OpenAI的合作
尽管积极开发自有解决方案,穆斯塔法·苏莱曼确认了与OpenAI的合作承诺:微软已投资超过130亿美元。公司将继续在其产品中使用OpenAI模型,并根据长期合同采用类似于微芯片业务的多元化策略。

因此,Microsoft AI通过提供快速且经济高效的多模态解决方案,同时保持与关键伙伴的紧密联系,巩固了其在AI市场中的地位。

评论 (0)

分享你的想法——请保持礼貌并围绕主题。

暂无评论。留下评论,分享你的观点!

要发表评论,请先登录。

登录后发表评论