AI 在研究稀有和少见语言方面取得了进展
5
hardware
大型语言模型缩小了语言鸿沟
新一代人工智能(AI)在处理稀有和不为人知的语言方面表现出显著进步,显著减少了全球“语言鸿沟”。这得到了RWS公司研究并发表于TechRadar的支持。
1. 研究结果显示
- Google Gemini Pro 在基尼亚卢旺达语(约1200万使用者,分布于卢旺达、乌干达和刚果民主共和国)的语言熟练度评分超过4.5/5。
- 作者解释成功原因在于现代模型不仅依赖特定语言的大型数据集,还利用所有语言的通用统计规律(跨语言迁移机制)。
- 词元化器(将文本拆分为“token”的系统)改进也有助于更准确地处理稀有语言。
2. “基准漂移”效应
专家发现,从一个模型版本过渡到下一个时,其能力可能会出现意外变化:
- 最新的OpenAI GPT 在某些内容生成任务上逊色于旧版,尽管其前身更为有效。
- 词元化器的效率在不同代之间可相差高达3.5倍,这意味着之前测试结果不一定适用于新版本。
3. 开发者优先级的变化
- 早期AI实验室将重点放在英语和少数关键语言上的性能上。
- 现代模型已能成功完成这些任务,关注点转向更广泛受众:对稀有语言的支持变得愈加重要。
- 然而,4.5/5 的评分并不保证真实的语言掌握水平;多语种支持目前尚未被视为关键。
4. 结论
AI 正在继续打破文化和语言之间的壁垒。尽管稀有语言的“覆盖率”尚未成为强制要求,但向更广泛受众扩展的趋势已显现,专家预计未来几年将进一步加强。
评论 (0)
分享你的想法——请保持礼貌并围绕主题。
登录后发表评论