人工智能机器人在诊断中的错误率近乎80%，这在一项研究中得以证实

16.04.2026 3 hardware

简短研究结果概述

最近一项发表在《Jama Network Open》并被《金融时报》引用的研究显示，流行聊天机器人在仅获得有限数据时无法准确做出医学诊断。在超过80%的情况下，它们给出了错误诊断，而只有在完整描述症状后，其准确率才提升至90%。

研究如何进行
步骤 | 所做内容 | 案例选择
---|---|---
案例挑选 | 从参考文献中挑选29个临床情景 |
数据传递 | 患者信息逐步提供给聊天机器人：病史 → 检查结果 → 实验室分析 |
向AI提问 | 问诊断问题；测量答案的准确性和完整度 |

实验参与者
- 20款热门模型（OpenAI、Anthropic、Google、xAI、DeepSeek）
- 在数据不完整时，超过80%给出错误诊断
- 随着信息量增加，准确率提升：最佳情况>90%，平均误差<40%

开发者反应
| 公司 | 评论 |
|---|---|
| Google & Anthropic | 当尝试获取医疗建议时，聊天机器人强烈建议咨询专业人士。 |
| OpenAI | 在使用条款中指出，其服务不用于获得授权的医疗建议。 |
| xAI & DeepSeek | 未提供评论。 |

其中一些公司正在开发专用模型：Google推出了AMIE，在表现上相当不错，但其结论仍需由真人医生确认，尤其考虑到视觉评估的重要性。

结论
聊天机器人可作为辅助工具，但在信息有限的情况下常犯错误。目前它们不能替代合格医疗专业人员，尽管这些模型可能在传统医疗资源匮乏地区发挥作用。

Related news