人工智能机器人在诊断中的错误率近乎80%,这在一项研究中得以证实

人工智能机器人在诊断中的错误率近乎80%,这在一项研究中得以证实

3 hardware

简短研究结果概述

最近一项发表在《Jama Network Open》并被《金融时报》引用的研究显示,流行聊天机器人在仅获得有限数据时无法准确做出医学诊断。在超过80%的情况下,它们给出了错误诊断,而只有在完整描述症状后,其准确率才提升至90%。

研究如何进行
步骤 | 所做内容 | 案例选择
---|---|---
案例挑选 | 从参考文献中挑选29个临床情景 |
数据传递 | 患者信息逐步提供给聊天机器人:病史 → 检查结果 → 实验室分析 |
向AI提问 | 问诊断问题;测量答案的准确性和完整度 |

实验参与者
- 20款热门模型(OpenAI、Anthropic、Google、xAI、DeepSeek)
- 在数据不完整时,超过80%给出错误诊断
- 随着信息量增加,准确率提升:最佳情况>90%,平均误差<40%

开发者反应
| 公司 | 评论 |
|---|---|
| Google & Anthropic | 当尝试获取医疗建议时,聊天机器人强烈建议咨询专业人士。 |
| OpenAI | 在使用条款中指出,其服务不用于获得授权的医疗建议。 |
| xAI & DeepSeek | 未提供评论。 |

其中一些公司正在开发专用模型:Google推出了AMIE,在表现上相当不错,但其结论仍需由真人医生确认,尤其考虑到视觉评估的重要性。

结论
聊天机器人可作为辅助工具,但在信息有限的情况下常犯错误。目前它们不能替代合格医疗专业人员,尽管这些模型可能在传统医疗资源匮乏地区发挥作用。

评论 (0)

分享你的想法——请保持礼貌并围绕主题。

暂无评论。留下评论,分享你的观点!

要发表评论,请先登录。

登录后发表评论