近日消息,尽管人工智能技术在医疗健康领域的应用取得了显著成就,但通用型AI模型,如ChatGPT,在面对复杂医疗诊断情景时显露出了其局限性与挑战。这表明,在高度专业化与精密化的医疗决策过程中,人工智能尚需进一步的优化与特定领域的深入学习,以提升其诊断准确性和可靠性。
加拿大安大略省西部大学的医学教育家Amrit Kirpalani领导的研究团队发现,ChatGPT在诊断150个来自Medscape的复杂医疗案例中,有76个出现错误,错误率超过50%。
这项研究采用了Medscape的问题库,这些案例比美国医师执照考试(USMLE)更接近真实医疗情况,包含多种并发症和诊断难题。研究团队通过巧妙的提示设计,绕过了OpenAI对ChatGPT用于医疗建议的禁令。
Kirpalani指出,ChatGPT的表现不佳主要归因于两个因素:首先,与专门的医疗AI相比,ChatGPT缺乏深厚的医学领域专业知识;其次,ChatGPT在处理医学"灰色地带"时表现欠佳,无法像人类医生那样灵活解读轻微异常的检查结果。
更令人担忧的是,即使在给出错误诊断时,ChatGPT也能提供看似合理且有说服力的解释。这种特性可能会误导非专业人士,增加错误信息传播的风险。
尽管如此,AI在医疗领域仍有其价值。研究合著者Edward Tran表示,ChatGPT已成为医学院教育中的重要工具,帮助学生整理笔记、澄清诊断算法和备考。然而,Kirpalani强烈建议公众不要使用ChatGPT寻求医疗建议,而应继续咨询专业医疗保健提供者。
Kirpalani认为,构建可靠的AI医生需要大量临床数据训练和严格监督。在短期内,AI更可能被用来增强人类医生的工作,而非完全取代他们。随着技术的不断进步,AI在医疗领域的应用仍将是一个值得关注的话题。
文明上网,理性发言,共同做网络文明传播者