EN
登录

《“医疗幻觉检测”:检测大语言模型中医疗幻觉的综合性基准》

2025-03-31 数字医疗 等1家媒体报道 科研进展

随着大语言模型在医疗等领域的广泛应用,其生成错误信息(即“幻觉”)的问题日益凸显。针对这一挑战,研究人员开发了首个专门用于检测医疗领域大语言模型幻觉的综合基准——“医疗幻觉检测”。该基准由美国多所大学的研究人员合作完成,包含10,000个经过严格筛选的医疗问答对,通过受控管道系统生成幻觉答案,旨在模拟实际应用中的错误。实验表明,当前最先进的大语言模型在检测医疗幻觉方面仍存在不足,特别是在处理复杂语义偏差时表现不佳。为此,研究人员提出引入双向蕴含聚类和领域特定知识,并增加“不确定”类别,以显著提高幻觉检测的精确度和F1分数。这一基准为评估和改进医疗领域大语言模型的可靠性提供了重要工具。(摘要由动脉网AI生成)