EN
登录

《“医学多智能体基准平台”:多智能体协作与常规方法在多种医疗任务中的基准测试》

数字医疗 等信源发布 2025-06-15 08:53

本文介绍了“医学多智能体基准平台”,这是一个全新的医疗人工智能评估基准,旨在系统评估多智能体协作、单一大语言模型和常规方法在多种医疗任务中的表现。随着大语言模型在医疗领域的广泛应用,多智能体协作模式被视为提升复杂任务处理能力的重要方向,但其实际优势尚未得到充分验证。为此,研究团队设计了涵盖多种数据模态与临床场景的综合评估框架,填补现有研究在通用性和基线完整性方面的空白。该平台涵盖了四大类医学任务,包括医学文本与视觉问答、通俗摘要生成、结构化电子病历预测建模以及临床工作流自动化。每项任务中,研究团队对常规方法(如基于树的方法、循环神经网络等)、单一大语言模型方法(采用零样本、少样本、思维链等提示策略)和多智能体协作方法(模拟医生、护士、药师等不同角色之间的协作过程)进行了系统评估。评估指标包括准确性、受试者工作特征曲线下面积、精确率-召回率曲线下的面积等。通过这一平台,研究团队希望能够全面比较各种方法在实际医疗任务中的表现,从而为未来的研究提供参考。