《“医学多智能体基准平台”：多智能体协作与常规方法在多种医疗任务中的基准测试》-动脉网

《“医学多智能体基准平台”：多智能体协作与常规方法在多种医疗任务中的基准测试》

数字医疗等信源发布 2025-06-15 08:53





本文介绍了“医学多智能体基准平台”，这是一个全新的医疗人工智能评估基准，旨在系统评估多智能体协作、单一大语言模型和常规方法在多种医疗任务中的表现。随着大语言模型在医疗领域的广泛应用，多智能体协作模式被视为提升复杂任务处理能力的重要方向，但其实际优势尚未得到充分验证。为此，研究团队设计了涵盖多种数据模态与临床场景的综合评估框架，填补现有研究在通用性和基线完整性方面的空白。该平台涵盖了四大类医学任务，包括医学文本与视觉问答、通俗摘要生成、结构化电子病历预测建模以及临床工作流自动化。每项任务中，研究团队对常规方法（如基于树的方法、循环神经网络等）、单一大语言模型方法（采用零样本、少样本、思维链等提示策略）和多智能体协作方法（模拟医生、护士、药师等不同角色之间的协作过程）进行了系统评估。评估指标包括准确性、受试者工作特征曲线下面积、精确率-召回率曲线下的面积等。通过这一平台，研究团队希望能够全面比较各种方法在实际医疗任务中的表现，从而为未来的研究提供参考。

全球产业链接平台

重庆市渝北区金星科技大厦A区5楼512室

联系电话：023-67139735（重庆）

关于我们

产品服务