该研究提出了一种利用大型语言模型作为评估者,实现医疗人工智能文本生成(特别是临床摘要)自动化评估的方法。文章指出,电子病历中的大量信息给医护人员带来了巨大负担,而大语言模型生成的摘要可以缓解这一问题,但其准确性和安全性需要严格评估。传统的人类专家评估虽然准确但耗时且成本高昂。为解决这一瓶颈,研究引入了“大语言模型判官”方法,通过使用GPT-o3-mini等大语言模型进行自动化评估。实验结果显示,GPT-o3-mini在单一框架中与人类评估者的一致性高达0.818,且评估速度显著提升,平均只需22秒。此外,多智能体框架虽然一致性略低,但在模拟人类评估者差异方面表现更好。研究表明,“大语言模型判官”框架在提高评估效率和准确性方面具有显著优势。