本文探讨了大语言模型(LLM)在儿科抑郁症辅助诊断中的应用。传统筛查工具如PHQ-9量表在儿科初级保健中存在局限性和不一致性,导致诊断数据的不完整和不一致。研究利用来自美国辛辛那提儿童医院医疗中心的1800名6-24岁患者的电子病历数据,通过手工标注22名患者的病历,涵盖16类与抑郁症相关的症状。研究人员使用FLAN T5、Llama 3和Phi三种先进LLM模型自动化识别这些症状类别,并与简单的关键词匹配方法进行比较。结果显示,所有三种LLM模型的效率比关键词匹配方法高出60%,其中FLAN T5模型在精确度方面表现最佳,平均F1值为0.65,尤其擅长提取较少见的症状;Phi模型在精确度和召回率之间取得平衡,在“感到沮丧”和“体重变化”等类别中表现良好。该研究表明,大语言模型在提高儿科抑郁症诊断的一致性和效率方面具有显著潜力,但仍面临临床记录复杂性及PHQ-9评分误读等挑战。