James T. Rutka鲁特卡教授研究：大型语言模型与AI在同行评审结果预测中的应用-国际神经外科医生集团

　　人工智能技术的快速发展为优化同行评审流程创造新的机遇，该技术可为学术期刊、编辑人员、评审专家及作者提供关键决策支持。本研究基于评审专家评论文本和编辑最终决定，对多种标准大型语言模型和Transformer模型进行微调，旨在识别与期刊稿件录用或退稿决定相关的文本特征。

　　James T. Rutka教授作为世界神经外科学院前院长，在儿童神经外科领域拥有30余年研究经验，其团队在脑瘤分子分型、精准治疗、新药研发和微创治疗方面取得重要突破。最新研究成果《大型语言与人工智能建模在同行评审结果预测中的应用》对医学期刊评审体系优化具有重要价值。

研究方法与数据来源

　　本研究与《Journal of Neurosurgery》出版集团合作，纳入2021年至2023年间提交至《Journal of Neurosurgery》及其子刊的所有稿件数据。经过匿名化处理，最终决定和评审人评论被用于分析。所有最终决定被分为二元类别：录用/修改 versus 退稿/转投。

　　研究方法包括从文本评审意见中移除引导性词汇（如"录用"或"退稿"），随后使用多种机器学习和大型语言模型进行分析预测。采用的模型包括BERT、GPT-2、GPT-3、GPT-4o以及GRU变体等，通过这些模型预测稿件的最终决定结果。

大型语言模型与人工智能建模在同行评审结果预测中的应用

研究结果与模型性能

　　ROC曲线分析显示，经过微调的GPT-4mini和GPT-3模型获得最高曲线下面积值，均为0.91。BERT和GPT-2模型表现次之，AUC值均为0.84。双向GRU和未训练GPT-3模型的AUC值分别为0.75和0.70，而单向GRU和未训练GPT-4o模型表现相对较弱，AUC值分别为0.68和0.67。

　　SHAP分析结果表明，逻辑回归模型识别出"future"、"interesting"和"written"等词汇是稿件录用的显著正向预测因子，而"clear"、"unclear"和"does"等词汇与退稿决定相关。GRU模型识别出的重要预测因子包括"study"、"useful"和"journal"等正向指标，以及"unclear"、"reading"和"incidence"等负向指标。

研究结论与学术价值

　　此项概念验证研究证实，经过微调的人工智能模型（特别是GPT-3）能够仅基于文本评审意见以合理准确度预测稿件录用结果。影响文章决定的关键因素包括文章清晰度、实用性、适用性、队列规模以及回应评审意见的细致程度。

　　研究结果表明，经过适当微调的人工智能建模在辅助和优化同行评审流程方面具有显著潜力。该技术可为学术出版提供客观、高效的决策支持，同时减轻编辑和评审专家的负担。

文献来源：Benjamin S.Hopkins MD, MBA, et al. Application of large language and artificial intelligence modeling in the prediction of peer-review outcomes. Journal of Neurosurgery, 2025.