点石成金！AI成功挖掘论文“宝藏” 有助以数据驱动方式合理分配科研资源

英国《自然·生物技术》杂志18日发表一项跨越人工智能及生物技术的研究，美国麻省理工学院团队研发的一个机器学习模型，可用于预测科学文献中已发表研究的未来影响力。目前，这个模型的打分可用来预测任意年份发表的“前5%的论文”，其将能补充当前依赖论文引用量指标的文献计量分析系统。

现阶段，有许多系统都被用来评估研究人员的科研产出，包括基于他们所著论文引用量的指标。随着人工智能领域机器学习的兴起，科学家们认为可以从研究人员产出的更多角度去评判他们发表研究的潜在影响力。

为此，麻省理工学院研究团队推出了一个机器学习模型，该模型能预测以时间为尺度的网页排名分数——类似于用来给网页重要性排名的指标，并提议将该模型用于评估研究人员的产出。

为实现这个想法，科学家詹姆斯·维斯及约瑟夫·贾科布森建立了一个名为“通过学习预测高影响实现动态预警”的模型，并用科学研究图谱加以训练。研究团队使用的数据集，包含1980年到2019年期间发表的1687850篇具有唯一性的论文，从中得到了论文发表后1年到5年与每例论文、作者、期刊、网络相关的29个特征。研究团队再用每篇论文的特征训练一个机器学习模型，让这个模型给出影响力“预警”分数。

在一次回顾性盲法研究中，这一最新模型准确识别出了1980年到2014年间20项具有重大影响的生物技术中的19项。这个模型还预测，2018年在42本生物技术领域期刊发表的50篇论文可能会跻身未来排名的前5%，这一结果将能以数据驱动的方式发现并让经费流向那些“深藏不露”的好研究。

研究人员表示，在将这类模型应用于其他研究领域前，仍需开展进一步测试，将该方法在生物技术以外领域的表现与常规影响力指数相比较，比如领域归一化的引用分数。