学术评审中的“潜规则”?引用了审稿人研究的论文通过概率更高
一篇基于预印本平台的研究指出,同行评审过程中存在一种倾向:当审稿人自己的研究被论文引用时,他们更有可能建议接受该稿件。该研究分析了四种开放获取出版平台上18400篇论文的评审数据。
研究显示,在被引用的审稿人中,建议接受论文的比例高于未被引用的审稿人。具体而言,在评审意见要求引用自身工作、且作者在修改稿中予以采纳的情况下,有92%的审稿人在后续评审中推荐接受论文,而未获引用的审稿人群体中这一比例为76%。另一方面,如果审稿人建议引用其研究但未获作者响应,他们拒绝论文或提出保留意见的可能性约为直接批准的两倍。
分析还发现,要求引用的审稿人在拒绝论文时更常使用如“需要”或“请”等具有较强指向性的词汇。不过也有学者指出,这类用语未必构成强制,审稿人推荐引用(包括自己的研究)可能是出于提高论文质量的合理建议。
该研究承认目前无法准确区分“不合理要求”与“正当建议”之间的界限。为解决这一问题,研究者建议审稿人在提出引用要求时必须说明理由,并推荐引入算法辅助工具,以帮助期刊编辑识别和审查可能的强制性引用行为。
用AI生成的数据训练AI:合成人脸能否破解面部识别的伦理困境?
人工智能(AI)的面部识别技术曾因系统性偏见而饱受争议——对白人男性识别准确率极高,但对深肤色人群错误率可高出百倍,导致从手机解锁失败到错误逮捕等一系列后果。近年来,通过优化数据集、提升算力及改进算法,识别精度显著提高,目前多数系统在受控环境下准确率已超过99%,不同人口群体的识别差异基本消除。
然而高精度背后存在严重的隐私隐患。企业与研究机构常未经许可从互联网抓取数百万张真实人脸数据用于训练,不仅侵犯个人隐私,还带来身份盗用和监控滥用的风险。为此,研究者提出采用生成式人工智能制作合成人脸数据,以替代真实图像进行模型训练。
合成人脸并非真实存在,因此无需担心隐私泄露。尽管当前基于合成数据训练的模型整体准确率(约75%)仍低于用真实数据训练的模型(85%),但其在不同种族、性别和年龄群体之间的识别一致性显著更好,偏见更少。例如,一项研究发现,使用合成数据训练的模型在不同人群之间的性能波动比用真实数据WebFace训练的模型低三分之二。
目前合成数据面临两大挑战:一是生成身份多样性有限,二是生成图像过于“理想化”,缺乏现实场景中的复杂变化。为进一步提升准确性,研究机构正探索混合训练策略:先利用合成数据学习跨人口群体的共同特征,再采用经授权的真实数据对模型进行微调。
尽管面部识别技术越来越精准,民权组织也警告其可能带来全天候追踪的风险。但学术界普遍认为,一个更准确、更公平的系统,远比一个有偏见且不可靠的系统更符合社会利益。合成数据技术虽起步较晚(2023年首次提出),但随着生成算法的快速演进,它有望在保护隐私与提升公平性之间找到关键平衡。