|
|
騙過同行評審!垃圾200多篇軟件生成的騙過評審“垃圾”論文竟成功發表 | |

編譯 | 晉楠 用計算機軟件“炮制”論文、騙過同行評審,同行最終還能渾水摸魚成功發表?近日發表于《自然》的多篇的論一篇文章顯示,法國科學家通過檢測數百萬篇論文,軟件發現了243篇這樣的生成“垃圾”文章。 研究還發現,文竟網這些軟件制造出的成功論文大多數由來自中國(64%)或印度(22%)的研究人員撰寫,盡管研究者表示,發表其中一些論文可能是新聞在作者不知情的情況下以他們的名義提交的。 一些涉事出版商已經表示將撤下這些論文,科學但讓更多人質疑的垃圾是,一些期刊的騙過評審同行評審難道是“吃素”的?為何會讓如此多計算機生成的論文成為漏網之魚? “垃圾”文章如何生成? 早在2005年,出于“玩心”,同行美國麻省理工學院3位計算機博士生Jeremy Stribling、多篇的論Daniel Aguayo 和 Maxwell Krohn,創造了一款叫作SCIgen的論文生成軟件,以了解一些會議是否會接收毫無意義的“垃圾”論文。 SCIgen能把單詞拼湊在一起,生成帶有隨機標題、文本和圖表的研究文章。它們很容易被人類讀者發現是胡言亂語。 結果,出于“惡作劇”讓計算機寫的一篇文章Rooter: A Methodology for the Typical Unification of Access Points and Redundancy,竟然被當年7月在佛羅里達舉行的第9屆世界系統、控制論和信息學多學科大會(WMSCI)接收了。 事情到此并未結束。 由于SCIgen軟件可免費下載,任何人都可以使用,類似的“惡作劇”還在繼續,并逐漸發展為一種論文造假的手段,讓科學文獻中涌現出一批“垃圾”文章。 到2012年,法國計算機科學家Cyril Labbe發現,美國電氣和電子工程師協會(IEEE)出版的會議論文中有85篇出自SCIgen的偽造論文。他還找到了120多篇被IEEE和施普林格(現為施普林格·自然的一部分)發表的假SCIgen論文。 Labbe表示,目前還不清楚這些論文是誰撰寫的,以及為什么這樣做。隨后其中一些文章被撤銷,有的則被刪除。 如何防范這些計算機“發明”的論文呢? 為此,Labbe注冊了一個網站,可以讓任何人上傳手稿,檢查它是否為SCIgen編程的“發明”。 
Labbe發起的網站 施普林格也贊助了一個幫助發現SCIgen論文的博士項目,產生了一個叫作SciDetect的免費“偵查”軟件。 
SciDetect的免費“偵查”軟件 為了簡歷“好看”發“垃圾”文章? 最初,Labbe需要在論文手稿中搜索SCIgen的典型詞匯。后來他和法國圖盧茲大學計算機科學家Guillaume Cabanac提出了一個新想法:尋找SCIgen輸出短語的關鍵語法特征。2020年5月,他們在Dimensions數據庫收錄的數百萬篇論文中搜索了這些短語。 在近日發表于ASIS&T的一項研究中,他們表示,在對每篇文章進行人工檢查后,發現了243篇完全或部分由SCIgen撰寫的“垃圾”文章。 
截至2020年5月20日,作者檢測到的243篇含有SCIgen文本的文檔的年份分布情況,以及每年文檔類型的份額。圖源:Labbe等 
每年由出版商生成的包含SCIgen文本的論文數量。2020年不完整,因為數據截止日期為2020年5月20日。圖片來源:Labbe等 這些論文發表于2008~2020年,出現在各種期刊、會議論文集和預印本上,大多數屬于計算機科學領域。還有一些論文則出現在開放獲取的期刊上,甚至是付費閱讀期刊上。其中,46篇已從最初發布的網站上被撤銷或刪除。 
從圖中可以看到,IEEE、ACM(國際計算機協會)、IAES(航空航天與電子系統)、美國科學出版社等期刊、會議或機構都曾發表過相關論文。(圖中“C”表示封閉獲取,“O”表示開放獲取。)圖片來源:Labbe等 自去年以來,Labbe的清單上又增加了20篇論文,其中包括用MATHgen(生成數學論文的軟件)和SBIR提案生成器(生成無意義的撥款提案)編寫的亂七八糟的文章。 Labbe指出,最新一批的SCIgen論文大多數由來自中國(64%)或印度(22%)的研究人員撰寫,盡管這些手稿可能是在他們不知情的情況下被他人以其名義提交的。 
圖片來源:Labbe等 其中幾篇論文的作者告訴Labbe和Cabanac,他們是作為“惡作劇”提交的。但其他論文似乎是用真實的參考書目列表進行編輯,這表明它們的出現可能是為了夸大科學家的引文數量。 “我認為,這些論文絕大多數都是為了充實簡歷,以滿足發表論文的需要。”Labbe說。 同行評審是“吃素”的? 在最新一批論文中,除了IEEE等知名會議或機構出現問題,還出現了若干計算機生成論文的“重災區”。發布SCIgen內容排名前三位的分別是: 瑞士的跨技術出版社(Trans Tech Publications),共發表了57篇相關論文; 印度的藍眼睛智能工程與科學出版社(Blue Eyes Intelligence Engineering and Sciences Publication,BEIESP),發表了54篇; 今年3月被施普林格·自然收購的法國出版社亞特蘭蒂斯(Atlantis),發表了39篇。 上述瑞士和法國出版社表示,他們正在調查并撤回這些文章。不過,BEIESP的一位發言人表示,他們發表的文章都是通過雙盲同行評審和剽竊檢查的原創內容。 被科學界奉為圭臬的同行評審難道是“吃素”的?為何對這類計算機炮制的論文防不勝防? 對于這一問題,以WMSCI為例,Stribling認為,這是因為這類會議比較“水”,沒有科學功能,只會通過發郵件等各種方式推銷自己而獲利。 此次,英國倫敦物理研究所附屬機構IOP出版社也撤回了 10 篇論文,并在調查為什么在同行評審階段沒有發現這些計算機生成的論文。 該出版社誠信和內容經理Kim Eggleton表示,“我們有合理的證據表明,這些論文的同行評審過程不合格。” 你能想象自己看過的某篇論文其實是計算機軟件生成的“垃圾”論文嗎?它們之所以能被最終發表,是因為這些會議或期刊比較“水”,還是因為同行評議容易被操縱? 你有什么看法?歡迎討論。 參考文獻: https://www.nature.com/articles/d41586-021-01436-7https://www.nature.com/articles/nature03653 http://scigendetection.imag.fr/main.php https://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24495 https://link.springer.com/article/10.1007/s11192-012-0781-y 特別聲明:本文轉載僅僅是出于傳播信息的需要,并不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站注明的“來源”,并自負版權等法律責任;作者如果不希望被轉載或者聯系轉載稿費等事宜,請與我們接洽。 |