CJLIS (Traditional Chinese Medicine)

山东省部分高校论文学­术不端检测分析及学术­不端检测系统使用体会

- 窦学俊,高巧林,栾世杰,刘珊珊

窦学俊,高巧林,栾世杰,刘珊珊山东中医药大学­图书馆,山东 济南 250355

摘要:目的 探讨山东省内部分高校­职称评审论文学术不端­现状及学术不端检测系­统的应用价值。

方法 使用中国知识资源总库­科技期刊学术不端文献­检测系统和万方数据论­文相似性检测系统,对2012- 2015年山东省部分­高校职称论文进行检测,并使用 Excel 2007对检测结果进­行统计分析。

结果 共计检测 9565 篇论文,其中中文论文 7437 篇,外文论文 2128 篇。每年均有 90%以上的论文总复制比低­于 30%,2013-2015 年均有 94%以上的论文单篇最大文­字复制比低于 20%。结论 山东省高校论文文字复­制比仍有下调的必要,小部分文献单篇复制比­过高;学术不端文献检测系统­存在检测盲区。

关键词:论文;学术不端;检测系统;高校

中图分类号: G644 文献标识码: A 文章编号: 2095-5707(2017)06-0018-05

Analysis on the Academic Misconduct in the Papers Submitted by Some Colleges and Universiti­es in Shandong Province and Understand­ing of Academic Misconduct Detection System

DOU Xue-jun, GAO Qiao-lin*, LUAN Shi-jie, LIU Shan-shan

(Library of Shandong University of Traditiona­l Chinese Medicine, Ji'nan Shandong 250355, China)

Abstract: Objective To explore the current status of academic misconduct in the title evaluation papers submitted by some colleges and universiti­es in Shandong Province and the applicatio­n value of academic misconduct detection system. Methods Academic misconduct detection system of science and technology journals in Chinese Knowledge Resources and similarity detection system of Wanfang database were used to test the title evaluation papers submitted by some colleges and universiti­es in Shandong Province from 2012 to 2015, and Excel 2007 was used to analyze the results. Results 9565 papers were tested, including 7437 Chinese papers and 2128 papers of foreign languages. More than 90% papers had a total copy ratio of less than 30% per year, and more than 94% papers had a single copy ratio of less than 20% in 2013-2015. Conclusion There is still a need to reduce the copy ratio of papers in colleges and universiti­es in Shandong Province, and the single copy ratio of a small part of papers is too high. There are still blind spots in academic misconduct literature detection system.

Key words: papers; academic misconduct; detection system; college and university

近年来,学术界屡屡爆出学术造­假、论文抄袭等学术不端事­件,本科毕业论文和研究生­论文造假新闻也时常见­诸媒体报道。2015 年,英国大型医疗

科学学术文献出版商 BioMed Central 因同行评审涉嫌造假撤­销 43 篇论文,其中 41 篇的作者来自中国

[1]

大陆 。2017 年 4 月,世界最大学术出版商之­一的施普林格( Springer)宣布撤回发表在 2012-2016 年《肿瘤生物学》( Tumor Biology)上的 107 篇论文。这 107篇论文全部与中­国研究机构有关,涉及524 位

[2]作者,撤回原因是“同行评议造假” 。为了反学术不端,国内各大数据库都推出­了学术不端检测系

统。山东中医药大学引进中­国知识资源总库( CNKI )科技期刊学术不端文献­检测系统( AMLC)和万方论文相似性检测­系统,依照山东省教育厅有关­职称论文学术检测相关­要求,对省内部分高校提交的­职称评审论文进行检测。现就检测结果进行统计­分析,从一个侧面了解本省当­前学术论文学术不端情­况,为制定相关措施提供参­考。

1 资料与方法

1.1 数据来源

从 2011 年开始,山东中医药大学图书馆­承担了山东省教育厅高­校职称论文的学术检索­工作,检测论文来自省内医学­院校和非医学院校的生­物医学类论文。因 2011 年山东省教育厅对学术­检索设置的指标(密切相关文献数量、相关文献数量和内容重­合率)与 2012 年之后有显著不同,故 2011 年的职称论文未纳入此­次统计范围。

根据山东省教育厅有关­职称论文学术检测要求,对提交论文进行如下检­测:⑴中文论文原文依次通过 CNKI、万方数据知识服务平台­和维普期刊资源整合服­务平台检索下载。⑵中文论文检测首选

AMLC,CNKI 收录不全的期刊使用万­方论文相似性检测系统( CNKI 未收录 2007 年之后中华医学会系列­杂志)。⑶外文论文使用 AMLC 检测(外文论文由作者单位审­核后提交电子版原文,在 AMLC 中检测;检测机构不能下载外文­原文)。⑷进行学术不端检测的截­止日期统一为论文的收­稿时间,没有注明收稿时间的论­文则使用发刊时间。

1.2 纳入标准

省内医学院校和非医学­院校共 15 所高校提交的生物医学­类论文。

1.3 排除标准

⑴刊载论文的刊物未收录­于数据库中,无法核实原文,刊物存疑。⑵所提交的论文不是期刊­论文或会议论文,是以图书形式发行的论­文集论文,山东省教育厅组织专家­讨论认为此类论文水平­不能等同于公开发表的­期刊论文,不予以检测。⑶数据库已收录了刊载论­文的刊物,但因数据库时差未收录­刊载的当期;或因数据库回溯不全未­收录刊载当期或收载当­期的目录不全;或查到的期目录未包含­作者提交的论文,论文存疑。

1.4 统计方法

2012 年,采用“去除本人学位论文会议­论文文献复制比”指标,对作者学位论文、会议论文的重 合部分予以排除后,计算总复制比,未设“单篇最大文字复制比”指标。2013 年开始,增加“单篇最大文字复制比”指标。复制比以 20%、30%、50%、90%为分界点划分不同区间,统计每个区间内文献篇­数及所占百分比。将各年份数据输入 Excel 2007 进行统计分析。

2 结果

2012-2015 年共计有 9565 篇论文纳入统计范围,其中中文论文 7437 篇,外文论文 2128 篇(均为英文)。

2.1 复制比

2.1.1 去除本人学位论文会议­论文文献复制比 统计表明,历年“去除本人学位论文会议­论文文献复制比”(简称“总复制比”)合格率(< 30%)在90%以上(见表 1)。每年均有> 5.00%的论文总复制比高于 30%,有≥ 1.52%的论文总复制比高于5­0%,共有 16篇论文总复制比≥ 90%。 2.1.2 单篇最大文字复制比 2013- 2015 年“单篇最大文字复制比”(简称“单篇复制比”)合格率(< 20%)均在 94%以上(见表2)。

2.2 复制比超标情况

2013- 2015 年总复制比≥ 30%的论文分别有128 篇(占 5.41%)、134 篇(占 5.40%)、136 篇(占 9.16%)。2013-2015 年单篇复制比≥ 20%的论文分别有 101 篇(占 4.27%)、136 篇(占 5.48%)、88 篇(占 5.93%)(见表 3)。2013-2015 年均有一定量论文总复­制比< 30%但单篇复制比≥ 20%,提示抄袭可能性大。而总复制比≥ 30%、单篇复制比<

20%,说明与多篇文献相似,只是累积复制比超过

30%,还应具体问题具体分析。

2.3 外文论文情况

提交论文语种分析显示,各年份提交的外文论文­比例在 20%左右, 2013-2015 年呈增高趋势(见表。4)

3 讨论

3.1 山东省部分高校科研文­献学术不端现状

《科技工作者科学道德规­范(试行)》对“学术不端行为”的定义是:在科学研究和学术活动­中的各种造假、抄袭、剽窃和其他违背科学共­同体惯例

[3]

的行为 。2016 年 9 月 1 日开始施行的《高等学校预防与处理学­术不端行为办法》,将剽窃、抄袭、侵占他人学术成果,及篡改他人研究成果列­在学术

[4]

不端行为的首要位置 。新修订的《普通高等学校学生管理­规定》自 2017 年 9 月 1日起施行,其中规定,对于学位论文、公开发表的研究成果存­在抄袭、篡改、伪造等学术不端行为,情节严重的,或者代写论文、买卖论文的,学校可以给予开除学籍

[5]

处分 。国内外普遍成立了第三­方独立审查机构,研制了学术不端检测系­统。学术不端检测也称为论­文相似度检测、论文查重,是通过学术不端文献检­测系统对论文的主体进­行识别检测的方法,通过系 统的运作与计算,以“复制比”或“相似比”的直观形式呈现检测结­果。

本次统计结果表明, 2012-2015 年山东省部分高校职称­论文总复制比合格率均­在 90%以上,该数

[6]值与 CNKI 对 92 万多篇文献的检测结果­相当 。其中 2012-2014 年均在 94%以上,而 2015 年略低,可能与试点院校放宽提­交标准有关。

单篇最大文字复制比用­于反映是否有单独抄袭­某篇论文的可能性,统计显示,2013- 2015 年每年均有 20 篇以上的论文与其他某­篇论文有 50%以上的相似性,有的甚至达 90%以上。论文总复制比低于30%但单篇复制比高于 20%,提示抄袭可能性大,说明设立单篇复制比指­标对防止学术不端有积­极的作用。上述结果说明,山东省高校职称论文小­部分文献单篇复制比过­高,应加强原创性引导。

外文论文统计显示, 2012 年外文论文比例高于2­013、2014 年,原因可能为 2012 年只准许提交 3篇代表性成果,而 2013 年之后可提交多篇论文,检测后选择其中 3 篇进行评审。外文论文比例 2013- 2015 年有呈增高趋势,一方面说明各院校发表­的外文论文数量在增加,学术成果对外交流增多;另一方面可能是因为目­前外文论文检测结果复­制比较低,促使作者多发或多提交­外文论文。

3.2 学术不端文献检测系统­存在的问题

目前学术不端文献检测­系统不能完全取代人工­对比,仍存在较多检测盲区,现就笔者使用过程中发­现的问题列举如下。

3.2.1 合理引用与抄袭的区分 引用政府文件、领导人讲话、权威著作、历史材料、法律法规、诊断疗效标准、操作规程等,被误判为段落抄袭或句­子抄袭,导致文字复制比偏高。生物医学领域的论文,很多研究方法和临床诊­疗方案是相似的,而且论文的格式基本都­是固定的,语句较为简单和通用,如:采用 SPSS 统计软件分析数据,计量资料以 X±S 表示,组间比较采用 t 检验;计数资料组间比较采用 X2 检验; P < 0.05 为差异有统计学意义。同一方向的研究往往查­询的文献相同、采用的技术和方法一致,就连在术语的应用和语­言的表达上也容易造成­重复。同一作者在前期研究的­基础上继续深入,后期文章中前言文字、研究方法、研究仪器、所用材料、统计学分析等很多文字­说明与前期文章一致,甚至会引用前期文章中­的数据。中医药类论文经常引用­经典语句,检测系统尚不能识别

这些语句出自经典著作。因此,医学类文章容易出

[7]

现文字重复,导致文字复制比偏高 。也有的论文整体文字复­制比偏高,但核心内容基本不重复,利用这些系统检测医学­论文的时候可能会出现­检测结果“假阳性”。检测系统遏制了明目张­胆的抄袭、剽窃,但对文化发展产生了负­面影响。依据《著作权

[8]

法》作者有引用的权利,系统却不能保障 。此类情况应由同行评议­的方式进行补充评议。

3.2.2 检测系统收录文献完整­性问题 CNKI、万方、维普数据库与国内众多­期刊均有合作,但三家数据库所收录的­期刊并不完全重合。造成各家收录论文存在­差异性,导致学术不端检测的结­果出现差异。如果抄袭了回溯建库之­前的文献,则数据库无法查实。并且 CNKI、万方数据都分别与部分­科技期刊编辑部签订了­独家合作协议,意味着该刊的所有文献­只能在各自的数据库中­检索到,造成其他数据库的统计­源文献的缺失。此外,目前检测系统对图书的­收录还有很大空缺,如果论文抄袭的是图书­内容,现有系统无法检测出来。

3.2.3 检测技术问题 各检测系统在工作方式、后台数据库、算法特点(对论文关键语义片断识­别检测、字段识别、近义同义识别)等方面都存在差异,这些在技术上的不同,会造成不同的检测系统­对同一篇论文检测时,得出不同的结论结果,而且

[9]

有时差异较大 。有抄袭者针对检测系统­的检测原理研究出“反反抄袭”方法,把论文写作变成了文字­游戏,通过对语句顺序的调整、同义词替换、语句表达方式的变动而­躲避系统的检测。更有甚者将外文文献翻­译成中文后发表,或将自己的中文稿件翻­译成英文再投稿。学术不端检测系统在技­术上只能检测“文字”而不能检测“思想”,从而只能避免

[10]

“文字”抄袭而不能防止“思想”抄袭的缺陷 。此时需要通过同行评议­的方式进行补充评议。

3.2.4 文字识别误差 对于同一篇论文,使用Word 版与 PDF 版本进行检测会得到明­显的论文重复率的不同,这主要由两者文字识别­率不同引起。同时在检测报告中有时­也会出现乱码,也是由于提交的 PDF 版本论文或数据库中论­文的文字转换差错所导­致。

3.2.5 转页文字处理错误 两篇论文共用一页或同­一篇论文排版标识为下­转某一页时,检测结果可能出现被检­测论文与其自身重复或­同一文字误作两篇的错­误,直接导致复制比增高,必须人工予以鉴 别。

3.2.6 外文论文检测水平需提­高和突破 在检测中发现目前外文­论文检测结果复制比较­低,这与检测系统收录外文­文献底层数据不足、范围受限有关,较低的复制比并不能反­映出论文的真实质量水­平。

3.2.7 检测报告阅读、解释 因检测系统尚未完善,检测报告中可能存在其­他问题,⑴部分外文会议论文未标­引作者,同作者提交的期刊论文­重合部分无法排除;⑵参考文献与其他论文的­参考文献重合,也计入了总重合率(虽然系统中有“去除参考文献后复制比”指标,但是有的参考文献未被­识别);⑶外文姓名不能自动识别,如 Xiao Yong SUN VS Xiao-Yong Sun; ⑷文字识别错误,笔者曾检测过一篇论文,检测报告显示“去除本人学位论文会议­论文文献复制比”为 43.4%,“单篇最大文字复制比”为 18.4%。后与原文对比发现检测­字数为 376 字,与原文转换为文本后的 4001 字差别较大,故考虑为检测系统文字­转换有误。咨询相关技术人员解释­为:收录数据加工问题所致­系统无法读取原文。后经该论文以 PDF 格式原文上传检测,其结果“去除本人学位论文会议­论文文献复制比”为0.9%,“单篇最大文字复制比”为0.9%。

4 小结

论文抄袭是学术不端的­常见形式,学术不端文献检测系统­确实对检测中文论文的­内容重复情况具有重要­的实用价值,也对部分学术不端者起­到了震慑作用。本研究对山东省部分高­校 4 年间 9000 多篇职称评审论文检测­结果的统计分析,部分地反映了当前山东­省高校学术论文的学术­不端真实状况。学术不端文献检测系统­本身还存在一些问题,这就需要检测人员以高­度的责任心对检测报告­仔细解读,审慎出具检测结论。同时也提醒检测报告的­使用机构必须合理使用­报告结果,必要时应进行人工的学­术鉴定,而不能只关注检测报告­的数据。

参考文献

[1] BARBASH F. Major publisher retracts 43 scientific papers amid wider fake peer-review scandal[EB/OL].(2015-0327)[2017-02-24].https://www.washington­post.com/news/morningmix/wp/2015/03/27/fabricated-peer-reviews-prompt-scientific­journal-to-retract-43-papers-systematic-scheme-may-affectothe­r-journals/?deferJs=true&outputType=default-article&utm_ term=.697eb8d869­59. [2] STIGBRAND T. Retraction Note to multiple articles in Tumor

Biology[ J]. Tumor Biology, 2017(4):5487-5492.[2017-0214].https://link.springer.com/article/10.1007/s13277-0175487-6. [3]中国科学技术协会.中国科协发布《科技工作者科学道德规­范》[EB/OL].(2007-03-23)[2017-03-01].http://www.cast.org.cn/ n35081/n35608/10395341.html. [4]中华人民共和国教育部.高等学校预防与处理学­术不端行为办法[EB/OL]. ( 2016-06-16 ) [2017-03-01].http://www.moe.edu.cn/ srcsite/A02/s5911/moe_621/201607/t20160718_272156.html. [5]中华人民共和国教育部.普通高等学校学生管理­规定[EB/OL]. ( 2017-02-04 ) [2017-03-01].http://www.moe.edu.cn/srcsite/ A02/s5911/moe_621/201702/t20170216_296385.html. [6]宋如华.从初审环节防范学术不­端论文[N].科学时报,2009-1211(A3). [7] 杨晨晨.运用学术不端文献检测­系统检测医学论文存在­的问题及对策[J].编辑学报,2014,26(1):42-44. [8] 王文福.期刊防范学术不端的深­度反思——兼谈对 AMLC 系统的理性认知[J].编辑之友,2017(3):32-36,41. [9] 李永莲.学术不端文献检测系统­的检测盲区研究[J].青岛职业技术学院学报,2014,27(5):78-80,86. [10] 朱燕.试论反抄袭软件的学术­规范功能及其局限性[J].兰州教育学院学报,2016,32(10):91-93. (收稿日期:2017-03-24) (修回日期:2017-06-30;编辑:魏民)

 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China