首页
>
论文指导发表

“学位论文学术不端行为检测系统”研制介绍

“学位论文学术不端行为检测系统”研制介绍

分类:论文指导发表作者:admin 评论:0 点击: 478 次

（一）研制背景

□国内外学术界存在的学术诚信危机现现象

近年来恶劣学术不端事件时有发生，给整个学术界的声誉造成了极坏的影响。学术界长期形成的科学、诚实、追求真理的象牙之塔的形象受到社会大众的质疑。有人认为学术界本来是社会道德的最后一道防线，可惜，现在这最后一道防线已经被攻破，学术界面临前所未有的学术诚信危机。

清华大学***教授伪造个人学术成果、北京大学***教授著作涉嫌抄袭他人作品、中国政法大学***教授涉嫌论文抄袭以及汉芯伪造研究成果等媒体曝光事件，无不撕扯着学人们的脆弱的心。这些事件不但发生在学界，而且涉及全国最著名的学术研究机构，有的甚至涉及科学院、工程院院士，经媒体报道后，产生的杀伤力是可想而知的。同时，人们还一致认可这样的观点，即目前曝光的只是冰山的一角。

学术不端的问题不仅在中国，在世界范围内，同样是一个令学界头痛不已的学界“肿瘤”。如2002年曝光的简•亨德里克•舍恩造假事件[1], 简•亨德里克•舍恩在世界著名的贝尔实验室工作，他先后在《科学》和《自然》等世界第一流学术期刊上发表十几篇论文，被认为是未来的诺贝尔奖得主。然而同行们却无法重复他的实验结果，因为他实质上是个造假天才。

还有大家都知道的“韩国黄禹锡造假事件”。韩国首尔大学教授黄禹锡及其合作者在“干细胞”研究中存在假造论文，编造实验结果等问题，结果名誉扫地，最终被撤销教授职务并辞退。

□学术诚信引起各国政府及管理部门的高度关注

为了能有一个良好的学术环境，学术界已经开始行动，同时也引起国际国内有关政府部门的高度关注。世界主要学术大国或大的学术机构大都成立了有关科研诚信的管理机构。如美国的NSF。我国科技部于2006年发布11号部长令，2007年在科技部成立“科研诚信管理办公室”。科技部联合教育部、中国科学院、中国工程院、国家自然科学基金委员会、中国科学技术协会等部门，成立科研诚信建设联席会议及科研诚信咨询委员会。

教育部发布了《关于加强高等学校学术道德建设的意见》、《关于树立社会主义荣辱观，进一步加强学术道德建设若干意见》等一系列文件。科学院与工程院分别发布了院士科研道德自律行为准则。2005年3月，国家自然科学基金委监督委员会发布了《对科学基金资助工作中不端行为的处理办法（试行）》。

学术不端行为涉及到学术活动的全过程，包括学术研究、学术出版、项目申报、成果鉴定、职称评定、研究生培养等诸多环节。目前，在世界范围来看，发现与规范学术不端现象，主要还是靠教育与个人举报，缺乏有效的技术辅助手段，同时由于涉及到各种复杂的经济利益，导致往往投入巨大，成果甚微，甚至于出现“愈演愈烈”的趋势。无论是期刊出版界、大学、研究院所、还是出版主管部门、科研主管部门、教育主管部门都迫切需要一个高效的技术措施来帮助管理部门来检查与惩治学术不端现象。

博士、硕士研究生教育是培养高层次科技人才的重要手段。研究生的教育质量是关系到科教兴国战略能否得到实施的关键。十年树木，百年树人。要想从根本上遏制学术不端行为，还要从学生时代树立正确的科学观与诚信观。目前，研究生培养过程中存在的学术不端行为异常严重，却未能得到有关方面的高度重视。在”爱护与保护”的帽子下，使得研究生培养中的诚信问题越演越烈。千里之堤，溃于蚁穴。建筑科研诚信的万里长城，必须从研究生乃至大学生教育开始。研究生培养中涉及到学术不端行为的主要方面。如期刊论文发表、学术会议论文、参加科研项目，最后学位论文撰写与答辩等过程。在这些环节中都涉及到各种诚信问题。

□遏制学术不端行为的有效措施

学术文献不端现象是重要的学术不端行为之一，文本复制（抄袭）是学术不端文献的重要特征。在上世纪70年代，就已经开始计算机程序复制的检测研究工作。90年代后，随着互联网技术的发展，信息内容迅速增多，复制粘贴变得越来越容易与普遍。随着内容管理与版权保护的需要，文本复制的检测研究也得到进一步发展，陆续提出数字指纹、VSM等检测方法[2]。目前国外已经有一些系统在提供使用。如论文作业抄袭检查平台TurnItIn，由 iParadigms开发，已经应用于多所高校及科研机构，包括美国加州大学伯克利分校、杜克大学、德国汉堡大学等。由CrossRef与iParadigms共同开发的抄袭检测平台CrossCheck，于2008年6月19日正式启动。 Thomson和Elsvier宣布将应用CrossCheck进行投稿论文检测。加拿大Sciworth公司开发的MyDropBox，提供学生作业抄袭检测服务。MyDropBox使用Microsoft搜索技术，可以检测互联网资源、可公共存取的部分数据库资源（PubMed、FindArticles等）以及机构内部文档[3]。

□中国知网“学位论文学术不端行为检测系统”

中国知网从2006年开始正式立项研发学术不端文献检测系统。在三年的工作中，历经算法研究、原型系统开发、大规模数据测试、性能测试、系统集成测试等多个阶段的艰苦工作，目前已经达到大规模实用化的成熟程度。

（二）研发目标与要求

□定义

“学位论文学术不端行为检测系统”（简称“TMLC”）主要为检测研究生培养过程中，研究生学术论文发表及学位论文中出现的不端行为提供辅助工具。

□研发目标

研究生培养阶段是学术不端行为的第一次诱发期与躁动期。在这一时期，一方面要对其加强科研诚信教育，同时采取技术措施对非诚信行为进行监督，将不良的学术风气扼杀在摇篮之中，不仅对于提高研究生培养质量，而且对于整过学术环境的净化都会起到根本性的作用。如果不能从研究生培养环节遏制学术不端行为，大批带有不端治学态度的研究生毕业后，不断涌入各级研究机构，不端行为就将形成“长江之水，滔滔不绝”，就不能从根本上扭转不端行为不断恶化的事态。

TMLC系统要能够达到实用化要求，还必须要满足以下条件：

1、比对库及资源范围广

TMLC系统的检测范围要能够基本完整覆盖中文科技学术文献。TMLC系统比对库的完整性是其能够实用化的基本保障。完整性不仅表现在仅仅收录学位论文的全面，并且还要尽可能涉及学术文献其他领域，比如科技期刊、会议、报纸、、专利、标准等文献资源，并且还要求有较长时间阶段的回溯。否则，无法对检测结果做出正确有效的判断与决策。

2、检测识别精准快捷

TMLC系统要有较高的不端文献识别能力。对于各种不端文献类型均有较好的分辨能力。检测能力与水平是TMLC实用的关键。存在不端问题的文献一定要能够检测出来，同时不能误检出大量没有问题的文献。即要有较高的检测正确率与较低的误检率。

3、实现全文比对

TMLC必须能够支持全文比对。几乎所有国外有关检测系统只进行题录摘要层次的检测，但科技成果最终的体现表现在文献的文字阐述当中，如果实现全文比对，则能更加精准判断学术不端现象，才能达到大规模实用的要求。

4、支持线上实时检测

TMLC系统要能够进行在线实时检测。即系统要有较好的技术性能。鉴于检测需要进行大量的运算，国际上已有检测系统一般对实时检测大都支持的不好，尤其在文章较长时更是如此。TMLC系统要能够同时支持待检超长文献检测与超长文献进入比对数据库。

（三）学术不端文献分类

学术不端行为的划分是一个政策性极强的工作，同时也涉及许多法律问题。迄今位置，国内外还没有一个被广泛接受的标准。

□我国学术不端行为的表现形式（此处列出中国科协科技工作者道德与权益工作委员会提出的我国学术不端行为的七种表现形式，以供参考）

﹡抄袭剽窃他人成果。

﹡伪造篡改实验数据。

﹡随意侵占他人科研成果。

﹡重复发表论文。

﹡学术论文质量降低和育人的不负责任。

﹡学术评审和项目申报中突出个人利益。

﹡过分追求名利和助长浮躁之风。

□学术文献不端行为具体表现形式

实际上，学术不端行为存在于学术活动的全过程。学术文献出版中的不端学术文献由于其公开性，被广泛传播，以及发表后可能会引展出的一系列问题，使其与其他不端类型相比，更尤其严重。学术不端文献的特征分析是其计算机自动检测的基础。学术期刊论文发表中学术不端文献可以大致分为以下五种：

﹡抄袭

﹡一稿多投

﹡一个学术成果多篇发表

﹡不当署名

﹡伪造、篡改。

1. 抄袭

《辞海》关于抄袭解释：“窃取别人的文章以为己作”。关于剽窃的解释为：“抄袭，窃取他人的文字以为己作”。可见，抄袭与剽窃为同义语。通常认为学术抄袭就是：使用他人作品的内容而“不注明来源”，即不承认该内容来源于他人的作品，而把他人作品的内容据为已有。可以看出，抄袭是一种复制行为，然而复制不都构成抄袭。如合法的转载不能认为是抄袭。

是否注明来源就不构成抄袭呢？世界各国著作权法中都规定了合理引用的权利。如为评论而引用有版权的作品视为合理引用。我国著作权法规定：“为介绍、评论某一作品或者说明某一问题，在作品中适当引用他人已经发表的作品”视为合理使用。王毅在《论抄袭的认定》[4]一文中指出“合理性”的三个重要特征：“新作必须区别于原作”；“新作必须独立于原作”；“原作的引用必须适宜于新作”。

有的文献大段大段的复制别人的内容，虽注明了出处，是否不构成抄袭？然而目前未有关于引用数量的一致意见。据国外专家介绍，对于期刊论文，认为有超过10%的内容相同，即构成抄袭。还有专家要求更严，甚至不能有完全相同的句子。根据我国的实际情况以及中文的特点，我们认为以期刊论文为例，如有30%以上的文字复制可以认定为抄袭。

为便于识别抄袭，我们从抄袭的形式上可以将其进一步分类。如可以分为文字抄袭与非文字抄袭。文字抄袭，就是拷贝粘贴别人作品的文字内容。非文字抄袭又可分为思想性抄袭与数据图表抄袭。抄袭别人的论点、概念、原理、方案等都属于思想性抄袭。根据抄袭来源可以分为只抄袭一篇文章的单源抄袭与从多篇文章中拼凑的多源抄袭。根据抄袭段落的特点可以分为抄袭同一段落的单段抄袭与抄袭多个段落的多段抄袭。

抄袭有一个很有趣的现象，就是被抄袭源有时也是抄来的，因此有时需要追根溯源，才能查到抄袭源头。有时会发现正常引用的文献却是抄袭来的。还有一种情况是自我抄袭。在学术文献中，存在大量学者在自己的文章中大量复制自己其他文章中的内容。自我抄袭应引起足够的重视。

2. 一稿多投

同一作者将同一篇论文投给两家或两家以上学术刊物同时发表或先后发表称为一稿多投。一稿多投浪费了有限的出版资源、编辑与审稿专家的宝贵时间，违反了学术传统，侵害了期刊社的专有出版权。同时也损害了期刊的声誉与读者的利益。

由于作者与编辑部之间的沟通问题，导致完全相同的文章，几乎相同时间在不同的媒体上重复发表是一种客观的一稿多投。客观的一稿多投虽然其主观恶意较少，但不容忽视。

作者由于追求发表量而故意一稿多投是一种主观的一稿多投行为。其特点为：内容大部分相同，只有局部不同，如行文次序调整，或文章名称略有不同，在不同媒体上重复发表。

判断一稿多投的基础是能够确定作者是相同或是不同的。只有相同的作者才有一稿多投问题，否则就是抄袭。

3. 一个学术成果多篇发表

一个学术成果多篇发表是指将一篇论文拆成几篇发表、一次性成果多次反复使用、同一成果被拆分成多篇文章发表、同一实验被分成多种角度阐发。其主要特点是作者相同，多篇文章主题完全相同，内容大部分重复，只有少部分不同。一个学术成果多篇发表是作者过度追求发文量的必然结果。其结果是既降低了学术质量，也损害了读者的利益。

4. 不当署名

在他人作品上署名。包括故意署名与被动署名两种情况。前者是署名者未参加有关研究工作却为了某种目的故意在别人作品上署名，或侵占他人成果，使应该署名者不能署名或署名靠后，或提高署名者的成果数量。后者是指原作者为了提高作品的评价或发表机会擅自在作品上署上知名作者的姓名。

不当署名情况相当严重，然而目前却缺少很好的技术手段精确检测。目前TMLC系统对前三种情况均可以较好的处理，但对于不当署名还只能提供一些线索供参考。

不当署名的存在有其复杂的社会因素。如导师在学生的成果上署名，领导在下属的成果上署名，集体成果的署名等，有时就连专家也难以判定。

5. 伪造、篡改

伪造就是不以实际观察和试验中取得的真实数据为依据，伪造虚假的观察与实验结果。包括伪造研究数据，研究结果。比如虚构发表作品、专利、成果。为了提高文章发表机会甚至有人伪造论文获得国家重点基金资助。

篡改指科研人员在取得试验数据后，按照期望值随意篡改或取舍数据，以符合自己的研究结论，一般有主观取舍数据和篡改原始数据等形式。

伪造与篡改目前还难以用计算机来自动检测。

□学位论文学术不端行为具体表现形式

学位论文本身主要的问题在抄袭、伪造与篡改,没有一稿多投、一个学术成果多篇发表、不当署名等问题。但通常，作为学位论文工作的一部分，许多学生还被要求发表若干期刊文章，才能获得学位。因此，一个全面的学位论文的检测工作还必须包括有关的期刊文献的检测。

（四）TMLC系统主要建设任务

TMLC系统建设是一个系统工程，涉及检测方法设计、比对数据库建设、规范数据库建设、大规模数据测试、系统性能测试等多个环节。

□检测系统框架建设

系统主要包括比对数据库、事实数据库库、复制检测器、事实分析器四个部分。一篇待检测文章提交到系统后，首先由复制检测器分析，并将分析结果与比对数据库中的已有文档进行文字比对，对于文字复制比例大的可疑文章，再利用事实分析器进行作者、机构、基金、参考文献等事实的核查分析。最后由专家对机器检测的情况进行审核并给出最终检测报告。

□比对数据库建设

比对数据库是TMLC系统的基础与核心。一个完善的比对数据库有如下要求：

首先，元数据必须全面完整。文献数据收录的文献要尽可能的全，著录信息完整，如准确的作者、机构、出版时间等。

其次，比对数据库必须是全文数据（文本数字化），否则无法做到全文抄袭比对检测。

第三，更新必须及时。如果新文献更新滞后时间过长，就无法保证检测结果的正确性。

□规范文档事实数据库建设

无论是抄袭、一稿多投，还是不当署名、一个成果多次发表都需要严格界定作者的身份，因此，学者规范事实数据库就成为不端文献检测系统的不可或缺的重要资源。它用于确认作者唯一性，甄别自抄、抄袭等。

由于存在机构改名、更名、合并等多种复杂的机构变更情况，因此必须要有机构规范数据库用于确认成果归属，确认作者。同样，出版物规范数据库可以很好的处理期刊更名、改名、合并等情况，确认引用关系。通过引文数据的规范，进而可以用于区分引用性复制与抄袭。

规范文档事实数据库可以广泛应用于评奖、评价、鉴定、项目验收、项目申报、论文发表等各个方面的相关审核工作。

□中国知网的工作基础

中国知网经过多年的努力工作，完成了中国学术文献网络出版总库建设。建成《中国学术期刊网络出版总库》（从1915-今，7000种期刊），《中国优秀博硕士学位论文数据库》，《中国重要会议论文数据库》，《中国重要报纸数据库》，《中国专利数据库》，《中国标准数据库》，《中国科技成果数据库》，《中国工具书数据库》等。超过5000万数据。

同时，已初步建成事实规范数据库。完成中国科研机构名称规范数据库（70万），作者名称规范数据库（300多万），期刊信息规范数据库（9000）。

（五）TMLC系统主要检测指标

学位论文一般文献篇幅较大，字数多，硕士论文一般为4~5万字，博士论文则多达十几万字。为了便于快速准确的分析待检文献与比对文献的复制关系。系统设计了多个检测指标，这些指标从多个角度反映文字复制的特征，供专家审核参考。

□总检测指标

总重合字数（CCA）

总文字复制比（TTR）

总文字数（TCA）

疑似章节数（QCA）

总章节数（TCA）

首部重合文字数（HCCA）

尾部重合文字数（ECCA）

□子检测指标

对于学位论文的每一章节，又制定了如下检测指标来反映该章节的检测情况，对于一篇学位论文来说，每一章的内容各异，重点也不一样，其核心工作内容一般主要存在某几章中，子检测指标可以让用户迅速了解每一章节的检测情况。子检测指标包括：

文字复制比（TR）

重合字数（CNW）

最大段长（LPL）

平均段长（APL）

段落数（PN）

段文字比（PR）

首部复制比（HR）

尾部复制比（ER）

引用复制比（RR）

上述指标从多个角度反映了检测文献的检测情况，便于用户进行针对性审核。下面对各项指标分别进行说明。

□系统检测比对数据

目前系统支持在《中国学术网络出版总库》与用户自建数据库检测。《中国学术网络出版总库》包括：

《中国学术期刊网络出版总库》

《中国博士论文网络出版总库》

《中国优秀硕士论文网络出版总库》

《中国报纸全文数据库》

《中国专利全文数据库》（知网版）

《中国科技成果数据库》（知网版）

《中国年鉴网络出版总库》

《中国工具书数据库》

《中国标准数据库》（知网版）

□学位论文不端行为检测范围

通常，研究生除去完成学位论文外，还要完成发表一定数量的期刊论文或会议论文，才能得到学位授予。一般研究生会独立发表或与导师一起发表期刊论文，这些论文有些是学位论文工作的一部分。

因此，对一个学位论文工作进行检测，可能涉及到几个方面并且不端行为的检测是一项政策性非常强的工作，必须采取技术检测加专家审核的办法。

﹡学位论文的检测。

学位论文检测是最核心的检测工作。由于学位论文篇幅较长，通常在5-10万字之间，为便于工作，我们将一篇学位论文按章节分开比对。给出每一章节的检测结果，再给出总体指标。

由于学位论文体例的要求，论文含有大量的综述性内容。这些内容的抄袭认定，必须慎重。尤其是要和参考文献核对。一般认为，凡在文章注明出处的，在一定数量之内的文字可以视为合理引用。最后要以专家审核的结果为准。

由于学位论文中的部分工作通常会在期刊上发表，一定注意要排除其本人的期刊论文。

﹡培养期间发表的期刊论文的检测

许多学位培养单位要求研究生发表一定数量的期刊文章，这些文章应视为学位工作的一部分。显然，应对这些文章进行检测。

﹡学习开始前的论文工作的检测

现在，部分研究生培养单位，在招生简章中要求参加考试的研究生有一定的论文发表，或是报考博士的原来已经取得过硕士学位。因此，还应对之前发表的期刊论文、硕士论文进行一定的检测。这部分工作可以对入学的研究生起到一个筛选的最用。

结语

TMLC系统经过大规模数据测试后，针对中文学位论文中的不端文献已经具有较好的检测能力，达到了大规模实用的成熟程度。鉴于我国学术不端文献的实际情况，还需继续开发能够检测英文学术不端文献以及从英文翻译为中文的不端文献，同时比对数据库应同时扩展到英文数据库与互联网文献，事实数据库也应同步扩展，并建立中英文对照的规范数据库。因此，进一步的研发工作还很多，希望TMLC系统能够在实际应用中不断得到完善。

关于学术期刊有关问题新闻出版总署报刊司的答复 2010-03-05

毕业论文选题的重要性 2010-03-11

发表论文的网站 2015-12-29

医学论文书写方法与技巧 2010-03-15

发表论文必经流程和步骤 2019-09-19

国家级建筑类《建材发展导向》超低价发表，过期不候！ 2014-03-04

声明: 本文由( admin )原创编译，转载请保留链接: http://www.hxlww.net/4535/hxlwfb