Turnitin相似度从10%突然涨到25%，到底发生了什么

第一次跑 Turnitin 的时候报告上写着 10%，你感觉不错，稍微调整了几个标黄的句子，论文也没大改。隔了两天重新跑了一次，数字变成了 25%。论文几乎原样没动，分数却翻了一倍还多。

脑子里第一反应：系统出错了？还是我操作有问题？实际上，两次查重之间相似度出现这种幅度的跳升，在 Turnitin 的使用场景里并不少见，而且通常跟你论文本身的关系不大。

很多人第一次查是用自己买的非入库查重入口，结果 10%。觉得没问题了，改了几个小地方就用学校的正式提交入口交了一次——结果学校那个入口跑出来是 25%。

这两个数字的差异不能说明哪次准哪次不准，它们比较的数据库范围不一样。个人查重入口的比对库通常不包含你们学校内部的论文库——也就是你们学校其他学生已经提交过的作业和论文。而学校正式提交入口，默认是会对本校论文库进行比对的。

如果你的论文里的某些段落——尤其是文献综述和背景介绍这些部分——刚好跟你学校之前有学生提交过的论文产生了措辞上的重叠（哪怕你没有看过那篇论文，只是同专业、同题目方向巧合），那学校入口跑出来的相似度自然会比个人入口高出一截。关于两次查重结果不一致的更多原因，前面有一篇专门展开讲过。

你的论文没变，但 Turnitin 比对库里的内容在变。每一天都有数以百万计的新的内容进入比对库——来自全球范围内的论文、图书、网页内容。如果你两次查重之间隔了几天甚至一周以上，就会有新的内容进入比对库，而你的论文里的某些措辞恰好跟这些新入库的内容产生了匹配。

这种情况在含有大量文献综述或者领域背景介绍的论文里特别容易出现。因为你在这些部分引用的主题和措辞是跟某个研究领域同步的，当该领域有新论文入库时，你的文本就可能产生新的匹配。这在论文热度较高的学科里尤其明显——比如临床医学、计算机科学、环境科学这些领域，新文献的产出速度很快，比对库的膨胀速度也快。

这是一个很多人完全没在意但影响极大的变量。第一次你查的时候可能勾选了"排除参考文献"和"排除引用"，把这两类的匹配内容剔除了——结果 10%。第二次用另一个入口或者换了设置，这两个选项默认没勾上，参考文献部分和引用部分全部被算了进去，相似度直接多了十几个百分点。

更好笑的情况是——你自己没动过设置，但不同入口的默认设置不一样。有些入口默认排除参考文献和引用，有些没有。你觉得自己两次查的东西是一模一样的，但实际跑的查询条件不一样。关于排除选项影响数字的具体机制，之前有一篇专门聊过。

哪怕只改了几个词或者调换了几个句子的顺序，你的改动可能会让某些原本没有产生匹配的句子结构发生了调整，刚好撞上了数据库里另一篇论文的表述。这种事有时候就像打地鼠——你把一个地方的重复压下去了，另一个地方的重复冒了出来。

不要觉得"我就改了一点怎么结果差这么多"，因为 Turnitin 的比对不是看整篇文章相似度，而是逐句、逐短语匹配。只要你在某个句子里做的调整恰好将这句话的措辞推向了某一个已有文献表达方式的"最优解"，这句话就可能产生一个新的匹配。

先排除几种可查的因素。检查两次查重用的入口是不是同一个，确认排除参考文献和引用的选项设置是不是一样的，再确认两次查重的间隔时间大概是多久。

排除完这些因素之后，打开两份报告做一次逐来源的对比。不要只看那个百分比数字——把两份报告的重复来源放在一起对着看：原来那 10% 的来源还在不在？新冒出来的 15% 是从哪些地方来的？你是在第二次报告结果里能在 10% 的基础上看到新增来源了，还是 10% 的来源发生了变化？

如果新增来源是跟你研究方向相关的论文，而且匹配的都是小片段，大概率是数据库更新带来的正常变化——不用管。如果新增来源里出现了你完全没接触过的论文，而且匹配的是大段落——那值得看看那篇论文，确认你没有被无意中影响或者无意中进行了过度接近的表述。

两次查重分数出现明显变化，不是系统 bug，也不是你的论文一夜之间变成了抄袭。多数时候是入口不同、数据库更新、或者排除选项不一样导致的。看懂为什么变比知道变了多少更重要——turnitin查重报告到底是安全灯还是红灯，不看数字，看来源。