什么是排除小段匹配?
很多同学在查看iThenticate报告时,可能会看到这样一个功能:Exclude Small Matches,也就是排除小段匹配,简单来说,这个功能的作用,就是让系统忽略掉一些过短的重复内容。例如,用户设置排除低于8词,那么所有连续少于8个词的匹配内容,都不会计入最终相似度统计。之所以会有这个功能,是因为学术论文中本身存在大量固定表达。
比如:
- in this study
- results showed that
- the purpose of this paper
这些短语在学术写作中极为常见,如果系统把所有短词组都算作重复,那么查重报告里会出现大量零碎匹配,既影响阅读,也容易让重复率被虚高。因此,iThenticate提供小段匹配过滤,本质上是为了减少无意义的重复干扰。

为什么很多机构会开启这个设置?
对于高校、出版社和期刊来说,查重的核心目的,并不是寻找几个重复短语,而是判断论文是否存在实质性内容重复,如果不排除小段匹配,系统会识别出大量常见学术表达。
尤其是英文论文中:
- 方法学固定句式
- 数据统计表达
- 常规引言语句
- 专业术语组合
这些内容天然就容易重复。因此,很多机构会默认开启排除低于8词或类似规则,用来提高报告的准确性和可读性,但是,这个功能并不是为了放宽标准,而是为了让系统更专注于真正有意义的文本重合。
排除低于8词,对重复率影响到底大不大?
很多作者最关心的,其实是这一点。从实际检测经验来看,影响大小与论文类型关系非常大。
理工科论文影响通常更明显
理工科文章中,固定表达非常多。
比如:
- 实验步骤描述
- 软件参数说明
- 仪器名称
- 数据分析语言
- 方法学写法
这些内容很容易形成短词组重复。当开启排除低于8词后,大量零散匹配会被过滤,因此整体重复率往往会明显下降。在一些SCI论文中,下降5%甚至10%以上,并不算罕见。
尤其是:
- 医学论文
- 工程论文
- 计算机论文
- 化学实验类论文
这种情况会更加明显。
文科论文变化通常较小
相比之下,文科论文受到的影响往往没那么大。因为文科文章真正容易重复的,通常不是几个短词,而是:
- 整句表达
- 论证逻辑
- 段落结构
- 观点组织方式
即使过滤掉低于8词的小匹配,真正存在问题的内容依然会被系统识别出来。所以,文科论文在开启这一功能后,重复率虽然也会下降,但幅度通常不会特别夸张。
为什么很多卡线论文特别在意这个设置?
实际查重中,有一种情况非常常见。比如:
学校要求重复率低于15%,而论文检测结果刚好是16%。
这时候,仅仅调整排除低于8词,最终结果就可能变成13%或14%。
也正因为如此,很多作者会特别关注这个参数。但这里有一个重要问题需要注意:
重复率下降,并不代表论文真正没有问题。
如果文章本身存在:
- 大段内容重合
- 核心观点重复
- 拼接式改写
- 过度依赖原文表达
即使总相似度降低,编辑或导师依然能够在详细报告中发现问题。
因此,小段匹配过滤只能改变统计结果,并不能真正掩盖实质性重复。
不同词数设置,差别其实很大
很多人觉得:
- 排除5词
- 排除8词
- 排除10词
看起来差异不大。但实际上,对最终结果的影响可能非常明显。因为阈值越高,被过滤掉的内容就越多。
例如:
排除5词,通常只是过滤极短短语;
排除8词,会过滤大量常见学术表达;
排除10词以上,甚至可能过滤部分完整句组。
因此,词数设置越高,重复率通常下降越明显,但如果设置过高,也可能导致部分真实重复被系统忽略,所以,大多数正规期刊不会无限制提高过滤阈值。从实际使用来看,低于8词属于比较常见、也相对合理的范围。
编辑真正关注的,其实不只是数字
很多作者在查重时,最在意的是最后那个百分比,但对于经验丰富的编辑和审稿人来说,他们更关注的是:
- 重复内容出现在哪里
- 是否涉及核心章节
- 是否属于合理引用
- 是否存在连续重合
- 是否缺乏原创分析
也就是说,iThenticate只是辅助工具,真正决定论文质量的,仍然是内容本身,有些论文虽然重复率不高,但因为核心部分存在明显借鉴,依然可能被认为存在问题。而有些论文即使重复率略高,只要属于合理引用、方法学固定表达,编辑也未必会否定。
如何正确看待排除小段匹配?
比较合理的理解方式是:
它并不是一种降重技巧,而是一种提高检测准确性的过滤机制。
它真正的作用包括:
- 减少无意义短语重复
- 提高报告可读性
- 避免固定表达导致误判
- 让重复率更接近真实原创水平
但它无法替代真正的原创写作。如果论文本身存在实质性重复,仅靠调整参数,很难从根本上解决问题。
在iThenticate查重中,排除低于8词匹配看似只是一个小功能,但它对最终相似度结果确实会产生明显影响。尤其是在英文论文、SCI论文以及理工科论文中,这种影响往往更加明显。不过,对于真正的学术审核来说,重复率始终只是参考指标之一。编辑和审稿人最终关注的,仍然是论文是否具备真实的原创性,以及作者是否进行了规范、合理的学术表达。另外,个人在预查重阶段,可以忽略这个设置,除非已经明确了投稿的期刊要求这样设置,否则个人设置了这个参数得出的结果往往偏低。