在线文本相似度检测工具

本工具基于Oliver [1993]、Levenshtein 与 Jaccard 的算法实现文档相似度计算，可精准检测网页与文章重复度。

文档相似度计算在SEO中非常重要，如果你发布的内容与其他网页相似度过高，搜索引擎可能会降低其权重，影响整个网站的排名。

文档 1

字数: 0

文档 2

字数: 0

忽略大小写忽略空格忽略标点符号

算法选择：

关于文档相似度

文档相似度是衡量两个文本文档在内容上相似程度的指标。在网络搜索和内容管理中，相似度分析有以下几个重要用途：

搜索引擎优化(SEO)：搜索引擎会识别并可能降低重复内容的排名。
抄袭检测：学术界和出版行业使用相似度检测来识别潜在的抄袭行为。
内容管理：帮助网站管理员识别和整合相似内容，提高用户体验。
数据去重：在大型数据集中识别并合并相似记录。

一般来说，相似度超过70%通常被认为是高度相似，可能会被搜索引擎视为重复内容。

支持的相似度算法

1. Oliver [1993]（又称 Ratcliff/Obershelp 或 Gestalt Pattern Matching）

思路与场景

把两条字符串当成整体“形状”来比对：先找最长公共子串 (LCS)，再对左右剩余部分递归。适合比较标题、短句、代码行等“整体顺序不能乱”的小段文本。

计量方式

匹配字符数 = LCS长度 + 左右递归的匹配和。
相似度 sim = 2*K / (s1 + s2)，K 为总匹配字符数。注意：比例不对称。

复杂度 & 特性

最坏 O(n³)，平均 O(n²)；不用动态规划矩阵，占内存小，但速度不适合长文档；能捕捉“整体块”匹配，常被IDE用于差异高亮。

适用场景： 短句比对 / Diff 展示

2. Jaccard Index（集合交并比）

思路与场景

先把文本切成集合（词、n-gram、标签等），只关心元素出现与否，不管顺序和次数；非常适合去重、推荐系统、社区相似度等“袋-of-words / 标签集合”问题。

计量方式

J(A,B) = A∩B / A∪B，取值 0-1，完全对称；距离可用 1-J。

复杂度 & 特性

把集合做好后，求交并是近似 O(A + B)；可以用 MinHash 等 LSH 技术做大规模去重；对词序和重复次数不敏感。

适用场景： 海量文档去重 / 推荐

3. Levenshtein Distance（编辑距离）

思路与场景

把“把 s1 变成 s2 需要多少步”形式化为最小插入/删除/替换次数；典型应用：拼写纠错、DNA 序列比对、OCR 修正。

计量方式

动态规划求出最少操作数 d；有时会转成相似度 sim = 1 - d / max(s1, s2)。严格对称，满足三角不等式。

复杂度 & 特性

经典实现 O(n·m) 空间/时间，可用带宽限制或 Myers-bitset 降空间；能感知微小字符级差异，但对长文本代价高，需要滑窗或分块。

适用场景： 拼写检查 / OCR 校正

核心区别速览

维度	Oliver/R-O	Jaccard	Levenshtein
比较单位	连续子串 (顺序敏感)	元素集合 (顺序无关)	单字符操作 (顺序敏感)
输出	匹配字符数或比例 (0-1，不对称)	相似度 0-1 (对称)	距离 0-max (对称，可转相似)
复杂度	最坏 O(n³)	近似 O(A + B)	O(n·m)
优势	找“块”式共性；易解释	适合大规模去重；可 LSH	精准衡量编辑差异
劣势	对长串慢；对称性差	丢失位置信息	长文本开销大

在线文本相似度检测工具

文档 1

文档 2

分析结果

详细分析

关于文档相似度

支持的相似度算法

1. Oliver [1993]（又称 Ratcliff/Obershelp 或 Gestalt Pattern Matching）

思路与场景

计量方式

复杂度 & 特性

2. Jaccard Index（集合交并比）

思路与场景

计量方式

复杂度 & 特性

3. Levenshtein Distance（编辑距离）

思路与场景

计量方式

复杂度 & 特性

核心区别速览