Adaptations of features commonly applied in the field of visual computing, co-occurrence matrix (COM) and run-length matrix (RLM), are proposed for the similarity computation of strings in general (words, phrases, codes and texts). The proposed features are not sensitive to language related information. These are purely statistical and can be used in any context with any language or grammatical structure. Other statistical measures that are commonly employed in the field such as longest common subsequence, maximal consecutive longest common subsequence, mutual information and edit distances are evaluated and compared. In the first synthetic set of experiments, the COM and RLM features outperform the remaining state-of-the-art statistical features. In 3 out of 4 cases, the RLM and COM features were statistically more significant than the second best group based on distances (P-value < 0.001). When it comes to a real text plagiarism dataset, the RLM features obtained the best results.


翻译:针对视觉计算领域常用的特征——共现矩阵(COM)和游程长度矩阵(RLM)进行适应性改进,提出用于通用字符串(词、短语、代码及文本)相似度计算的统计特征。所提特征对语言相关信息不敏感,纯属统计性质,可适用于任何语言及语法结构场景。本文还对领域中其他常用统计度量(如最长公共子序列、最大连续最长公共子序列、互信息和编辑距离)进行了评估与比较。在首轮合成实验数据集上,COM和RLM特征表现优于其余现有最优统计特征。在4组实验中的3组中,RLM和COM特征在统计显著性上优于基于距离的第二优特征组(P值<0.001)。在真实文本抄袭数据集上,RLM特征获得了最优结果。

0
下载
关闭预览

相关内容

多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
异质信息网络分析与应用综述,软件学报-北京邮电大学
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
95+阅读 · 2022年8月2日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
异质信息网络分析与应用综述,软件学报-北京邮电大学
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员