节点文献

一种基于Hadoop的文本相似度仿真检测模型

免费订阅

【作者】 吴云许抗震黄瑞章

【Author】 WU Yun;XU Kangzhen;HUANG Ruizhang;College of Computer Science and Technology, Guizhou University;

【机构】 贵州大学计算机科学与技术学院

【摘要】 随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和软件的优化;第二步,把文档转化为集合,使用改进的基于Map Reduce编程模型的Shingling算法;第三步,提出一种分布式的New Minhash算法求签名矩阵,然后利用Jaccard系数计算出相似度,选出相似的文档.实验证明:对于相同操作,优化后的性能耗时减少了近5.65%.该仿真模型不仅能够更加精确的求出文本相似度,而且能够更好的适应分布式平台处理大规模的文本数据,同时拥有良好的扩展性.

【关键词】 文本相似MinhashShinglingHadoop
【基金】 国家自然科学基金项目(61462011)
【所属期刊栏目】 信息科学与技术 (2017年03期)
  • 【DOI】10.13568/j.cnki.651094.2017.03.010
  • 【分类号】TP391.1
  • 【被引频次】2
  • 【下载频次】93
节点文献中: 

本文链接的文献网络图示:

浏览历史:
下载历史: