文献知网节
  • 记笔记

基于编辑距离的词序敏感相似度度量方法

张雷崔荣一

延边大学工学院

摘要:为改善余弦相似度不能反映词袋模型中词项间顺序差异的缺点,提出了一种基于编辑距离的文档相似度度量方法.首先分析了基于tf-idf的词袋模型和余弦相似度计算方法所存在的问题;其次利用Jaccard系数和编辑距离描述两个字符串的公共子串中词语之间的顺序差异,并提出了一种词序敏感相似度计算方法;最后利用实验数据对算法的有效性进行了验证,结果显示本文方法在Top1、Top3上的F1指标比原始的余弦相似度方法分别提高了0.082 5、 0.112 6,表明本文方法能够有效地提升信息检索系统的性能,具有很好的应用价值.
  • DOI:

    10.16379/j.cnki.issn.1004-4353.2020.02.008

  • 专辑:

    理工A(数学物理力学天地生); 电子技术及信息科学

  • 专题:

    计算机软件及计算机应用

  • 分类号:

    TP391.1

  • 手机阅读
    即刻使用手机阅读
    第一步

    扫描二维码下载

    "移动知网-全球学术快报"客户端

    第二步

    打开“全球学术快报”

    点击首页左上角的扫描图标

    第三步

    扫描二维码

    手机同步阅读本篇文献

  • HTML阅读
  • CAJ下载
  • PDF下载

下载手机APP用APP扫此码同步阅读该篇文章

下载:35 页码:140-144 页数:5 大小:308K

相关文献推荐
  • 相似文献
  • 读者推荐
  • 相关基金文献
  • 关联作者