节点文献

一种改进TF-IDF的中文邮件识别算法研究

免费订阅

【作者】 吴小晴万国金李程文林梦思曹书强

【Author】 WU Xiaoqing;WAN Guojin;LI Chengwen;LIN Mengsi;CAO Shuqiang;School of Information Engineering,Nanchang University;

【通讯作者】 万国金;

【机构】 南昌大学信息工程学院

【摘要】 传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF-IDF算法和类中心向量的中文垃圾邮件识别方法。通过改进传统的TF-IDF计算方式,在传统的TF-IDF算法里面加入卡方统计量CHI和位置影响因子能够很好地改善一些重要词汇的权重问题,并结合逆向最大匹配算法的邮件文本分词和类中心向量算法的特征选择进行垃圾邮件分类。实验结果表明,所提算法相较于传统的TF-IDF算法对垃圾邮件识别的准确率提升了约3.6%,具有一定的实际应用价值。

【基金】 国家自然科学基金项目(61661030)
【所属期刊栏目】 计算机科学与应用 (2020年12期)
  • 【DOI】10.16652/j.issn.1004-373x.2020.12.020
  • 【分类号】TP393.098
  • 【下载频次】82
节点文献中: 

本文链接的文献网络图示:

浏览历史:
下载历史: