节点文献

基于特征融合的K-means微博话题发现模型

免费订阅

【作者】 李海磊杨文忠李东昊温杰彬钱芸芸

【Author】 Li Hailei;Yang Wenzhong;Li Donghao;Wen Jiebin;Qian Yunyun;College of Information Science and Engineering,Xinjiang University;National Engineering Laboratory for Public Safety Risk Perception and Control by Big Data (PSRPC) ,China Academy of Electronics and Information Technology;

【通讯作者】 杨文忠;

【机构】 新疆大学信息科学与工程学院中国电子科学研究院社会安全风险感知与防控大数据应用国家工程实验室

【摘要】 针对传统话题检测方法在微博短文本上存在高维稀疏的缺陷,提出了一种基于特征融合的K-means微博话题发现模型。为了更好地表达微博话题的语义信息,使用在句子中共现的词对向量模型(Biterm_VSM)代替传统的向量空间模型(Vector Space Model,VSM),并结合主题模型(Latent Dirichlet Allocation,LDA)挖掘出微博短文本中的潜在语义,把两个模型得到的特征进行特征融合,并应用K-means聚类算法进行话题的发现。实验结果表明,与传统的话题检测方法相比,该模型的调整兰德系数(Adjusted Rand index,ARI)为0.80,比传统的话题检测方法提高了3%~6%。

【关键词】 话题检测词对向量模型LDA特征融合K-means
【基金】 国家自然科学基金项目(U1603115);自治区自然科学基金项目(2017D01C042)
【所属期刊栏目】 人工智能 (2020年04期)
  • 【DOI】10.16157/j.issn.0258-7998.191367
  • 【分类号】TP391.1;TP393.092
  • 【下载频次】204
节点文献中: 

本文链接的文献网络图示:

浏览历史:
下载历史: