节点文献

基于开放信息源的实体挖掘方法研究

免费订阅

【作者】 王莉军李旭婕刘志辉翟云

【Author】 WANG Li-jun;LI Xu-jie;LIU Zhi-hui;ZHAI Yun;Institute of Scientific and Technical Information of China;E-Government Research Center,Party School of the Central Committee of C.P.C(National Academy of Governance);University of Science and Technology Beijing;Key Laboratory of Rich-media Knowledge Organization and Service of Digital Publishing Content,SAPPRFT;

【通讯作者】 刘志辉;

【机构】 中国科学技术信息研究所中央党校(国家行政学院)电子政务研究中心北京科技大学富媒体数字出版内容组织与知识服务重点实验室

【摘要】 【目的/意义】互联网上的信息资源日益丰富,开放信息源成为一些领域知识获取的重要渠道。本文以中医领域为例,为向本体和知识图谱的构建提供数据,提出了一种基于开放信息源的知识挖掘方法。【方法/过程】在缺乏领域训练语料的情况下,先获取一部分语料,使用规则模板、词向量结合词分类的方法获取部分领域实体词,通过回标文本语料得到训练集,再使用条件随机场进行实体的识别和抽取。【结果/结论】本文提出的规则结合SVMCRF实体抽取模型具有较高的有效性和通用性。在所使用的中医实体中,方剂和症型实体的抽取准确率仍待进一步提升。

【基金】 中国工程科技知识中心建设项目“知识组织体系建设”(CKCEST-2019-2-2);“中信所重点工作项目(富媒体知识组织与知识服务关键技术研究”(ZD2019-10);国家自然科学基金项目“非均衡概念漂移网络舆情大数据流挖掘模型、算法与评价机制研究“(61672178)
【所属期刊栏目】 博士论坛 (2019年08期)
  • 【DOI】10.13833/j.issn.1007-7634.2019.08.023
  • 【分类号】TP391.1
  • 【下载频次】27
节点文献中: 

本文链接的文献网络图示:

浏览历史:
下载历史: