节点文献

基于聚焦型网络爬虫的影评获取技术

免费订阅

【作者】 高宇杨小兵

【Author】 GAO Yu;YANG Xiaobing;College of Information Engineering,China Jiliang University;

【通讯作者】 杨小兵;

【机构】 中国计量大学信息工程学院

【摘要】 随着"互联网+"概念的普及,网络上的资源随之成倍增长.面对庞大的数据资源,传统的搜索引擎Baidu、Google等已经不能满足人们对于特定信息的获取需求.作为搜索引擎抓取数据的重要组成部分,网络爬虫的作用非常重要.本文主要介绍了网络爬虫的概念、组成模块以及工作流程,在通用爬虫的基础上提出一种聚焦型网络爬虫系统,以python和相应的第三方库为主要工具,通过定义采集函数和给定豆瓣网最新上映电影的网址,快速搜索该网址某电影的影评信息,对页面内链接和外链接进行有效爬取.然后,再对获取到的数据进行分词处理,根据关键词的出现频率生成词云.实验结果表明,该聚焦型爬虫系统能够将所有影评信息以JSON格式存储到本地,并通过词云直观的展示出来.

【所属期刊栏目】 信息科学 (2018年03期)
  • 【分类号】TP391.1
  • 【被引频次】2
  • 【下载频次】326
节点文献中: 

本文链接的文献网络图示:

浏览历史:
下载历史: