针对微博的免登录分布式网络爬虫的研究
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

陕西省科技计划重点项目(2017ZDCXL-GY-05-03)


Research on Distributed Web Crawler without login for Microblog
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    微博作为优质的数据源,其中的数据非常适合做舆情分析等。新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率。针对这些问题,设计了一个免登录的微博网络爬虫。通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集。随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据。通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博。

    Abstract:

    Weibo is a good source of data,and the data is very suitable for public opinion analysis.The API provided by Sina officially limits the speed of data collection,and the network crawler using simulated login is relatively complicated and reduces efficiency.For these problems,a crawler without login for Weibo is designed.Experiments show that the crawler can perform complete and stable collection of Weibo data more quickly.With the increasing demand for data,the single network crawler can’t meet the requirements.The Hadoop distributed computing platform is combined with the crawler without login to design a distributed network crawler system based on MapReduce.Using a cluster of multiple computers, you can capture massive amounts of Weibo data in a short period of time.Through experiments,the crawler system can stably capture nearly 10 million micro blog per day.

    参考文献
    相似文献
    引证文献
引用本文

王林,刘星辰.针对微博的免登录分布式网络爬虫的研究计算机测量与控制[J].,2019,27(7):128-131.

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-12-24
  • 最后修改日期:2018-12-24
  • 录用日期:2019-01-14
  • 在线发布日期: 2019-07-30
  • 出版日期:
文章二维码