如何使用python抓取豆瓣的电影评论信息?
这里以python为例,简单介绍一下如何爬取豆瓣电影评论信息,因为评论信息是静态加载的,所以爬取很简单,特别适合初学者学习,下面我简单介绍一下实现过程,实验环境win10+python3.6+pycharm5.0,主要内容如下:
1.这里假设我们要爬取的是《一路好戏》的影评信息,包括评论人、等级、日期和评论内容,如下,地址https://movie.douban.com/subject/26985127/comments?start=0&limit=20&sort=new_score&status=P:
对应网页源码内容如下,需要解析出以下内容:
2.对应网页结构,爬取源码如下,主要用到requests和BeautifulSoup,其中requests用来请求页面,BeautifulSoup用来解析页面,提取出所需信息,原理很简单,实现也不难:
3.影评信息爬取完成后,就需要存储爬取到的信息,这里以存取到excel文件为例,主要用到pandas的DataFrame类,很简单,如下:
程序运行截图如下,已经成功存储豆瓣影评信息:
至此,我们就完成了利用python来爬取豆瓣影评信息。总的来说,整个过程不难,结合requests+BeautifulSoup,我们可以快速爬取豆瓣的影评信息,对于初学者来说,这是一个很不错的练习实例,后面熟悉后,也可以结合scrapy框架来爬取影评信息,将爬取到结果存储到mysql,mongodb等数据库中,这里我就不详细介绍过程了,感兴趣的可以搜一下相关资料,希望以上分享的内容能对你有所帮助吧。
Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有