专业网站建设品牌,十四年专业建站经验,服务6000+客户--广州京杭网络
免费热线:400-683-0016      微信咨询  |  联系我们

如何利用python爬取哔哩哔哩上的弹幕评论_python

当前位置:网站建设 > 技术支持
资料来源:网络整理       时间:2023/3/9 2:07:13       共计:3560 浏览

如何利用python爬取哔哩哔哩上的弹幕评论?

这个实现起来很简单,主要是抓包分析,哔哩哔哩的弹幕信息都保存在一个xml文件中,只要找到这个xml文件,然后进行解析,就能提取到我们所需的弹幕信息,下面我简单介绍一下实现过程,实验环境win10+python3.6+pycharm5.0,主要内容如下:

1.这里假设我们要爬取的是《动物世界》的弹幕信息,如下,看着信息好多:

接着按F12调出开发者工具如下,分别点击“网络”->“XHR”,刷新页面,查看抓包信息,很快就能发现list.so这个文件很大,而且是xml格式的,很可能是弹幕信息:

打开这个文件,复制链接到浏览器中,果然出现了我们需要的弹幕信息,如下:

2.接着就是爬取这个xml文件,并进行解析了,其实很简单,主要用到requests和BeautifulSoup这2个组合,requests请求xml文件,BeautifulSoup进行解析,很快就能提取到我们需要的弹幕信息,主要代码如下,很简单:

程序运行截图如下,已经成功解析出弹幕信息:

3.对抓取的弹幕信息进行简单统计分析,这里以词云进行显示吧,更直观、明了,还显得高大上,主要是先进行分词,然后再绘制词云,主要用到wordcloud和jieba这2个包,其中jieba用于中文分词,wordcloud用于绘制词云,主要步骤如下:

安装jieba,wordcloud这2个包,这里直接在cmd窗口pip install安装就行,如下:

分词及绘制词云图代码(背景图片可以自行设置),如下,很简单:

程序运行成功后,会在当前目录下生成一个alice_color.png图片,打开这个图片,就是我们生成好的词云图,如下:

可以看得出来,“会员”,“富有”,“微笑”是词频最高的3个词,看来看《动物世界》还需要会员,里面的人物都很富有啊,哈哈哈。

至此,我们就完成了利用python来爬取哔哩哔哩的弹幕信息,并进行了简单的统计展示。总的来说,整个过程不难,只要抓包分析,找到对应的xml文件,结合requests和BeautifulSoup,我们很快就能提取出所需的弹幕信息,网上也有相关资料和教程,感兴趣的可以搜一下,希望以上分享的内容能对你有所帮助吧。

版权说明:
本网站凡注明“广州京杭 原创”的皆为本站原创文章,如需转载请注明出处!
本网转载皆注明出处,遵循行业规范,如发现作品内容版权或其它问题的,请与我们联系处理!
欢迎扫描右侧微信二维码与我们联系。
·上一条:哪种编程语言最适合做图像识别_python | ·下一条:手机腾讯视频的弹幕开关怎么不见了_服务器

Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有    粤ICP备16019765号 

广州京杭网络科技有限公司 版权所有