专业网站建设品牌,十四年专业建站经验,服务6000+客户--广州京杭网络
免费热线:400-683-0016      微信咨询  |  联系我们

如何简单有效的学习Python爬虫_CSS学习

当前位置:网站建设 > 技术支持
资料来源:网络整理       时间:2023/3/4 4:29:23       共计:3597 浏览

如何简单有效的学习Python爬虫?

应该先有一个爬虫思路:

获得我们需要爬取的网页源码;

在源码里找到你需要的信息,提取出来;

现在我们说一个最简单的方法,也就是入门。首先是python和urllib。这里我们举例的版本是python2.7x也就是2.7之后的版本,我们没有用python3。首先我们需要一个组件:urllib2,这是python获取URL的一个组件。

首先我们创建一个

urllib2_test01.py

然后呼入下面代码:

执行的话写的python的代码如下:

会看到的结果如下:

最开始的四行代码做的是爬取百度首页的工作。第一行是将之前提到的组件引入来让我使用,第二行是调用urllib2库中的urlopen的方法,这个方法就是接受一个url,之后将请求后得到的回应封装到response的对象里面。最后异步是调用response对象的read()方法,将请求的回应内容以字符串的形式给html变量;

这只是举了个很简单的例子,还有其他的方法,但是直接用python给urllib2给一个网站发送请求的话,是有些唐突的。就好像是,我们每个家都有门,你是一个路人直接闯进来就显得不是很礼貌,有的网站也会拒绝你的请求。但是如果我们换一个身份的话,就是这样:

所以我们就应该给我们这个代码加上一个身份,这个身份就是User-Agent头;如果我们不是专业学习前端专业的,这个东西对于C或者是后端开发的人是很头疼的。

这里有很重要的一句话,就是我们用不同的浏览器发送请求的时候,会有不用的User-Agent头。浏览器就是世界上被允许的身份。真正爬虫的重点和难点也都在反爬等等阶段。

我们可以编辑

urllib2_test03.py

,上面这一大段代码就是一个基本的操作,那么如果我们想实现一个简单的爬虫,上面也就足够了。如果你还想更加深入的了解urllib2的其他操作,可以关注我哦。还有更多的爬虫教程。

版权说明:
本网站凡注明“广州京杭 原创”的皆为本站原创文章,如需转载请注明出处!
本网转载皆注明出处,遵循行业规范,如发现作品内容版权或其它问题的,请与我们联系处理!
欢迎扫描右侧微信二维码与我们联系。
·上一条:武则天有过几个版本的_CSS学习 | ·下一条:tr定义_CSS学习

Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有    粤ICP备16019765号 

广州京杭网络科技有限公司 版权所有