如何简单有效的学习Python爬虫?
应该先有一个爬虫思路:
获得我们需要爬取的网页源码;
在源码里找到你需要的信息,提取出来;
现在我们说一个最简单的方法,也就是入门。首先是python和urllib。这里我们举例的版本是python2.7x也就是2.7之后的版本,我们没有用python3。首先我们需要一个组件:urllib2,这是python获取URL的一个组件。
首先我们创建一个
urllib2_test01.py
然后呼入下面代码:执行的话写的python的代码如下:
会看到的结果如下:
最开始的四行代码做的是爬取百度首页的工作。第一行是将之前提到的组件引入来让我使用,第二行是调用urllib2库中的urlopen的方法,这个方法就是接受一个url,之后将请求后得到的回应封装到response的对象里面。最后异步是调用response对象的read()方法,将请求的回应内容以字符串的形式给html变量;
这只是举了个很简单的例子,还有其他的方法,但是直接用python给urllib2给一个网站发送请求的话,是有些唐突的。就好像是,我们每个家都有门,你是一个路人直接闯进来就显得不是很礼貌,有的网站也会拒绝你的请求。但是如果我们换一个身份的话,就是这样:
所以我们就应该给我们这个代码加上一个身份,这个身份就是User-Agent头;如果我们不是专业学习前端专业的,这个东西对于C或者是后端开发的人是很头疼的。
这里有很重要的一句话,就是我们用不同的浏览器发送请求的时候,会有不用的User-Agent头。浏览器就是世界上被允许的身份。真正爬虫的重点和难点也都在反爬等等阶段。
我们可以编辑
urllib2_test03.py
,上面这一大段代码就是一个基本的操作,那么如果我们想实现一个简单的爬虫,上面也就足够了。如果你还想更加深入的了解urllib2的其他操作,可以关注我哦。还有更多的爬虫教程。Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有