如何简单有效的学习Python爬虫_CSS学习

资料来源：网络整理时间：2023/3/4 4:29:23 共计：3597 浏览

如何简单有效的学习Python爬虫？

应该先有一个爬虫思路：

获得我们需要爬取的网页源码；

在源码里找到你需要的信息，提取出来；

现在我们说一个最简单的方法，也就是入门。首先是python和urllib。这里我们举例的版本是python2.7x也就是2.7之后的版本，我们没有用python3。首先我们需要一个组件：urllib2，这是python获取URL的一个组件。

首先我们创建一个

urllib2_test01.py

然后呼入下面代码：

执行的话写的python的代码如下：

会看到的结果如下：

最开始的四行代码做的是爬取百度首页的工作。第一行是将之前提到的组件引入来让我使用，第二行是调用urllib2库中的urlopen的方法，这个方法就是接受一个url，之后将请求后得到的回应封装到response的对象里面。最后异步是调用response对象的read（）方法，将请求的回应内容以字符串的形式给html变量；

这只是举了个很简单的例子，还有其他的方法，但是直接用python给urllib2给一个网站发送请求的话，是有些唐突的。就好像是，我们每个家都有门，你是一个路人直接闯进来就显得不是很礼貌，有的网站也会拒绝你的请求。但是如果我们换一个身份的话，就是这样：

所以我们就应该给我们这个代码加上一个身份，这个身份就是User-Agent头；如果我们不是专业学习前端专业的，这个东西对于C或者是后端开发的人是很头疼的。

这里有很重要的一句话，就是我们用不同的浏览器发送请求的时候，会有不用的User-Agent头。浏览器就是世界上被允许的身份。真正爬虫的重点和难点也都在反爬等等阶段。

我们可以编辑

urllib2_test03.py

，上面这一大段代码就是一个基本的操作，那么如果我们想实现一个简单的爬虫，上面也就足够了。如果你还想更加深入的了解urllib2的其他操作，可以关注我哦。还有更多的爬虫教程。

版权说明：
本网站凡注明“广州京杭原创”的皆为本站原创文章，如需转载请注明出处！
本网转载皆注明出处，遵循行业规范，如发现作品内容版权或其它问题的，请与我们联系处理！
欢迎扫描右侧微信二维码与我们联系。

·上一条：武则天有过几个版本的_CSS学习 | ·下一条：tr定义_CSS学习