爬虫都有什么必须用的技能呀?
第一,如果你想用Python写爬虫的话,Python基础肯定是必不可少的
第二,适当的网页知识。因为你做爬虫,要么是从页面里面拿数据,要么是从请求里面拿数据。从页面拿数据,就需要了解DOM树,基本的HTML与css选择器;如果从请求里面拿数据,就需要对网络有一定的了解,不说什么比较高深的授权认证(token什么的),最起码要懂得明文请求的一些基本知识。
第三,在基础知识学得差不多了,就可以学一下scrapy了,这是一款入门非常容易的Python爬虫框架
以上几点,爬取一些简单的东西已经没问题了。
另外,分析能力也很重要,比如要爬取一系列网页的内容,看它们有什么相同点和不同点,比如前段部分的url是相同的,只有一个参数page的变化。
如果还想深入爬虫,可以研究怎么让爬虫伪装授权,自动登录等,对一些加了权限的站点有用。
Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有