数据爬取流程:
发送请求——>获得页面——>解析页面——>获取内容——>储存内容
mysql主要用于储存内容,方便后续检索使用,可以放到后续学习
数据爬取相关:
python基础(简单条件判断、循环、切片等)爬虫常用的一些python库(requests、urllib、HTMLPaser、BeautifulSoup等) http基础 html基础进阶一点的:
多线程、多进程、分布式(提高爬取效率)代理(用于反爬取) 爬虫框架(scrapy等)初学者可以参考一些视频教程,有针对性的快速入门
Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有