假设你已经知道html和网页相关理论知识,并且具备一定的python基础知识。
可以使用pyspider,简单学习和了解电影网页结构即可快速爬取。我以前学习的时候拿电影天堂交过手
检查是否存在保存。也有可能是爬取的信息量太大,需要等一下。
对于初学者而言,的确需要明确自己的Python应用领域是哪些。
Python是一门语言、一个平台,他的强大在于其平台上的生态足够广泛。对于Python学习者而言,平台上有哪些领域的库,那么你就可以用Python做事情。
下面列出我所知道的
数据处理Python中的pandas是一个非常优秀的数据处理包,可以让你灵活应对几乎任何形式的数据形式。
我的头条号目前有一系列相关文章:
学Python还不会处理Excel数据?带你用pandas玩转各种数据处理
"Python替代Excel Vba"系列(二):pandas分组统计与操作Excel
数据分析与挖掘这是一个非常有趣味的事情,想象一下你可以通过一份数据,挖掘事情背后的一些逻辑。
与上一点一致,你可以使用 pandas + 其他辅助包(作图用 seaborn或其他,快速探索性分析用Profiling包),让你快速探索你的数据。
我的相关文章可以查看:
Python数据分析:挖掘《泰坦尼克号》的秘密
20行代码教会Python分析商品评价
Python程序实战:入门Python不仅让你少加班,他还可以这么炫酷
游戏使用Python可以做出很多优秀的2d游戏。使用的库是pygame。这方面我比较少接触,你可以网上查阅资料。
当然,有时候你可以做一些无需大量漂亮界面的游戏。
你可以参考我的相关文章:
用Python做一个有趣的拿石子游戏
Python做人工智能?让电脑自己学会玩游戏,实战带你入门机器学习
爬虫这个我就不细说了,如果你是用python做数据相关的事情,那么爬虫可能是你的必修课。python有足够多和强大的爬虫相关的包可以用。目前我也在构想一些爬虫相关的文章。
我的相关文章:
让Python爬虫告诉你-吴彦祖今天不舒服了!网站python创建网站也十分容易。这方面我从来不使用python做网站,但如果你需要快速创建简单的网站,可以考虑使用python,而非其他的编程语言。
还有其他很多我不知道的领域~~~
最后最后想说一下,学习以上每一个领域,最根本的是领域知识而非是否使用python,我之所以选用python做以上的事情,是因为使用python有大量的包可以让你快速做出事情。
挑选一个你自己感兴趣的领域,然后用上你学的python吧。
呃。。题主这个问题是如何分析并选择什么样的方式进行爬取。我也是新入门,简单说下我的经验吧,当然只针对简单的小爬虫,大型爬虫先不说了(我也不怎么会。。)!
首先,我会去看看我想要的内容在哪个页面,查看页面结构,考虑怎么写循环获取所有的数据(如果只是单页面抓取数据,直接右键就可以不需要写爬虫了),这样我脑海里就有了大概的构思,比如大概几层循环就可以完成
然后第二步呢,就是观察网页,简单的说,就是查看网页的元素是否存在源代码中,这就分2步了:
1、存在,那么简单了:查看页码,构建翻页循环,根据网页结构选择适当的匹配方式,获取内容,存储的方法等等按部就班的写就行!这类网站适用于大部分的盗版小说网等等,大家自己去看看就知道了
2、不存在,那么就去开发者工具中查看是否是ajax动态加载,是否可用抓到json数据:
a、如果存在json数据:类似百度图片,下拉加载内容,就可以抓取json包,然后观察请求地址,找出循环规律,遍历json数据,取到相关内容!百度图片、头条图集就是属于这类网站,有兴趣可以去看看
b、没有json数据,不存在ajax加载,这种网站是最烦的,你需要去分析它的内容存在位置,是否js加载,js函数规律等等,比如煎蛋网妹子图
3、在写代码中间,还面临一个问题,有的网站虽然数据存在源代码中,但是它们也存在反爬,那么我一般是依次尝试:只加入UA、加入所有请求头、尝试移动端网页(比如微博爬虫,移动端的比较好爬)抓取等等手段,在抓取数据中间也存在网站有限制的情况,比如防盗链(分析Headers里的Referer参数),封IP(加入ip代理),封账号(加入cookie池)如果还不行,那就要看最后一条了
4、如果之前的手段还是不行,那么可以尝试selenium+python的解决办法,一般的网站都可以搞定了!
最后补充一条!爬到的数据自己想怎么玩就怎么玩,但是不要流传,不要买卖,我们只做研究学习!!!切记!
不知道为啥,传不了图片了。。很尴尬。。大家凑合看吧!
欢迎关注我的个人公众号:python入门 或者头条号,大家一起交流学习!
总结,以上就是关于python爬取图片并保存以及python多页爬取电影天堂最新电影的经验分享,卡友有疑问可以加wx或扫码加群!Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有