如何用Python模拟人为访问网站的行为?
使用python模仿人为访问网站个人认为主要有以下几个方面:
请求头,发送访问后,服务器接收到的最直接的感觉就是请求头了,所以,首先请求头要和浏览器的请求一样,目前主要是User-Agent、Host、Referer等请求频率,机器的访问速度一定是比人的请求速度快的多,如果你一秒有几十条请求的话,当然不难分辨你是一个爬虫,可以使程序休息一会等方式cookie,用户访问网站时是伴随着cookie的,cookie中保存着登陆信息等,这种可以使用session来实现资源请求,当访问一个页面时,一般不会是一个只有一个html文件,同时伴随着一些资源的请求,比如css,jpg,json等,而爬虫一般不会把这些资源全部请求,当然可以使用浏览器自动化控制模块(selenium等)来实现操控浏览器来请求验证码等,有些页面会伴随着验证码,使用验证码来判定访问者是一个人还是机器,不过一般的验证码当然是难不倒我们了以上就是我个人认为的Python爬虫和浏览器的区别,总结不全出,望各位不吝赐教Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有