专业网站建设品牌,十四年专业建站经验,服务6000+客户--广州京杭网络
免费热线:400-683-0016      微信咨询  |  联系我们

什么数据值得爬取进行分析_数据库

当前位置:网站建设 > 技术支持
资料来源:网络整理       时间:2023/3/5 15:59:19       共计:3606 浏览

什么数据值得爬取进行分析?

首先爬取大数据现在一般都是用python,所以你先要在linux上搭python的环境,最好是3.x的版本。

然后Python有很多爬虫的框架,比较好用,比如scrapy。但是框架有了之后还要有一些其他的知识,比如正则表达式,因为怕下来的数据需要用正则去解析。

解析完之后要对数据清洗,这个工作python的pandas基本都能完成。

清洗完之后要入库,如果数据量不是太大的话,传统的数据库mysql什么的就可以了,如果数据量很大,还要搭Hadoop,这个就有点麻烦了,还要用sqoop。 基本流程就是这样,如果有疑问,可以在讨论。

版权说明:
本网站凡注明“广州京杭 原创”的皆为本站原创文章,如需转载请注明出处!
本网转载皆注明出处,遵循行业规范,如发现作品内容版权或其它问题的,请与我们联系处理!
欢迎扫描右侧微信二维码与我们联系。
·上一条:mysql 查询空格,mysql80Windowszip包版本安装详细过程_数据库 | ·下一条:mysqldb安装以后运行找不到文件_数据库

Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有    粤ICP备16019765号 

广州京杭网络科技有限公司 版权所有