行业研究报告在哪里找?
1. 公开数据源
UCI:加州大学欧文分校开放的经典数据集,真的很经典,被很多机器学习实验室采用。
http://archive.ics.uci.edu/ml/datasets.html
国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。
http://data.stats.gov.cn/index.htm
CEIC:超过128个国家的经济数据,能够精确查找GDP、CPI、进出口以及国际利率等深度数据。
https://www.ceicdata.com/zh-hans
中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息。
http://www.tjcn.org/
政务数据网站:现在各个省都在很大程度上地开放政务数据,比如北京、上海、广东、贵州等等,都有专门的数据开放网站,搜索比如“北京政务数据开放”。
2. 网络爬虫
基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。比如:
职位数据:拉勾、猎聘、51job、智联
金融数据:IT桔子、雪球网
房产数据:链家、安居客、58同城
零售数据:淘宝、京东、亚马逊
社交数据、微博、知乎、Twitter
影视数据:豆瓣、时光网、猫眼
……
在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(菜鸟教程就很好)……
以及如何用成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。
掌握基础的爬虫之后,你还需要一些高级技巧。
比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie等等,来应对不同网站的反爬虫限制。
爬虫可以说是最为灵活、有效的数据获取方式,但学习成本相对来说也要高一些。
开始建议先利用公开数据进行分析,后续有更多的数据需求,再上手爬虫。
那个时候你已经掌握了Python基础,爬虫上手也会更轻松。
3. 其他数据获取方式
如果你暂时不会爬虫,但又有采集数据的需求,可以尝试各种数据挖掘软件,不需要编程知识也可以轻松爬取信息,比如八爪鱼、Smartbi等。
很多数据竞赛网站也会公开不错的数据集,比如国外的Kaggle,国内的DataCastle、天池。
这些数据都是真实的业务数据,且规模通常不小,可以经常去搜集和整理。
希望我的回答对您有帮助,感谢您点赞并关注!如有其它问题,请关注公众号“scyyhd”,有专人,第一时间回答您的问题~~
Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有