如何使用spark?
谢邀!笔者刚签约Spark大数据工程师岗位,就Spark的特性和应用场景展开说明一下!
Spark特性Spark与Hadoop的功能性质都是一样的,就是提供为大规模数据处理而设计的快速通用的计算引擎。简单通俗点讲,就是Spark集群能够容纳足够大规模(就是未知而且规模不停增长的)数据。 Spark与Hadoop相似,但总体来说比Hadoop有优势,主要表现在某些工作负载方面比Hadoop更加优越,比如内存计算下Spark比Hadoop快很多倍,提供了80多个高级运算符很易用,提供了大量的库包括SQL、DataFrames、MLlib、GraphX、Spark Streaming等可以在同一个应用程序中无缝组合使用这些库。
典型的应用场景比如大数据在广告、分析报表、推荐系统等方面的应用,比如大数据做应用分析、效果分析、定向优化、优化排名、个性化推荐、热点点击分析等等。Spark主要使用scala(面向对象、函数式编程语言)来实现,当然也支持Java、Python等语言。
目前用得比较成功的比如:
1.腾讯社交广告(原名广点通)。借助Spark快速迭代的优势,实现了实时采集、分析、预测,在广告投放系统上,可以达到支持每天上百亿的请求数据量。而其日志数据即时查询也是达到了非常快速。
2.淘宝。搜索和广告业务使用Spark,用于推荐相关算法上,解决了许多问题。
3.优酷土豆。开始使用的是Hadoop,出现了很多问题,包括商业智能反应速度慢,效率不高等。后使用Spark,性能提升很多,交互响应很快。
未来发展如今Spark仍然是非常火热的大数据框架,以其RDD抽象、内存计算以及活跃的社区闻名,但在流处理上差强人意,因此阿里巴巴目前已经将目光转为Flink--一种流计算处理框架,同样也可以完成批处理任务,因此Spark的未来之路注定不会一马平川,还需要开发者投入更多的精力去优化计算和提升算力。
笔者已在大数据领域多年,也常年在今日头条中分享大数据相关知识与实战经验,欢迎大数据爱好者一同探讨。头条号:大数据之眸
Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有