如何才能成为大数据工程师?
如何成为一个大数据工程师?这个问题挺好的,我想很多人都想知道,毕竟现在大数据挺火的,我结合我的个人经验来说吧,大数据开发工程师,首先你得熟悉关系型数据库,比如Oracle或者MySQL,熟悉之后,有利于数据仓库的开发,因为很多做ETL(抽取(extract)、转换(transform)、加载(load))时,用的源就是这些,不过还有其他比如从Nosql数据库导出导入数据,也有用FTP传输数据,还有用爬虫工具爬数据,等等很多中方式。再次熟悉Hadoop,这个都是现在大数据领域中用的最多的一个技术,它的HDFS可以实现分布式存储,Yarn是一个优秀的资源调度框架。再次你可以学习Hadoop生态圈中的技术,向Hive现在用的挺多的,只要你会SQL语句在熟悉一下Hadoop的架构原理,基本可以驾驭了它,它做数据仓库很优秀,还可以自定义函数UDF,也可以控制权限,你也可以通过Sqoop工具从数据库中向Hive中导入数据,速度是真的快,在一个就是面向列族的Hadoop的数据库HBase,现在也用的挺多的,只要是大数量的,一般大部分用HBase存储数据,Hbase实时性强,延时低,有唯一ROWkey的索引机制,所以很快。你还有学习FLUME用来收集日志,比如静态日志Nginx产生的,里面有很多关键的信息可以分析,通过Hive清洗数据,最后存储在HBase,还有就是Kafka消息订阅分发系统,这个也用的多,比如很多实时行的数据可以通过Kafka分类可以存储在Hbase中不同的表中,在一个就是Spark生态圈,Spark是基于内存计算的大数据计算框架,他计算非常快,如果要求计算速度高,有实时性强,可以采用Spark的SparkSQL、SparkStreaming等,Spark还支持机器学习,图计算等。最后再学习一下JAVAweb的ssh框架。学玩这些基本计算一个初级的大数据开发工程师啦。
Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有