大数据的框架主要学习和使用什么呢?
什么是大数据?
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
大数据开发学习路线:第一阶段:Hadoop生态架构技术1、语言基础Java:多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以,不需要深入掌握。Linux:系统安装、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。Python:基础语法,数据结构,函数,条件判断,循环等基础知识。2、环境准备这里介绍在windows电脑搭建完全分布式,1主2从。VMware虚拟机、Linux系统(Centos6.5)、Hadoop安装包,这里准备好Hadoop完全分布式集群环境。3、MapReduceMapReduce分布式离线计算框架,是Hadoop核心编程模型。4、HDFS1.0/2.0HDFS能提供高吞吐量的数据访问,适合大规模数据集上的应用。5、Yarn(Hadoop2.0)Yarn是一个资源调度平台,主要负责给任务分配资源。6、HiveHive是一个数据仓库,所有的数据都是存储在HDFS上的。使用Hive主要是写Hql。7、SparkSpark 是专为大规模数据处理而设计的快速通用的计算引擎。8、SparkStreamingSpark Streaming是实时处理框架,数据是一批一批的处理。9、SparkHiveSpark作为Hive的计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算,可以提高Hive查询的性能。10、StormStorm是一个实时计算框架,Storm是对实时新增的每一条数据进行处理,是一条一条的处理,可以保证数据处理的时效性。11、ZookeeperZookeeper是很多大数据框架的基础,是集群的管理者。12、HbaseHbase是一个Nosql数据库,是高可靠、面向列的、可伸缩的、分布式的数据库。13、Kafkakafka是一个消息中间件,作为一个中间缓冲层。14、FlumeFlume常见的就是采集应用产生的日志文件中的数据,一般有两个流程。一个是Flume采集数据存储到Kafka中,方便Storm或者SparkStreaming进行实时处理。另一个流程是Flume采集的数据存储到HDFS上,为了后期使用hadoop或者spark进行离线处理。
第二阶段:数据挖掘算法1、中文分词开源分词库的离线和在线应用2、自然语言处理文本相关性算法3、推荐算法基于CB、CF,归一法,Mahout应用。4、分类算法NB、SVM5、回归算法LR、DecisionTree6、聚类算法层次聚类、Kmeans7、神经网络与深度学习NN、Tensorflow
以上就是学习Hadoop开发的一个详细路线,如果需要了解具体框架的开发技术,可咨询加米谷大数据老师,详细了解。
学习大数据开发需要掌握哪些技术呢?(1)Java语言基础Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类
(2)HTML、CSS与JavaPC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生Java交互功能开发、Ajax异步交互、jQuery应用
(3)JavaWeb和数据库数据库、JavaWeb开发核心、JavaWeb开发内幕
Linux&Hadoop生态体系Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架分布式计算框架和Spark&Strom生态体系
(1)分布式计算框架Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算、实战一:基于Spark的推荐系统(某一线公司真实项目)、实战二:新浪网(www.sina.com.cn)
(2)storm技术架构体系Storm原理与基础、消息队列kafka、Redis工具、zookeeper详解、大数据项目实战数据获取、数据处理、数据分析、数据展现、数据应用大数据分析—AI(人工智能)DataAnalyze工作环境准备&数据分析基础、数据可视化、Python机器学习
Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有