hadoop分布式和伪分布式用于哪些评情况?
Hadoop分布式和伪分布式用于三种情况:(1)NameNode,(2)DataNode,(3)Secondary NameNode三种不同的分布式架构。
第一种情况,NameNode:(1)是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。(2)文件包括:fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。edits:操作日志文件。fstime:保存最近一次checkpoint的时间(3)以上这些文件是保存在linux的文件系统中。第二种情况,DataNode分布式分布,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
第三种情况,Secondary NameNode创立连接,Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。它们都对文件编辑,蜜钥连接,格式化开启服务,查看并测试,创建目录并上传,重新执行命令等情况起到分析作用。
在实际运行过程中,在以独立模式运行Hadoop之后,让我们以分布式模式 (多节点集群)启动Hadoop。
当时的先决条件:在分布式模式下启动hadoop之前,必须在伪分布式模式下设置hadoop,并且至少需要两台计算机,其中一台用于主机,另一台用于从机(您可以在一台计算机上创建多台虚拟机)。
因此,Hadoop需要SSH访问权限来管理其节点,即远程计算机和本地计算机。
因此,对于我们的Hadoop单节点设置,我们需要为hadoop_admin用户配置对localhost的SSH访问。
Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有