Hadoop集群搭建过程总结

sxxbxh 2021-04-16 16:23:19
java linux hadoop MapReduce jdk


本文主要总结了Hadoop集群搭建的过程,内容包括发行版本说明、Hadoop集群简介、服务器准备、网络环境准备、服务器系统设置以及JDK 环境安装。有学习需要的小伙伴一起来看看吧~

1、发行版本说明

Hadoop 发行版本分为开源社区版和商业版。社区版是指由 Apache 软件基金会维护的版本,是官方维护的版本体系。 商业版 Hadoop 是指由第三方商业公司在社区版 Hadoop 基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本,比较著名的有 cloudera的 CDH、mapR、hortonWorks 等。

我们等会要学习的是商业版:cloudera 的 CDH。如未说明都指 CDH版本。Hadoop 的版本很特殊,是由多条分支并行的发展着。大的来看分为3个大的系列版本:1.x、2.x、3.x。Hadoop1.0 由一个分布式文件系统 HDFS和一个离线计算框架 MapReduce 组成。

Hadoop 2.0 则包含一个支持 NameNode 横向扩展的 HDFS,一个资源管理系统YARN 和一个运行在 YARN 上的离线计算框架 MapReduce。相比于 Hadoop1.0, Hadoop 2.0 功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。Hadoop 3.0 相比之前的 Hadoop 2.0 有一系列的功能增强。目前已经趋于稳定,但是整个生态圈体系升级整合还未完毕,所以商用还值得商榷。 我们要讲的Hadoop集群搭建过程,使用的是当前 2 系列最稳定版本:CDH 2.6.0-CDH14.0。

2、Hadoop集群简介

Hadoop集群具体来说包含两个集群:HDFS 集群和 YARN 集群,两者逻辑上分离,但物理上常在一起。HDFS集群负责海量数据的存储,集群中的角色主要有:NameNode 、 DataNode 、 SecondaryNameNode。YARN 集群负责海量数据运算时的资源调度,集群中的角色主要有: ResourceManager、NodeManager。

那 mapreduce是什么呢?它其实是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在 HDFS 集群上,并且受到 YARN 集群的资源调度管理。Hadoop 部署方式分三种,Standalone mode(独立模式)、Pseudo-Distributed mode(伪分布式模式)、Cluster mode(群集模式),其中前两种都是在单机部署。独立模式又称为单机模式,仅 1 个机器运行 1 个 java 进程,主要用于调试。伪分布模式也是在 1 个机器上运行 HDFS 的 NameNode 和 DataNode、YARN 的ResourceManger 和 NodeManager,但分别启动单独的 java 进程,主要用于调试。集群模式主要用于生产环境部署。会使用 N 台主机组成一个 Hadoop 集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。我们以 3 节点为例进行搭建,角色分配如下:

node-01 NameNode DataNode ResourceManager

node-02 DataNode NodeManager SecondaryNameNode

node-03 DataNode NodeManager

3、服务器准备

本案例使用 VMware Workstation Pro 虚拟机创建虚拟服务器来搭建 HADOOP 集群,所用软件及版本如下:

VMware Workstation Pro 12.0

Centos 6.9 64bit

4、网络环境准备

采用 NAT 方式联网。如果创建的是桌面版的 Centos 系统,可以在安装完毕后通过图形页面进行编辑。如果是 mini 版本的,可通过编辑 ifcfg-eth*配置文件进行配置。 注意 BOOTPROTO、GATEWAY、NETMASK。

5、服务器系统设置

同步时间

#同步集群各机器时间

date -s "2019-03-03 03:03:03" yum install ntpdate

#网络同步时间

ntpdate cn.pool.ntp.org

设置主机名

vi /etc/sysconfig/network NETWORKING=yes

HOSTNAME=node-1

配置 IP、主机名映射vi /etc/hosts

192.168.33.101 node-1

192.168.33.102 node-2

192.168.33.103 node-3

配置 ssh 免密登陆

#生成 ssh 免登陆密钥

ssh-keygen -t rsa (四个回车)

执行完这个命令后,会生成 id_rsa(私钥)、id_rsa.pub(公钥)

将公钥拷贝到要免密登陆的目标机器上

ssh-copy-id node-2

配置防火墙

#查看防火墙状态

service iptables status

#关闭防火墙

service iptables stop

#查看防火墙开机启动状态

chkconfig iptables --list

#关闭防火墙开机启动

chkconfig iptables off

6、JDK 环境安装

#上传 jdk 安装包

jdk-8u65-linux-x64.tar.gz

#解压安装包

tar zxvf jdk-8u65-linux-x64.tar.gz

#配置环境变量 /etc/profile

export JAVA_HOME=/export/servers/jdk1.8.0_65

export PATH= P A T H : PATH: JAVA_HOME/bin

export CLASSPATH=.: J A V A H O M E / l i b / d t . j a r : JAVA_HOME/lib/dt.jar: JAVA_HOME/lib/tools.jar

#刷新配置

source /etc/profile

以上就是Hadoop集群搭建过程总结,大家都掌握了吗?更详细的大数据视频学习资源尽在博学谷,欢迎大家申请试学名额,进行免费的课程体验!

郑州看不孕不育医院哪家好https://jbk.39.net/yiyuanzaixian/zztjyy/

版权声明
本文为[sxxbxh]所创,转载请带上原文链接,感谢
https://my.oschina.net/u/4696788/blog/5021911

  1. 【计算机网络 12(1),尚学堂马士兵Java视频教程
  2. 【程序猿历程,史上最全的Java面试题集锦在这里
  3. 【程序猿历程(1),Javaweb视频教程百度云
  4. Notes on MySQL 45 lectures (1-7)
  5. [computer network 12 (1), Shang Xuetang Ma soldier java video tutorial
  6. The most complete collection of Java interview questions in history is here
  7. [process of program ape (1), JavaWeb video tutorial, baidu cloud
  8. Notes on MySQL 45 lectures (1-7)
  9. 精进 Spring Boot 03:Spring Boot 的配置文件和配置管理,以及用三种方式读取配置文件
  10. Refined spring boot 03: spring boot configuration files and configuration management, and reading configuration files in three ways
  11. 精进 Spring Boot 03:Spring Boot 的配置文件和配置管理,以及用三种方式读取配置文件
  12. Refined spring boot 03: spring boot configuration files and configuration management, and reading configuration files in three ways
  13. 【递归,Java传智播客笔记
  14. [recursion, Java intelligence podcast notes
  15. [adhere to painting for 386 days] the beginning of spring of 24 solar terms
  16. K8S系列第八篇(Service、EndPoints以及高可用kubeadm部署)
  17. K8s Series Part 8 (service, endpoints and high availability kubeadm deployment)
  18. 【重识 HTML (3),350道Java面试真题分享
  19. 【重识 HTML (2),Java并发编程必会的多线程你竟然还不会
  20. 【重识 HTML (1),二本Java小菜鸟4面字节跳动被秒成渣渣
  21. [re recognize HTML (3) and share 350 real Java interview questions
  22. [re recognize HTML (2). Multithreading is a must for Java Concurrent Programming. How dare you not
  23. [re recognize HTML (1), two Java rookies' 4-sided bytes beat and become slag in seconds
  24. 造轮子系列之RPC 1:如何从零开始开发RPC框架
  25. RPC 1: how to develop RPC framework from scratch
  26. 造轮子系列之RPC 1:如何从零开始开发RPC框架
  27. RPC 1: how to develop RPC framework from scratch
  28. 一次性捋清楚吧,对乱糟糟的,Spring事务扩展机制
  29. 一文彻底弄懂如何选择抽象类还是接口,连续四年百度Java岗必问面试题
  30. Redis常用命令
  31. 一双拖鞋引发的血案,狂神说Java系列笔记
  32. 一、mysql基础安装
  33. 一位程序员的独白:尽管我一生坎坷,Java框架面试基础
  34. Clear it all at once. For the messy, spring transaction extension mechanism
  35. A thorough understanding of how to choose abstract classes or interfaces, baidu Java post must ask interview questions for four consecutive years
  36. Redis common commands
  37. A pair of slippers triggered the murder, crazy God said java series notes
  38. 1、 MySQL basic installation
  39. Monologue of a programmer: despite my ups and downs in my life, Java framework is the foundation of interview
  40. 【大厂面试】三面三问Spring循环依赖,请一定要把这篇看完(建议收藏)
  41. 一线互联网企业中,springboot入门项目
  42. 一篇文带你入门SSM框架Spring开发,帮你快速拿Offer
  43. 【面试资料】Java全集、微服务、大数据、数据结构与算法、机器学习知识最全总结,283页pdf
  44. 【leetcode刷题】24.数组中重复的数字——Java版
  45. 【leetcode刷题】23.对称二叉树——Java版
  46. 【leetcode刷题】22.二叉树的中序遍历——Java版
  47. 【leetcode刷题】21.三数之和——Java版
  48. 【leetcode刷题】20.最长回文子串——Java版
  49. 【leetcode刷题】19.回文链表——Java版
  50. 【leetcode刷题】18.反转链表——Java版
  51. 【leetcode刷题】17.相交链表——Java&python版
  52. 【leetcode刷题】16.环形链表——Java版
  53. 【leetcode刷题】15.汉明距离——Java版
  54. 【leetcode刷题】14.找到所有数组中消失的数字——Java版
  55. 【leetcode刷题】13.比特位计数——Java版
  56. oracle控制用户权限命令
  57. 三年Java开发,继阿里,鲁班二期Java架构师
  58. Oracle必须要启动的服务
  59. 万字长文!深入剖析HashMap,Java基础笔试题大全带答案
  60. 一问Kafka就心慌?我却凭着这份,图灵学院vip课程百度云