0

0

Hadoop完全分布式集群搭建

爱谁谁

爱谁谁

发布时间:2025-05-12 11:24:23

|

319人浏览过

|

来源于php中文网

原创


环境准备

我使用的是CentOS-6.6版本的4台虚拟机,主机名分别为node01、node02、node03和node04。我将使用hadoop用户来搭建集群(在生产环境中,root用户通常不允许任意使用)。关于虚拟机的安装,可以参考以下两篇文章:在Windows中安装一台Linux虚拟机,以及通过已有的虚拟机克隆四台虚拟机。为集群中的每个虚拟机创建一个hadoop用户,并赋予sudoer权限,参考:Linux用户管理常用命令和Linux给普通用户赋予sudoer权限。每台虚拟机都需要安装JDK,参考在Linux中安装JDK。集群中的所有虚拟机需要实现两两之间以及自身的免秘钥登录,参考配置各台虚拟机之间免秘钥登录。集群中的所有虚拟机的时间需要同步,参考Linux集群系统时间同步。hadoop安装包的下载地址为:https://www.php.cn/link/eecd2755d73701aa057cd2a32bd7b1e2

  1. 集群规划

Hadoop完全分布式集群搭建

  1. 安装步骤

(1) 将hadoop安装包上传到服务器并解压

tar zxvf hadoop-2.6.5.tar.gz -C /home/hadoop/apps/

(2) 修改 hadoop-env.sh、mapred-env.sh 和 yarn-env.sh 这三个配置文件,添加JAVA_HOME。hadoop的配置文件位于HADOOP_HOME/etc/hadoop/目录下。

export JAVA_HOME=/usr/local/jdk1.8.0_73

(3) 修改 core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node01:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/hadoopdata</value>
  </property>
</configuration>

(4) 修改 hdfs-site.xml

<configuration>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/home/hadoop/hadoopdata/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/home/hadoop/hadoopdata/data</value>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.secondary.http.address</name>
    <value>node02:50090</value>
  </property>
</configuration>

(5) 修改 mapred-site.xml。集群中只有mapred-site.xml.template,可以从这个文件进行复制。

cp mapred-site.xml.template mapred-site.xml
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

(6) 修改 yarn-site.xml

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node03</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

(7) 修改 slaves 配置文件,指定DataNode所在的节点

node02
node03
node04

(8) 将hadoop安装包分发给其他节点

[hadoop@node01 hadoop]# scp -r /home/hadoop/apps/hadoop-2.6.5 node02:/home/hadoop/apps/
[hadoop@node01 hadoop]# scp -r /home/hadoop/apps/hadoop-2.6.5 node03:/home/hadoop/apps/
[hadoop@node01 hadoop]# scp -r /home/hadoop/apps/hadoop-2.6.5 node04:/home/hadoop/apps/

(9) 为每个节点配置HADOOP_HOME环境变量

vim ~/.bash_profile
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.6.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

(10) 在namenode主节点(node01)上格式化文件系统

[hadoop@node01 ~]# hdfs namenode -format

看到以下信息说明格式化成功:

Hadoop完全分布式集群搭建

(11) 在namenode主节点(node01)上启动hdfs系统

[hadoop@node01 ~]# start-dfs.sh

(12) 在resourcemanager所在节点(node03)上启动yarn

Giiso写作机器人
Giiso写作机器人

Giiso写作机器人,让写作更简单

下载
[hadoop@node03 ~]# start-yarn.sh
  1. 验证集群是否搭建成功

(1) 查看进程是否全部启动

[hadoop@node01 ~]# jps
4000 NameNode
4281 Jps
<p>[hadoop@node02 ~]# jps
3442 SecondaryNameNode
3289 DataNode
3375 NodeManager
3647 Jps</p><p>[hadoop@node03 ~]# jps
2945 DataNode
3019 ResourceManager
3118 NodeManager
3919 Jps</p><p>[hadoop@node04 ~]# jps
2899 DataNode
2984 NodeManager
3149 Jps

(2) 访问WEB页面

Hadoop完全分布式集群搭建

Hadoop完全分布式集群搭建

(3) 执行hdfs命令或运行一个mapreduce程序测试

# 上传一个文件
[hadoop@node01 ~]# hdfs dfs -put ./install.log /</p><h1>执行一个mapreduce例子程序</h1><p>[hadoop@node01 mapreduce]# pwd
/home/hadoop/apps/hadoop-2.6.5/share/hadoop/mapreduce
[root@node02 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.6.5.jar pi 5 5

文件上传成功:

Hadoop完全分布式集群搭建

任务成功运行:

Hadoop完全分布式集群搭建

Hadoop完全分布式集群搭建

到这里,hadoop完全分布式集群就已经搭建成功了!

  1. 如果hadoop集群需要重装,按以下步骤进行

(1) 删除每个机器中的hadoop日志。日志默认在HADOOP_HOME/logs下,如果不删除,日志文件会越积累越多,占用磁盘。

(2) 删除原来的namenode和datanode产生的数据和文件。删除你配置的hadoop.tmp.dir这个目录,如果你配置了dfs.datanode.data.dirdfs.datanode.name.dir这两个配置,那么把这两个配置对应的目录也删除。

(3) 再重新修改hadoop配置文件后,按照安装时的步骤进行即可。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

412

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

251

2023.10.07

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1949

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1172

2024.11.28

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

1518

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1172

2023.07.27

windows照片无法显示
windows照片无法显示

当我们尝试打开一张图片时,可能会出现一个错误提示,提示说"Windows照片查看器无法显示此图片,因为计算机上的可用内存不足",本专题为大家提供windows照片无法显示相关的文章,帮助大家解决该问题。

837

2023.08.01

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
尚学堂Mahout视频教程
尚学堂Mahout视频教程

共18课时 | 3.3万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.7万人学习

Git 教程
Git 教程

共21课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号