引言
Hadoop作为大数据处理的开源框架,在处理海量数据方面表现出色。在CentOS环境下搭建Hadoop伪分布式集群,是学习大数据处理的重要步骤。本文将详细介绍如何在CentOS上搭建Hadoop伪分布式集群,帮助您快速入门。
系统准备
在开始之前,请确保您的CentOS系统满足以下要求:
- 操作系统:CentOS 6 或 7
- 硬件要求:至少4GB内存
- 软件要求:JDK 1.7及以上版本
安装JDK
- 下载JDK安装包:
- 将JDK安装包上传到CentOS服务器,并解压到
/usr/local/
目录下。 - 创建
/usr/local/jdk1.8.0_231
(根据实际版本修改)目录,并将解压后的JDK文件移动到该目录。 - 编辑
/etc/profile
文件,添加以下内容:
export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin
- 使环境变量生效:
source /etc/profile
- 验证JDK安装:
java -version
安装Hadoop
- 下载Hadoop安装包:
- 将Hadoop安装包上传到CentOS服务器,并解压到
/usr/local/
目录下。 - 创建
/usr/local/hadoop-3.3.4
(根据实际版本修改)目录,并将解压后的Hadoop文件移动到该目录。 - 修改
/usr/local/hadoop-3.3.4/etc/hadoop/hadoop-env.sh
文件,设置JAVA_HOME
变量:
export JAVA_HOME=/usr/local/jdk1.8.0_231
配置Hadoop
- 编辑
/usr/local/hadoop-3.3.4/etc/hadoop/core-site.xml
文件,添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
- 编辑
/usr/local/hadoop-3.3.4/etc/hadoop/hdfs-site.xml
文件,添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
- 编辑
/usr/local/hadoop-3.3.4/etc/hadoop/mapred-site.xml
文件,添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- 编辑
/usr/local/hadoop-3.3.4/etc/hadoop/yarn-site.xml
文件,添加以下内容:
<configuration>
<property>
<name>yarn.resourcemanager.host</name>
<value>localhost</value>
</property>
</configuration>
- 将
/usr/local/hadoop-3.3.4/etc/hadoop/slaves
文件中的内容设置为空,因为伪分布式集群中只有一个节点。
格式化HDFS
在启动Hadoop集群之前,需要格式化HDFS:
hdfs namenode -format
启动Hadoop集群
- 启动NameNode:
start-dfs.sh
- 启动ResourceManager:
start-yarn.sh
- 验证集群是否启动成功:
jps
在jps输出中,应包含NameNode、SecondaryNameNode、ResourceManager和NodeManager进程。
总结
通过以上步骤,您已经在CentOS环境下成功搭建了一个Hadoop伪分布式集群。接下来,您可以尝试在集群上运行一些简单的Hadoop程序,以加深对Hadoop框架的理解。祝您学习愉快!