引言

Hadoop作为大数据处理的开源框架,在处理海量数据方面表现出色。在CentOS环境下搭建Hadoop伪分布式集群,是学习大数据处理的重要步骤。本文将详细介绍如何在CentOS上搭建Hadoop伪分布式集群,帮助您快速入门。

系统准备

在开始之前,请确保您的CentOS系统满足以下要求:

  • 操作系统:CentOS 6 或 7
  • 硬件要求:至少4GB内存
  • 软件要求:JDK 1.7及以上版本

安装JDK

  1. 下载JDK安装包:
  2. 将JDK安装包上传到CentOS服务器,并解压到/usr/local/目录下。
  3. 创建/usr/local/jdk1.8.0_231(根据实际版本修改)目录,并将解压后的JDK文件移动到该目录。
  4. 编辑/etc/profile文件,添加以下内容:
export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin
  1. 使环境变量生效:
source /etc/profile
  1. 验证JDK安装:
java -version

安装Hadoop

  1. 下载Hadoop安装包:
  2. 将Hadoop安装包上传到CentOS服务器,并解压到/usr/local/目录下。
  3. 创建/usr/local/hadoop-3.3.4(根据实际版本修改)目录,并将解压后的Hadoop文件移动到该目录。
  4. 修改/usr/local/hadoop-3.3.4/etc/hadoop/hadoop-env.sh文件,设置JAVA_HOME变量:
export JAVA_HOME=/usr/local/jdk1.8.0_231

配置Hadoop

  1. 编辑/usr/local/hadoop-3.3.4/etc/hadoop/core-site.xml文件,添加以下内容:
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>
  1. 编辑/usr/local/hadoop-3.3.4/etc/hadoop/hdfs-site.xml文件,添加以下内容:
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>
  1. 编辑/usr/local/hadoop-3.3.4/etc/hadoop/mapred-site.xml文件,添加以下内容:
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>
  1. 编辑/usr/local/hadoop-3.3.4/etc/hadoop/yarn-site.xml文件,添加以下内容:
<configuration>
  <property>
    <name>yarn.resourcemanager.host</name>
    <value>localhost</value>
  </property>
</configuration>
  1. /usr/local/hadoop-3.3.4/etc/hadoop/slaves文件中的内容设置为空,因为伪分布式集群中只有一个节点。

格式化HDFS

在启动Hadoop集群之前,需要格式化HDFS:

hdfs namenode -format

启动Hadoop集群

  1. 启动NameNode:
start-dfs.sh
  1. 启动ResourceManager:
start-yarn.sh
  1. 验证集群是否启动成功:
jps

在jps输出中,应包含NameNode、SecondaryNameNode、ResourceManager和NodeManager进程。

总结

通过以上步骤,您已经在CentOS环境下成功搭建了一个Hadoop伪分布式集群。接下来,您可以尝试在集群上运行一些简单的Hadoop程序,以加深对Hadoop框架的理解。祝您学习愉快!