在 macOS 系统上搭建 HDFS 单机环境,用来开始大数据练习。

始发于2021-06-06,修改于2021-12-13。
为了快速测试和体验,在本机环境中安装 Hadoop。
后续如果要模拟真实的分布式环境,可以开3台 Linux 虚拟机,然后搭建分布式 Hadoop 集群,暂时搁置。

1 – 准备安装包

到官网下载安装包 http://hadoop.apache.org/releases.html,这里以 3.2.1 版本为例,下载 binary 二进制文件即可。

下载后,拷贝到本地安装目录,比如我拷贝到了 ~/bigdata/ 目录(这里的 ~ 是当前用户的 home 目录)。

# 解压安装包到指定目录
mkdir ~/bigdata
cp hadoop-3.2.1.tar.gz  ~/bigdata
tar -zxf hadoop-3.2.1.tar.gz

# 查看 Hadoop 对本地库的支持情况:
cd ~/bigdata/hadoop-3.2.1/ && ./bin/hadoop checknative

可以看到,从官网下载的安装包,不支持 snappy、bzip2 等压缩方式。如果有需要,我们可以自己重新编译安装包 ——

Hadoop – macOS 上编译 Hadoop 3.2.1

2 – 准备配置文件

说明:各个服务的配置文件中涉及到的端口号,都适用默认值。

2.1 修改 core-site.xml

cd ~/bigdata/hadoop-3.2.1/etc/hadoop
vim core-site.xml

官方详细文档:https://hadoop.apache.org/docs/r3.2.1/hadoop-project-dist/hadoop-common/core-default.xml

修改后的内容如下:

<configuration>
    <property>
        <!-- fs.default.name 已过期,推荐使用 fs.defaultFS -->
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop:9000</value>
    </property>
    <!-- 缓冲区大小,根据服务器性能动态调整 -->
    <property>
        <name>io.file.buffer.size</name>
        <value>4096</value>
    </property>
    <!-- 开启垃圾桶机制,删除掉的数据可以从垃圾桶中回收,单位分钟 -->
    <property>
        <name>fs.trash.interval</name>
        <value>10080</value>
    </property>
</configuration>

2.2 修改 hdfs-site.xml

cd ~/bigdata/hadoop-3.2.1/etc/hadoop
vim hdfs-site.xml

官方详细文档:https://hadoop.apache.org/docs/r3.2.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

修改后的内容如下:

版权声明:本文为shoufeng原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/shoufeng/p/14411399.html