Skip to content

Latest commit

 

History

History
156 lines (129 loc) · 4.77 KB

README.md

File metadata and controls

156 lines (129 loc) · 4.77 KB

大数据学习笔记

主要记录大数据学习的相关笔记,包括Hadoop、Flume、Hive、Scala、Spark、Kafka、Redis、Flink、ClickHouse、Doris等各个组件的理论,并通过代码实验,了解组件的使用。

在线阅读地址

在线阅读地址:https://relph1119.github.io/bigdata-learning

环境安装

  • OpenJDK Java版本:1.8.0_352
  • Scala版本:2.12.11
  • Ubuntu版本:20.04
  • Vbox版本:6.1.28 r147628 (Qt5.6.2)
  • 虚拟机配置:显存大小50MB,内存大小4GB,硬盘大小(动态)50GB

环境准备

  1. Vbox配置Ubuntu的内外网访问:主要使用NAT和Host-Only保证内外网的访问。
  2. 关闭Ubuntu防火墙
    sudo apt-get install ufw
    ufw disable
  3. 在hosts文件中配置域名:bigdata01 {仅主机(Host-Only)网络的IP地址}
    • 查看VirtualBox Host-Only Ethernet Adapter网卡的IP设置,笔者的电脑设置为192.168.56.1
    • 查看Vbox上仅主机(Host-Only)网络的IP地址,笔者的电脑设置为192.168.56.101,所有虚拟机的对外访问地址就是这个地址。
  4. 配置环境变量,打开/etc/profile,在文件末尾添加以下内容:
    export HADOOP_HOME=/data/soft/hadoop-3.2.0
    export HIVE_HOME=/data/soft/apache-hive-3.1.2-bin
    export SPARK_HOME=/data/soft/spark-3.1.3-bin-hadoop3.2
    export HADOOP_CLASSPATH=`${HADOOP_HOME}/bin/hadoop classpath`
    export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$SPARK_HOME/bin:$PATH

大数据组件版本

  • Hadoop版本:3.2.0
  • Flume版本:1.9.0
  • Hive版本:3.1.2
  • MySQL版本:8.0.32-0buntu0.20.04.1 (Ubuntu)
  • Spark版本:3.1.3-bin-hadoop3.2
  • Zookeeper版本:3.5.8
  • Kafka版本:kafka_2.12-2.4.1
  • Redis版本:5.0.9
  • Flink版本:1.11.1
  • ClickHouse版本:20.2.1
  • Doris版本:1.2.7
  • Nacos版本:2.3.2

快速启动大数据组件

  • 启动Hadoop
start-all.sh
mapred --daemon start historyserver
  • 设置MySQL开机自启动
systemctl enable mysql.service
  • 启动Hive
hiveserver2 &
  • 启动Spark HistoryServer
cd /data/soft/spark-3.1.3-bin-hadoop3.2
sbin/start-history-server.sh
  • 启动Zookeeper
cd /data/soft/apache-zookeeper-3.5.8-bin
bin/zkServer.sh start
  • 启动Kafka
cd /data/soft/kafka_2.12-2.4.1
bin/kafka-server-start.sh -daemon config/server.properties
  • 启动Redis
cd /data/soft/redis-5.0.9/
redis-server redis.conf
  • 启动Flink日志进程
cd /data/soft/flink-1.11.1
bin/historyserver.sh start
  • 启动ClickHouse
sudo /etc/init.d/clickhouse-server start
  • 启动Doris
cd /data/soft/apache-doris-1.2.7-bin-x64/fe
./bin/start_fe.sh --daemon
sysctl -w vm.max_map_count=2000000
ulimit -n 65536
cd /data/soft/apache-doris-1.2.7-bin-x64/be
./bin/start_be.sh --daemon
  • 启动Nacos
cd /data/soft/nacos/bin
startup.sh -m standalone

大数据组件默认端口

本地启动docsify

docsify serve ./docs

学习注意事项

  1. 建议从第01周第5章开始学习,可以用1.75倍的速度看视频
  2. 第06周第4章内容,可以不用学习CDH和HDP的部署安装
  3. 第07周第2章内容,由于机器不够,没有进行采集日志上传至HDFS的案例实验
  4. 修改了db_spark的依赖库,使用对应Hadoop和Scala版本的库,并添加了log4j的配置文件,删除了红色的Log日志
  5. 第12周前3章内容,可以重点听,后面代码实战内容可以快速观看,由于需要数据接口校验码,无法获取数据进行案例实战
  6. 第13周主要学习第3章内容,其他内容可快速观看
  7. 第17周第2章的Watermark理论部分有缺少,可以查看这篇文章带你理解并使用flink中的WaterMark机制
  8. 第18、19周的项目实战内容可以快速观看,由于需要数据接口校验码,无法获取数据进行案例实战

学习资料

【1】大数据体系课-慕课网2019年课程:学习注意事项提到的内容是来源于本资料的。
【2】《ClickHouse性能之巅:从架构设计解读性能之谜》:第12章的内容来源于本书。
【3】《Doris实时数仓实战》:第13、14章的内容来源于本书。