大数据分析处理相关框架 常用的大数据相关处理技术框架 1、Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 1.1、Hadoop学习入口 1.2、MapReduce相关API操作 1.3、HDFS相关API操作 1.4、YARN资源调度器 2、Spark Spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序 Spark-Core Spark-Streaming Spark-Sql Spark-GraphX Spark-MLlib 3、Flink Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。 Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。 Flink 4、Hadoop生态圈一些其它技术框架 Hive Hbase Kafka Doris Druid Talos Pegasus Griffin ElasticSearch Oozie 5、大数据相关技能前奏 Scala Java SQL Maven Git Linux Shell 大数据算法 大数据相关计算机理论知识 大数据产品技能 大数据应用场景 大数据相关硬件知识 6、大数据一些相关项目 用户画像 Id-Mapping 数据仓库 实时仓库 特征系统 7、数据相关知识点 数据产生 数据收集 数据压缩 数据加解密 数据计算处理 数据存储 数据延迟 数据质量 数据治理 数据监控 数据可视化 数据字典 数据血缘 数据分析 数据建模 数据集市 数据仓库 8、大数据学习相关资料 8.1、大数据学习网站 Apache官网 DataFunTalk知乎 美团大数据 InfoQ大数据 8.2、大数据学习书籍 Hadoop权威指南 Hadoop技术内幕(3本) Hadoop实战 8.3、大数据论文 The Google File System (HDFS) BigTable (HBase) MapReduce Spark