大数据架构师该掌握的技能

----- 还未完成持续更新中

大数据架构师该掌握的技能

主要分为两块硬能力与软实力

硬能力

一：平台建设
- 1.行业平台
  - 1）大平台
    - 谷歌云
    - 亚马逊云
    - 阿里云
    - 腾讯云
    - 网易云
    - 华为云
  - 2）小平台
    - 国云
    - 国双
    - 青云
    - 勤思
  - 3）专业工具平台
    - 海致BDP
    - 永洪
    - 易观
  - 4）APP分析平台
    - mix panel
    - growing IO
    - 神策
    - 诸葛 IO
- 2.技术选型
  - 1）CDH
  - 2）HDP+HDF
  - 3）MAPR
  - 4）Transwarp
- 3.平台架构
  - 1）HDP Core(平台核心)
    - Hadoop(基础存储计算)
    - Yarn(基础资源调度)
    - Oozie(任务调度编排)
    - Slider(调度支持新版已经集成yarn)
  - 2）Enterpise Data Warehouse(企业数据仓库)
    - Pig(基础脚本服务)
    - Hive(数据仓库存储)
    - Druid(adhoc方案实时多维查询和分析)
    - Tez(简化增强hive)
    - Sqoop(数据导入导出工具)
  - 3）Data sclence(数据科学)
    - Spark(内存通用并行计算)
    - Spark sql(结构化数据处理)
    - Spark streaming(spark流式处理)
    - Zeppelin(界面分析挖掘工具)
  - 4）Operational data store(操作KV存储)
    - Hbase(kv数据存储)
    - Phoenix(hbase 类sql查询)
  - 5）Securlty governance(安全治理)
    - Knox(鉴权工具)
    - Ranger(权限管理工具)
    - Atlas(元数据溯源与数据治理工具)
  - 6）Stream procressing(流式计算)
    - Storm(实时数据处理分析)
    - Kafka(数据消息队列)
    - Streaming Analytics Manager (流式数据处理界面工具)
  - 7）Operations(平台运维工具)
    - Ambari(大数据平台管理工具)
    - Ambari Metrics(监控平台各类服务及主机的运行情况)
    - Ambari Infra
    - Zookeeper(基础分布式保证工具)
    - Solr(搜索应用操作日志存储)
  - 8）Data operation platform(数据操作平台)
    - NiFi(数据 ETL 数据流处理)
      - 日志清洗业务数据入库
      - 基础数据(mysql binlog业务库 )ETL
      - 部分外部数据
      - 自定义数据接入方式
      - 自定义数据流程处理
      - 数据输出出口
    - NiFi Registry(NiFi版本管理工具)
      - NIFI的版本记录回溯
      - NIFI Schema Registry 来统一文件定义(类配置中心)
      - 配合SwaggerAPI数据定义
    - Hue(大数据交互界面平台)
  - 9）Data visualization(数据可视化工具)
    - Superset(数据分析界面工具)
    - FineBI(BI界面分析工具)
    - (Cboard) 主用于数据导出
    - Metabase
    - 对比 Saiku Tableau Qlikview
  - 10）Kylin(MOLAP数据分析工具)
- 4.资源申请
  - 1）基准测试
  - 2）资源预估(基于业务存量与增量)
  - 3）理解各组件的CPU IO 内存硬盘带宽的特性
  - 4）瓶颈资源预判
  - 5）分阶段保障
- 5.日常维护
  - 1）bigdata devops
  - 2）权限授权
  - 3）瓶颈判断
  - 4）继续需求的二次开发
  - 5）组件版本关注与升级
  - 6）各种疑难杂症修复
  - 7）环境维护(正式测试)
- 6.技术调研
  - 1）图数据库
    - Janus Graph
    - Dgraph
    - Neo4j
    - ArangoDB
  - 2）机器学习
  - 3）IOT相关
- 7.云平台化建设
二：数据获取
- 1.公司内结构化数据
  - 1）增量
  - 2）全量
  - 3）拉链
  - 4）binlog
  - 5）接口
- 2.公司内非结构化数据
  - 1）日志
    - 接口
    - 内部埋点
      - 后端埋点方案
      - 无埋点方案
      - url规约系统
      - 用户级别
      - 页面级别
      - CMS块级别
      - 事件级别
    - 第三方埋点
      - GA
      - 百度
      - 友盟
      - 其他
    - 搜索
  - 2）视频
  - 3）图像
  - 4）excel
  - 5）文档
- 3.外部数据(非公司IT支撑)
  - 1）爬虫平台开发利用推进
  - 2）API对接
  - 3）销售使用的外部工具数据取回
    - 启信宝
    - 企查查
    - 天眼查
    - 赤狐
    - 各种CRM
  - 4）运营使用的外部工具数据取回
    - 广点通
    - 达摩盘
    - 知乎DSP
    - 今日头条系
    - 百度系
    - 微博营销工具
    - 各种统计平台
    - ......
- 4.外部数据
  - 1）数据报告
    - 199IT(100+)
    - 艾瑞(100+)
    - IT橘子
    - 国家互联网中心
    - 恒大研究院
    - 亿欧智库
    - 易观数据
    - 中国通信研究院
    - 腾讯数据实验室
    - 阿里研究中心
  - 2）商业合作
    - 数据交换
    - 专项购买
    - 流量互补
  - 3）竞品数据
    - 分析竞品列表
    - 爬虫获取商家商品评论等业务数据
    - 从一些公开平台获取统计数据
  - 4）行业数据
    - 大盘数据
    - 行业动态数据
  - 5）统计数据
    - Similar web
    - 新榜
  - 6）数据资讯
    - 智东西
    - 大数据导航
三：数据价值
- 1.数据清洗
  - 日志数据清洗(UDF SparkStreaming )
  - 业务数据清洗
  - 维度数据抽取
  - NLP语义化
  - 图片识别等
- 2.数据仓库
  - 1）分层
    - Operational Data Store(ODS) 原始操作数据
    - General Data Mart(GDM)清洗后通用数据
    - Data WareHouse (DW)数据集市
    - Dimension Data(DIM)维度数据
  - 2）规范
    - 权限规范
    - ETL规范
    - 调度规范
  - 3）ETL
  - 4）元数据(Atlas查看和标记)
    - 业务元数据
    - ETL元数据
    - 数据元数据
- 3.统计报表
  - 分类
  - 维度
  - 指标
  - 数据可视化
- 4.商业智能
  - 关键指标与转化
  - 影响业务决策
  - 影响运营决策
  - 影响老板决策
- 5.数据报告
  - 抓重点业务或关键路径
  - 体系化叙述
  - 重点数据解释
  - 编写参考玩转keynote
- 6.业务赋能
  - 用户画像
  - 推荐
  - 广告
  - 数据预警
  - 数据预测
  - 数据查询
  - 对运营支持的数据工具
  - 对业务销售支持的数据工具
- 7.数据产品
  - 2B
  - 2C
- 8.场景探索
四：数据安全
- 1.企业数据分级
  - 普通
  - 敏感
  - 机密
  - 绝密
- 2.数据隐私保护
  - Personal Identifiable Information(PII级别)
  - 用户唯一标识(因公司而异)
  - 核心业务数据订单优惠券等(掩码)
- 3.平台权限控制
  - 数据导出权限控制
  - 账号跟踪与密钥更换
  - 数据使用申请
- 4.数据流程规范
  - 需求对接规范
  - 数据订正规范
  - 业务数据变更修正
五：质量保障
- 1.平台与资源保障
- 2.数据质量
- 3.统一口径
- 4.故障跟进

软实力

一：个人素质
- 1.体系化建设
  - 1）快速了解一个体系
    - 渠道
      - 专业图书
      - 技术官网
      - github
      - processon 里的推荐功能
      - 技术博客
      - 知乎
      - 体系报告网站(参考数据获取-外部数据-数据报告)
      - 各种行业平台网站
      - 谷歌百度
      - 找朋友聊加微信QQ群
    - 记录整理
      - 找个工具记录散漫的疯狂阅读与吸取
      - 最好用表格来划分横向维度和纵向维度
    - 消除杂音
      - 刨除过程中一些过时的资料或者概念
      - 尽量找原版的设计与理解
  - 2）快速形成自己的理解(就像我整理这个脑图一样)
    - 聚合
    - 分类
    - 排序
    - 深入
  - 3）系统计划
  - 4）修正策略
- 2.业务破局
  - 1）了解业务
    - 老板高管经理
      - 投其所好
        
        多渠道的了解老板画像
        
        试探数据价值的关注度
      - 换位思考
        
        从他们的角度去考虑他们遇到的困难，不解和所做的决定
        
        不要被他们的思维固化(在其位谋其政)影响你对于数据价值的思考
      - 全面的体系重要的分级
        
        全面的体系化建设(基于对行业业务数据的宽泛认知)
        
        永远要记住摸清主线
        
        按照重要程度(看势)做事情的分级
      - 观察对方的底线(长期)
    - 技术产品运营
      - 技术体系初步印象
        
        前端(ios android pc tv) 涉及到埋点日志事情
        
        后端(微服务链路数据库) 涉及到业务数据入库和日志收集
      - 掌握全局(局部)数据库
        
        先全面后局部的感觉下数据库设计(如果有ER图提供最好)
        
        感觉下量级与增速
      - 深入了解产品的规划
        
        找到契合点不要越界
        
        数据价值为主外层的展现为辅
        
        产品方向的数据价值多数来自C端所以推荐广告用户画像等为主不同的行业考虑下特性应用(O2O IOT 新零售 AI的落地应用)
      - 拿出诚意才会得到配合
        
        站在开发者角度去尽量减轻他们的负担
        
        日志与埋点的配合
        
        业务数据入库配合
        
        底层运维支持配合
        
        技术层面的分享带给别人更多理解相关技术的机会
      - 是否需要数据产品经理
        
        涉及到产品规划和业务赋能的最好有数据产品对接
        
        关于数据报表分析的最好让数据分析人员进入对接一线
    - 销售业务财务
      - 良好的沟通从兴趣开始
      - 数据价值来源于解决B端面临问题
        
        是否能提供有价值的数据让业务跑得更快
        
        能否提供销售更直接的客户服务数据
        
        财务的事情佛系对待
      - 合适的机会跟他们一起开会，反复强调的内容里面就有重点和痛点
      - 多花时间研究他们的工作流程
        
        流程最能体现价值(优化提速转化效率)
        
        接触工作流程中可以更深刻的理解业务
      - 关键指标一定会有所提及(不懂找资料学习再沟通) 绕不过的钱
        
        记录关键指标自己先琢磨在找懂的人沟通
        
        遇到不分享的可以先想办法解决他的一些问题，无论大小，展现诚意。记住自己的目标
  - 2）分析痛点
    - 将痛点归类(部门角色数据源数据价值)
    - 归类后痛点间的关联关系找主线
    - 能解决的痛点才是痛点
    - 缩小范围解决头部需求反手解决次类需求
  - 3）专注行动
    - 象限法(重要紧急四象限)
      - 优先处理重要且紧急紧急不重要的
      - 阶段性的处理重要不紧急的(这种事情要记录在本本上)
    - 行动前的影响与价值预估
      - 可能对其他部门或人造成的工作加重减轻与正负面影响
      - 行动能得到的可能价值(对需求方相关人团队自己)
    - 可拆解的任务才能行动
      - 行动计划保证在一个可控范围内(人员时间资源 )
      - 任务的串并行尝试
      - 人员维度的安排
      - 时间维度的安排
    - 行动中的修正与反馈
      - 寻找一个反馈对象(最好是需求方)
      - 修正来源于对结果的不可控(保证损失最小)
    - 拿到结果一定要说话(不要当哑巴付出得到回报天经地义)
      - 打算说给谁听
      - 准备好PPT(参见玩转keynote)
      - 时间地点
- 3.数据解读
  - 1）考虑受众
  - 2）实事求是轻易不下结论
  - 3）多维度解读
- 4.工具利用
  - 1）时间管理工具
  - 2）快速记录工具
  - 3）扩展思维工具
  - 4）学习成长工具
- 5.清醒复盘
  - 1）复盘前的思考
  - 2）何时复盘
  - 3）避坑总结
- 6.玩转keynote
  - 1）确定主题与讲述思路
    - 解决痛点模式
    - 突出主题模式
    - 流程讲解模式
    - 技术分享模式
  - 2）讲述靠说不靠堆叠
    - 言简意赅
    - 归纳总结
  - 3）利用模板来快速制作和辅助思路
    - 参考模板
      - Layouts for Keynote(App Store有售)
      - PC6合集
    - 辅助思路
      - 当有些思路阻碍可以看看模板上被人是如何处理和展现的
      - 运用模板的特殊元素来装扮自己的文案
  - 4）基础色调选取与排版建议
    - 色调选择
      - 运用模板的特殊元素来装扮自己的文案
      - 多用过度色原则上整体别超过5个
      - 颜色可以用吸管从浅入深或由深入浅波动选择
      - 黑白灰为常用过度配色
      - 分清极暖色极冷色暖色冷色微暖微冷
      - 色彩的对比平衡混合多练习
    - 排版建议
      - 建议用“细黑”的字体，比如冬青黑体，华文雅黑，微软雅黑light等
      - 节奏感：尺寸大小，上下位移，旋转，间距，就是不能让文字之间稳当地排在一起
      - 巧用各种图形可以更形象化的让人理解
      - 大纲最好列在每页的面包屑上
    - 巧用动画
- 7.行业关注
二：团队管理
- 1.遇见对的人
- 2.人尽其才
  - 组团队
  - 差异化
  - 重培养
- 3.上通下达
- 4.拒绝沉溺(不要给鱼)
- 5.老司机别翻车
  - 容忍与控制
  - 不要触碰底线
  - 没有什么是烧烤不能解决的如果有那就两顿
三：技术能力
四：人生之路
- 1.平衡之道
  - 1. 规划VS变动
  - 1. 领导VS下属
  - 1. 个人VS团队
  - 1. 资源VS价值
  - 1. 家庭VS工作
- 2.破除心魔
  - 1）以结果导向
    - 理论上个人感受会是结果导向的障碍
    - 结果是个大家相对一致的预期结果
  - 2）接受一家公司代表要融入一种文化
    - 是否喜欢是个很重要的分水岭
    - 无论什么企业文化都会以结果为导向
    - 综合评定自己的容忍度
  - 3）敲碎or划清边界
    - 阻碍目标的大多都是边界内自己要做或者推动的
  - 4）多维度的看待事情
    - 不要再不同纬度观点下讨论事情，这样容易产生无谓的争执
    - 当一种角度理解不了某些人或事的时候那就切换下角度
    - 对一个事情或者一个人的评判一定不要单纯的一个角度下结论
    - 同样的维度之间切换自如有助于你讨喜
  - 5）信任之路且行且珍惜
  - 6）道德沦陷还是底线失守
    - 改变自己，做自己认为恶心的事情是不是就是道德沦陷
    - 底线是一个恒久不变的还是一个根据自己的发展阶段家人事业朋友动态调整的
- 3.推荐书籍
  - 1）技术类(不包含理论与技术框架)
    - 《数学之美》
    - 《数据仓库工具箱：维度建模的完全指南》
    - 《美团机器学习实践》
    - 《数据挖掘与数据化运营实战思路、方法、技巧与应用》
  - 2）业务类
    - 《无印良品的改革》
    - 《增长黑客》
    - 《智联网》
    - 《浪潮之巅》
    - 《京东平台化数据运营》
  - 3）管理与心理学
    - 《原则》
    - 《乌合之众》
    - 《说谎》
    - 《卓有成效的管理者》
    - 《九型人格》
    - 《影响力》

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
img		img
mindenode		mindenode
pdf		pdf
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

大数据架构师该掌握的技能

硬能力

软实力

技能图

About

Releases

Packages

flandycheng/big_data_architect_skills

Folders and files

Latest commit

History

Repository files navigation

大数据架构师该掌握的技能

硬能力

软实力

技能图

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages