----- 还未完成 持续更新中
- 一:平台建设
- 1.行业平台
- 2.技术选型
- 3.平台架构
- 1)HDP Core(平台核心)
- Hadoop(基础存储计算)
- Yarn(基础资源调度)
- Oozie(任务调度编排)
- Slider(调度支持 新版已经集成yarn)
- 2)Enterpise Data Warehouse(企业数据仓库)
- Pig(基础脚本服务)
- Hive(数据仓库存储)
- Druid(adhoc方案 实时多维查询和分析)
- Tez(简化增强hive)
- Sqoop(数据导入导出工具)
- 3)Data sclence(数据科学)
- Spark(内存通用并行计算)
- Spark sql(结构化数据处理)
- Spark streaming(spark流式处理)
- Zeppelin(界面分析挖掘工具)
- 4)Operational data store(操作KV存储)
- Hbase(kv数据存储)
- Phoenix(hbase 类sql查询)
- 5)Securlty governance(安全治理)
- Knox(鉴权工具)
- Ranger(权限管理工具)
- Atlas(元数据溯源与数据治理工具)
- 6)Stream procressing(流式计算)
- Storm(实时数据处理分析)
- Kafka(数据消息队列)
- Streaming Analytics Manager (流式数据处理界面工具)
- 7)Operations(平台运维工具)
- Ambari(大数据平台管理工具)
- Ambari Metrics(监控平台各类服务及主机的运行情况)
- Ambari Infra
- Zookeeper(基础分布式保证工具)
- Solr(搜索应用 操作日志存储)
- 8)Data operation platform(数据操作平台)
- NiFi(数据 ETL 数据流处理)
- 日志清洗 业务数据入库
- 基础数据(mysql binlog业务库 )ETL
- 部分外部数据
- 自定义数据接入方式
- 自定义数据流程处理
- 数据输出出口
- NiFi Registry(NiFi版本管理工具)
- NIFI的版本记录回溯
- NIFI Schema Registry 来统一文件定义(类配置中心)
- 配合SwaggerAPI数据定义
- Hue(大数据交互界面平台)
- NiFi(数据 ETL 数据流处理)
- 9)Data visualization(数据可视化工具)
- Superset(数据分析界面工具)
- FineBI(BI界面分析工具)
- (Cboard) 主用于数据导出
- Metabase
- 对比 Saiku Tableau Qlikview
- 10)Kylin(MOLAP数据分析工具)
- 1)HDP Core(平台核心)
- 4.资源申请
- 1)基准测试
- 2)资源预估(基于业务存量与增量)
- 3)理解各组件的CPU IO 内存 硬盘 带宽的特性
- 4)瓶颈资源预判
- 5)分阶段保障
- 5.日常维护
- 1)bigdata devops
- 2)权限授权
- 3)瓶颈判断
- 4)继续需求的二次开发
- 5)组件版本关注与升级
- 6)各种疑难杂症修复
- 7)环境维护(正式 测试)
- 6.技术调研
- 1)图数据库
- Janus Graph
- Dgraph
- Neo4j
- ArangoDB
- 2)机器学习
- 3)IOT相关
- 1)图数据库
- 7.云平台化建设
- 二:数据获取
- 1.公司内结构化数据
- 1)增量
- 2)全量
- 3)拉链
- 4)binlog
- 5)接口
- 2.公司内非结构化数据
- 1)日志
- 接口
- 内部埋点
- 后端埋点方案
- 无埋点方案
- url规约系统
- 用户级别
- 页面级别
- CMS块级别
- 事件级别
- 第三方埋点
- GA
- 百度
- 友盟
- 其他
- 搜索
- 2)视频
- 3)图像
- 4)excel
- 5)文档
- 1)日志
- 3.外部数据(非公司IT支撑)
- 4.外部数据
- 1)数据报告
- 199IT(100+)
- 艾瑞(100+)
- IT橘子
- 国家互联网中心
- 恒大研究院
- 亿欧智库
- 易观数据
- 中国通信研究院
- 腾讯数据实验室
- 阿里研究中心
- 2)商业合作
- 数据交换
- 专项购买
- 流量互补
- 3)竞品数据
- 分析竞品列表
- 爬虫获取商家 商品 评论等业务数据
- 从一些公开平台获取统计数据
- 4)行业数据
- 大盘数据
- 行业动态数据
- 5)统计数据
- 6)数据资讯
- 1)数据报告
- 1.公司内结构化数据
- 三:数据价值
- 1.数据清洗
- 日志数据清洗(UDF SparkStreaming )
- 业务数据清洗
- 维度数据抽取
- NLP语义化
- 图片识别等
- 2.数据仓库
- 1)分层
- Operational Data Store(ODS) 原始操作数据
- General Data Mart(GDM)清洗后通用数据
- Data WareHouse (DW)数据集市
- Dimension Data(DIM)维度数据
- 2)规范
- 权限规范
- ETL规范
- 调度规范
- 3)ETL
- 4)元数据(Atlas查看和标记)
- 业务元数据
- ETL元数据
- 数据元数据
- 1)分层
- 3.统计报表
- 分类
- 维度
- 指标
- 数据可视化
- 4.商业智能
- 关键指标与转化
- 影响业务决策
- 影响运营决策
- 影响老板决策
- 5.数据报告
- 抓重点业务或关键路径
- 体系化叙述
- 重点数据解释
- 编写参考 玩转keynote
- 6.业务赋能
- 用户画像
- 推荐
- 广告
- 数据预警
- 数据预测
- 数据查询
- 对运营支持的数据工具
- 对业务销售支持的数据工具
- 7.数据产品
- 2B
- 2C
- 8.场景探索
- 1.数据清洗
- 四:数据安全
- 1.企业数据分级
- 普通
- 敏感
- 机密
- 绝密
- 2.数据隐私保护
- Personal Identifiable Information(PII级别)
- 用户唯一标识(因公司而异)
- 核心业务数据订单 优惠券 等(掩码)
- 3.平台权限控制
- 数据导出权限控制
- 账号跟踪与密钥更换
- 数据使用申请
- 4.数据流程规范
- 需求对接规范
- 数据订正规范
- 业务数据变更修正
- 1.企业数据分级
- 五:质量保障
- 1.平台与资源保障
- 2.数据质量
- 3.统一口径
- 4.故障跟进
- 一:个人素质
- 1.体系化建设
- 1)快速了解一个体系
- 渠道
- 专业图书
- 技术官网
- github
- processon 里的推荐功能
- 技术博客
- 知乎
- 体系报告网站(参考 数据获取-外部数据-数据报告)
- 各种行业平台网站
- 谷歌百度
- 找朋友聊 加微信QQ群
- 记录整理
- 找个工具记录 散漫的疯狂阅读与吸取
- 最好用表格来划分横向维度和纵向维度
- 消除杂音
- 刨除过程中一些过时的资料或者概念
- 尽量找原版的设计与理解
- 渠道
- 2)快速形成自己的理解(就像我整理这个脑图一样)
- 聚合
- 分类
- 排序
- 深入
- 3)系统计划
- 4)修正策略
- 1)快速了解一个体系
- 2.业务破局
- 1)了解业务
- 老板 高管 经理
- 投其所好
- 多渠道的了解老板画像
- 试探数据价值的关注度
- 换位思考
- 从他们的角度去考虑他们遇到的困难,不解和所做的决定
- 不要被他们的思维固化(在其位谋其政)影响你对于数据价值的思考
- 全面的体系 重要的分级
- 全面的体系化建设(基于对行业 业务 数据 的宽泛认知)
- 永远要记住摸清主线
- 按照重要程度(看势)做事情的分级
- 观察对方的底线(长期)
- 投其所好
- 技术 产品 运营
- 技术体系初步印象
- 前端(ios android pc tv) 涉及到埋点日志事情
- 后端(微服务 链路 数据库) 涉及到业务数据入库和日志收集
- 掌握全局(局部)数据库
- 先全面后局部的感觉下数据库设计(如果有ER图提供最好)
- 感觉下量级与增速
- 深入了解产品的规划
- 找到契合点 不要越界
- 数据价值为主 外层的展现为辅
- 产品方向的数据价值多数来自C端 所以 推荐 广告 用户画像等为主 不同的行业考虑下特性应用(O2O IOT 新零售 AI的落地应用)
- 拿出诚意才会得到配合
- 站在开发者角度去尽量减轻他们的负担
- 日志与埋点的配合
- 业务数据入库配合
- 底层运维支持配合
- 技术层面的分享带给别人更多理解相关技术的机会
- 是否需要数据产品经理
- 涉及到产品规划和业务赋能的最好有数据产品对接
- 关于数据报表分析的最好让数据分析人员进入对接一线
- 技术体系初步印象
- 销售 业务 财务
- 良好的沟通从兴趣开始
- 数据价值来源于解决B端面临问题
- 是否能提供有价值的数据让业务跑得更快
- 能否提供销售更直接的客户服务数据
- 财务的事情佛系对待
- 合适的机会跟他们一起开会,反复强调的内容里面就有重点和痛点
- 多花时间研究他们的工作流程
- 流程最能体现价值(优化 提速 转化 效率)
- 接触工作流程中可以更深刻的理解业务
- 关键指标一定会有所提及(不懂找资料学习再沟通) 绕不过的钱
- 记录关键指标 自己先琢磨在找懂的人沟通
- 遇到不分享的可以先想办法解决他的一些问题,无论大小,展现诚意。记住自己的目标
- 老板 高管 经理
- 2)分析痛点
- 将痛点归类(部门 角色 数据源 数据价值)
- 归类后痛点间的关联关系找主线
- 能解决的痛点才是痛点
- 缩小范围解决头部需求反手解决次类需求
- 3)专注行动
- 象限法(重要紧急四象限)
- 优先处理 重要且紧急 紧急不重要的
- 阶段性的处理重要不紧急的(这种事情要记录在本本上)
- 行动前的影响与价值预估
- 可能对其他部门或人造成的工作加重减轻与正负面影响
- 行动能得到的可能价值(对需求方 相关人 团队 自己)
- 可拆解的任务才能行动
- 行动计划保证在一个可控范围内(人员 时间 资源 )
- 任务的串并行尝试
- 人员维度的安排
- 时间维度的安排
- 行动中的修正与反馈
- 寻找一个反馈对象(最好是需求方)
- 修正来源于对结果的不可控(保证损失最小)
- 拿到结果一定要说话(不要当哑巴 付出得到回报天经地义)
- 打算说给谁听
- 准备好PPT(参见玩转keynote)
- 时间地点
- 象限法(重要紧急四象限)
- 1)了解业务
- 3.数据解读
- 1)考虑受众
- 2)实事求是 轻易不下结论
- 3)多维度解读
- 4.工具利用
- 1)时间管理工具
- 2)快速记录工具
- 3)扩展思维工具
- 4)学习成长工具
- 5.清醒复盘
- 1)复盘前的思考
- 2)何时复盘
- 3)避坑总结
- 6.玩转keynote
- 1)确定主题与讲述思路
- 解决痛点模式
- 突出主题模式
- 流程讲解模式
- 技术分享模式
- 2)讲述靠说不靠堆叠
- 言简意赅
- 归纳总结
- 3)利用模板来快速制作和辅助思路
- 参考模板
- 辅助思路
- 当有些思路阻碍可以看看模板上被人是如何处理和展现的
- 运用模板的特殊元素来装扮自己的文案
- 4)基础色调选取与排版建议
- 色调选择
- 运用模板的特殊元素来装扮自己的文案
- 多用过度色 原则上整体别超过5个
- 颜色可以用吸管 从浅入深或由深入浅波动选择
- 黑白灰为常用过度配色
- 分清极暖色 极冷色 暖色 冷色 微暖 微冷
- 色彩的对比 平衡 混合 多练习
- 排版建议
- 建议用“细黑”的字体,比如冬青黑体,华文雅黑,微软雅黑light等
- 节奏感:尺寸大小,上下位移,旋转,间距,就是不能让文字之间稳当地排在一起
- 巧用各种图形 可以更形象化的让人理解
- 大纲最好列在每页的面包屑上
- 巧用动画
- 色调选择
- 1)确定主题与讲述思路
- 7.行业关注
- 1.体系化建设
- 二:团队管理
- 1.遇见对的人
- 2.人尽其才
- 组团队
- 差异化
- 重培养
- 3.上通下达
- 4.拒绝沉溺(不要给鱼)
- 5.老司机别翻车
- 容忍与控制
- 不要触碰底线
- 没有什么是烧烤不能解决的 如果有那就两顿
- 三:技术能力
- 四:人生之路
- 1.平衡之道
-
- 规划VS变动
-
- 领导VS下属
-
- 个人VS团队
-
- 资源VS价值
-
- 家庭VS工作
-
- 2.破除心魔
- 1)以结果导向
- 理论上个人感受会是结果导向的障碍
- 结果是个大家相对一致的预期结果
- 2)接受一家公司代表要融入一种文化
- 是否喜欢是个很重要的分水岭
- 无论什么企业文化都会以结果为导向
- 综合评定自己的容忍度
- 3)敲碎or划清边界
- 阻碍目标的大多都是边界内自己要做或者推动的
- 4)多维度的看待事情
- 不要再不同纬度观点下讨论事情,这样容易产生无谓的争执
- 当一种角度理解不了某些人或事的时候那就切换下角度
- 对一个事情或者一个人的评判一定不要单纯的一个角度下结论
- 同样的维度之间切换自如有助于你讨喜
- 5)信任之路且行且珍惜
- 6)道德沦陷还是底线失守
- 改变自己,做自己认为恶心的事情是不是就是道德沦陷
- 底线是一个恒久不变的还是一个根据自己的发展阶段 家人 事业 朋友动态调整的
- 1)以结果导向
- 3.推荐书籍
- 1)技术类(不包含理论与技术框架)
- 《数学之美》
- 《数据仓库工具箱:维度建模的完全指南》
- 《美团机器学习实践》
- 《数据挖掘与数据化运营实战 思路、方法、技巧与应用》
- 2)业务类
- 《无印良品的改革》
- 《增长黑客》
- 《智联网》
- 《浪潮之巅》
- 《京东平台化数据运营》
- 3)管理与心理学
- 《原则》
- 《乌合之众》
- 《说谎》
- 《卓有成效的管理者》
- 《九型人格》
- 《影响力》
- 1)技术类(不包含理论与技术框架)
- 1.平衡之道