当前位置:首页 >

京东EB级全域大数据平台建设和治理之路

  • 2021年10月09日
  • 50 金币

京东EB级全域大数据平台建设 和治理之路 2020 演讲人:包勇军 中国数据智能管理峰会 Agenda 数据的价值 行业大数据平台现状 京东全域大数据平台的建设历程 未来的发展方向 2020 中国数据智能管理峰会 京东零售数据算法通道委员会 2020 数据的价值 中国数据智能管理峰会 京东零售数据算法通道委员会 The world’s most valuable resource is no longer oil, but data The Economist(经济学人期刊),2017年,5月版 2020 中国数据智能管理峰会 数据的价值 京东零售数据算法通道委员会 数据洞察助力业务增长($billion) 2000 1500 1000 500 0 2016/12/30 2017/12/30 2018/12/30 2019/12/30 2020/12/30 2021/12/30 上市公司 初创公司 Forrester报告显示,数据洞察驱动业务发展,领先者相比落后者: 1.78倍业务增长能力、2.28倍客户响应速度、2.40倍维持竞争优势 《数据中台2019年行业分析报告发布》 2020 全球市值前十公司变化 科技公司成主流 1990 日本电信电话公司 2000 微软 2010 中国石油 2020 苹果 东京三菱银行 通用电气 埃克森美孚 沙特阿拉伯国家石油 日本兴业银行 NTT Docomo 微软 微软 三井住友银行 思科 工商银行 亚马逊 丰田汽车 沃尔玛 沃尔玛 谷歌 日本富士银行 英特尔 建设银行 阿里巴巴 日本第一劝业银行 日本电信电话公司 必和必拓 脸书 IBM 埃克森美孚 汇丰银行 腾讯 日本联合银行 朗讯 巴西国家石油 伯克希尔哈撒韦 埃克森美孚 德国电信 苹果 VISA 金融投资 通讯及硬件 互联网软件 石油 大众消费 中国数据智能管理峰会 国内大数据行业趋势 京东零售数据算法通道委员会  国家“大数据”政策相继出台 大数据首次写入政府 工作报告,为政策元年 2014.03 《十三五规划纲要》 “实时国家大数据战略” 十九大报告提出“推动 大数据与实体经济结合” 大数据连续6年写入 政府工作报告 2016.03 2017.10 2019.03  大数据市场规模呈稳步上升态势,从19年 8000亿元增长至23年的1.57万亿 2015-2023年中国大数据市场产值预测(亿元) 预热 起步 落地 深化 2015.08 2016.12 2017.12 国务院印发《大数据发展 行动纲要》 工信部发布《大数据产业 发展规划2016-2020》 中央政治局就实施 国家大数据战略进行 集体学习 来源于:公开资料整理 2020 中国数据智能管理峰会 京东零售数据算法通道委员会 2020 行业大数据平台现状 中国数据智能管理峰会 行业大数据平台发展阶段 京东零售数据算法通道委员会 数据平台发展阶段 数据中台逐步受到市 场关注,互联网企业 率先将数据中台应用 落地。与之相关的创 新性企业相继发布典 型产品和服务。 中大型企业相继建设数 据中台,数据中台由概 念向应用落地转变。众 多细分领域产品上线, 市场头部企业初现,资 本市场高度关注。 市场认知加深,企业用 户不断增加,细分市场 涌现。 数据中台市场相对成 熟,市场热度逐渐消 退,市场开始洗牌,技 术不成熟、发展规模较 小的厂商将被兼并或淘 汰。 行业标准、监管规范等 已建立,各细分领域发 展稳定,开始走向差异 化竞争,数据中台被广 泛应用,行业趋于稳 定。 探索起步期 来源于:公开资料整理 2020 快速推进期 规模发展期 产业消化期 应用成熟期 中国数据智能管理峰会 行业大数据平台架构 京东零售数据算法通道委员会 服务层 平台层 计算层 即席查询 实时分析离线调度 数据服务 元数据服务 离线/流式开发 ETL 离数线仓平调台度 算法平台 数据集成 埋数 点据 管安 理全 离 Hive 线 计 离线S调pa度rk 算 MR 离线调度 多 维 离线调Clic度khouse 离线调Do度ris 分 析 ES 流式调度 实 Flink 时 计 离Spa线rk 调Str度eaming 算 Storm 数 据数 质据 量目 平录 台 数 据 治 理管 理 中 心 传输层 数据层 Kafka MySQL Scribe Oracle DataX MongoDB 日志系统 Flume …… 2020 中国数据智能管理峰会 行业大数据平台建设的挑战 01 数据规模增加:服务器增长的边际效益越来 越低 02 如何对不断累积的海量数据去芜存菁,形成 正向循环 03 实时数据的需求越来越多,开发门槛高、周 期长、落地难 04 缺少“中台”统筹导致烟囱式开发,带来业务 困扰和资源浪费 2020 京东零售数据算法通道委员会 05 指数级数据增长下的永无止境的高时效性需求, 从分钟->秒->毫秒 06 传统的规则化大数据分析无法满足更精准的 需求 07 疫情、新基建激发大数据建设诉求,政企数 字化转型迫在眉睫 中国数据智能管理峰会 京东零售数据算法通道委员会 京东全域大数据平台的建设历程 2020 中国数据智能管理峰会 京东大数据平台数据指标 京东零售数据算法通道委员会 京东大数据平台总体规模 集群规模 服务器规模数万 计算能力 日计算任务数百万级别 存储能力 总存储EB+级 日增几十PB 峰值能力 每秒处理消息数数十亿级 处理延时秒级 2020 中国数据智能管理峰会 京东大数据平台支撑的业务体系 京东零售数据算法通道委员会 海量的存储计算、分析的需求、多业态的业务场景 2020 中国数据智能管理峰会 京东大数据平台建设历程 规模化  数据规模增加:服务器增长的 边际效益越来越低  如何对不断累积的海量数据去 芜存菁,形成正向循环 京东零售数据算法通道委员会 体系化  缺少“中台”统筹导致烟囱式开 发,带来业务困扰和资源浪费  数据的标准和质量建设滞后,数 据价值被埋没 商业化  疫情、新基建激发大数据建设诉 求,政企数字化转型迫在眉睫 智能化  传统的规则化大数据分析无法满 足更精准的需求 实时化  指数级数据增长下的永无止境的 高时效性需求,从分钟->秒->毫 秒 2020 中国数据智能管理峰会 规模化:业务增长带来的挑战 无论是堆机器、堆集群、堆人力,无法在数 据的快速膨胀、业务的高速增长和平台的稳定、 易用、高效上取得比较好的平衡 京东零售数据算法通道委员会 2020 中国数据智能管理峰会 规模化:高效的计算存储引擎 存储计算分离 01 定制存储与计算机型,降低单位成本 实现更精准的容量规划 大集群和EC存储 02 单存储集群规模从数千提升至数万节点 数万台节点集群全面落地EC技术 2020 京东零售数据算法通道委员会 04 跨层计算优化 调度层:数万台超大集群规模、自适应资源超分 计算层:深度定制的内存计算引擎、云原生的 存、算分离架构 应用层:任务千人千面优化、自助诊断系统 03 数据生命周期管理 结合业务特点定义热、温、冷数据分 层,实现分层数据优化存储 中国数据智能管理峰会 规模化:自动化的运营管理系统 京东零售数据算法通道委员会 自动化运维运营,通过系统化来解决平台规模化可靠性易用性,达到低碳降本和业务提效,支持业 务快速布局和起量 电商全业务域数据体系 统一数据标准和口径  年节约机器和人力成本数十亿元 2020 资产治理产品化 提供自动化工具 端到端全链路资产分析诊断 资产ROI评估 中国数据智能管理峰会 体系化:业务快速并行发展带来的挑战 京东零售数据算法通道委员会 野蛮生长,管理成本急剧增加 数据烟囱:重复建设,缺乏连接、无法形成合力 数据腐化:随着时间流逝,数据价值流失 缺乏治理:高数据价值甄别难 来源繁杂:结构化、非结构化数据、多种异构数据源 业务复杂:需求扩张速度与应接能力矛盾 2020 中国数据智能管理峰会 体系化:数据中台的核心目标 京东零售数据算法通道委员会 1 2 3 4 5 构建生产标准 Data Schema Sys  从源头规范数据技术 标准和业务语义 统一数据集成 Easy DTS  支持全业务体系、多种异构 数据源统一集成,打破数据 孤岛 全域模型体系 Easy Model/Easy Label  建立企业统一的公共数据层, 保障数据规范和口径的统一 全场景数据服务 Easy Data/Easy Olap/Easy Audience  通过标准化SQL开发,打通 异构数据源到应用的链路瓶 颈,提供安全可靠的统一数 据服务层 统一资产管理 Data OS  建设数据资产盘点、分 析、治理的全链路管理 和评估体系,保持平台 良性发展 金融 物流 营销 电商 保险 2020 中国数据智能管理峰会 实时化:速度是永恒的诉求,快速响应市场变化 京东零售数据算法通道委员会 01 基于海量数据的秒级决策,高时效性需求:天->分钟 ->秒->毫秒 02 大促洪峰压力 03 实时计算技术开发推广 2020 中国数据智能管理峰会 实时化:解决方案 Easy Realtime实时计算平台 京东零售数据算法通道委员会 低延迟 • 全方位深度定制的实时计算引擎 • 全链路的实时采集、传输、计算 分析一体化计算框架 高可用 • 云原生资源调度、多租户资源隔 离、自适应的跨机房容灾 • 全链路的实时监控自愈,实现分 钟级故障恢复 易用性 • “零代码”开发 • 一站式融合数据服务平台 1 业务系统 一站式实时解决方案 数据库 2 数据采集 SQL/Flink SQL 3 多维分析引擎 数据流系统 4 数据查询服务 5 可视化应用 数据产品 …… 2020 中国数据智能管理峰会 智能化:对数据的深度理解是业务再增长的动力源 京东零售数据算法通道委员会 打造以高效精准业务决策为目标的数据智能化服务 统统计计分分析析 大大数数据据平平台台 Deep Data 数据智能化 数据算法平台 2020 中国数据智能管理峰会 智能化 挑战 2020 京东零售数据算法通道委员会 01 大数据下的超大规模机器学习算力挑战  高性能的算法平台九数研发,提供了一套成熟 的工业级解决方案 02 数据安全背景下的跨业务实体数据跨融合分析  研发联邦学习数据交换平台,为京东生态合作提供数 据交换避难所 03 数据多模态的大量涌现,组织越来越复杂,应用 越来越灵活  打造伽利略图计算框架,支持异构多数据类型的组织分析, 可支撑数十亿节点、数百亿边的数据规模 中国数据智能管理峰会 智能化:九数(9N)商业分析和业务智能化平台 京东零售数据算法通道委员会 京东零售 京东健康 京东数科 京东物流 全渠道 …… 9N服务平台 精准匹配 时序预测 趋势分析 关联分析 9N算法诊断平台 仿真系统 效果诊断 9N-Deep (模型训练引擎) 9N-FL (联邦学习引擎) 9N核心算法引擎 Galileo (图计算引擎) 9N-RL (强化学习引擎) 9N-OL (在线学习引擎) 9N-Cloud算法资源云化管理系统 一站式算法解决方案 2020  赋能业务  服务京东全业务场景,助力业务高速发展  典型案例  助力京东广告从规则化到数字化智能化的转型, 加速无人投放广告高速发展,已经成为京东广告 核心收入来源  开源回馈社区  9N-FL已开源  Galileo图计算框架即将开源  9N算法平台整体开源计划中 中国数据智能管理峰会 京东全域大数据平台架构 Easy JData 服务层 可视化分析(Easy BI) 数据服务(Easy Data) 用户洞察(Easy Audience) 京东零售数据算法通道委员会 统一元数据服务 数据操作系统 (DataOS) 平台层 计算 存储层 Easy RealTime 离线数仓 数据建模平台(Easy Model) 数据集成平台(Easy DTS) 九数算法平台(9N) 实时数仓 埋数 点据 管安 理全 离线计算 离线调度 实时计算(JRC) 多维分析(Easy OLAP) 离线调度 全域数据存储 流式调度 数据湖(Easy DataLake) 数 据数 质据 量目 平录数 台 据 资 产管 管理 理中 心 传输层 数据层 MySQL 2020 数据总线(JDQ) 日志系统 …… 中国数据智能管理峰会 京东零售数据算法通道委员会 2020 未来发展方向 中国数据智能管理峰会 未来的发展方向 技术升级 云原生,批流一体化 全域大数据平台 京东零售数据算法通道委员会 开放行业赋能 以Paas,Saas为抓手, 建设大数据商业生态 2020 深度业务赋能 Deep AI 中国数据智能管理峰会 Q&A 2020 中国数据智能管理峰会 THANK YOU! 2020 中国数据智能管理峰会

  • 关注微信

猜你喜欢