基于数据湖架构的时空大数据分析云平台.pdf
北京捷泰天域信息技术有限公司 云GIS产品部研发总监 周宁 基于数据湖架构的时空大数据分析云平台 北京捷泰天域信息技术有限公司周宁 数据存储选型 NAS Standalone Direct Access Enterprise Cloud NFS Http Simple/ Object Store Elasticity CIFS 数据存储形态变化 数据来源多样 数据类型多样 数据海量异构 传统的数据存储和分析方法不再能满足大数据和 人工智能场景下的业务需求,为了实现更高的敏 捷性和灵活性,需要一种新的架构模式。 数据存储与分析发展阶段 1.0基于关系型数据库的传统数据仓库 2.0以Hadoop为基础的传统大数据分析(HDFS、MapReduce、YARN) 3.0以数据湖为基础的支持异构技术融合的架构 什么是数据湖 数据湖架构可以在一个集中式存储位置 安全地存储、分类和分析所有数据,且 数据可以按照原始格式存储而无需转换 为预定义结构。 数据湖发展 2011年 概念 2016年 Amazon AWS Microsoft Azure Google Cloud 2018年 阿里云 华为云 地理信息领域对数据湖架构的已有应用 OpenStreetMapAmazon AWS Google Earth EngineGoogle Cloud Esri ArcGISWindows Azure 数据仓库与数据湖 GB vs PB 数据湖并非对数据仓库的替代,而 是在应用场景上的相互补充 大数据分析与数据湖------存储与计算分离 存储和计算可独立扩展 一份数据,多种计算(传统处理分析、大数据处理分析、机器学习等) 弹性计算,资源回收 大数据分析可作为数据湖分析的手段之一 来自阿里云的测试------存储与计算分离 成本可节约一半以上,性能损失不到 10,且在高并发情况下,存储与 计算分离架构更具有优势。 多、快、好、省,不能只能看“快” 基于数据湖架构构建时空大数据云平台 基于对象存储构建数据湖存储 AWS S3(2006年),阿里云OSS,华为云OBS等,华为FusionStorageS3,XSKY EOS等 高可用性,99.999999999的持久性 无缝集成Spark、Greenplum等框架 高安全性,支持多租户数据隔离 高吞吐性能,支持大文件分片并行传输 支持存储分级(real time、near line、cold line) 最低成本 最低成本 Azure Data Lake Storage Gen1 to Gen2 2018年6月,Gen2基于Azure对象存储Blob Storage重新构建 ArcGIS对云存储的全产品线支持(云原生特性) ArcGIS Online早在10年之前基于AWS构 建全球首个面向GIS的SaaS平台时,就已 经开始面向云环境架构新一代软件,同时 针对云存储对部分空间数据格式进行了重 新定义与优化,如MRF、CRF等 元数据(编目与管理) 数据资源名称 数据资源业务描述 数据资源字段信息 关联数据资源 空间元数据标准 数据全生命周期维护 存储 管理 处理 分析 可视化 无服务器(Serverless)架构支持 Lambda架构支持 支持同时处理历史数据和实 时更新数据 Bath Mode Near-real- time processing 多云环境(multicloud)能力支持 8年云GIS技术研发 5年云GIS产品化 80云GIS项目实施 20IaaS集成 Demo遥感影像在线查询分析 可扩展对接其它第三方模型算法 Demo遥感影像深度学习一体化 支持星球级数据规模的架构 实现数十PB级多来 源多时间范围的海 量数据的在线统一 存储管理处理分析 与可视化 AI项目实施基本要素 数据资源算法模型计算能力专业知识 基于本地私有云存储环境的构建 数百TB级遥感影像数据的统一存储管理,明显的性价比优势 在本地私有云存储环境之上集成深度学习框架 其它数据湖典型应用场景 某国地调局积累了数十年的地质勘探积记录,出于成本和容量的考虑 ,必须将数据归档,且还需要能够直接对数据进行历史审计对比和统 计分析。 多年累积的车辆行驶数据可达EB级,必须要求极低成本且长期的数据 存储以便于数据分析挖掘,如通过这些历史数据明细查询,可实现驾 驶行为分析以及运输路线回放。 企业数据现状 没有科学合理的存储选型,基础设施条件与建设思路滞后 业务数据通过ETL被重新定义或清洗到数据仓库 老旧的数据被存储到磁带库等离线环境,很难被实时检索到 查询分析过程通常效率很低 每个部门独自构建自己的大数据分析环境,极少共享 数据湖建设是企业数字转型的核心 提升客户体验 降低成本 增加营收 形成对竞争者的优势 改变商业模式