大数据+GIS技术专题.pdf
大数据GIS技术专题 大数据时代的泛在信息洞察之“道” 张雪英教授南京师范大学地理科学学院 ArcGIS时空大数据分析与应用 刘春影大数据架构师Esri中国信息技术有限公司 南京师范大学地理科学学院 教授 江苏省地理信息产业研究院 副院长 张雪英 张雪英 南京师范大学地理科学学院 江苏省地理信息产业研究院 大数据时代的 泛在信息洞察之 大数据时代的哲学思维 小数据-大数据因果关系-相关关系精确性-混沌性 泛在信息的核心价值 泛在数据 人类社会人类社会 人人 信息世界信息世界 机机 物理世界物理世界 物物 泛在智能 文本 图表 音频 图像 将 数 据 转 换 为 可 理 解 的 信 息 结构化 形式化 泛在信息 无歧义 可计算 基础理论数据 利用文本、图像、视频、音频、图表等语言符号对现实世界进行表达的数据。 泛在数据泛在数据 大数据 小数据 一切事物存在和发展的基本形式 地理数据地理数据 利用以时空为参照的各种地理语言对现实世界进行表达的数据 。 时间 空间 无所不在的、各种载体形式的数据 基础理论数据 地理地理 数据数据 泛在泛在 数据数据 基础理论语言 人们进行交流沟通的各种表达符号。语言语言 人类社会信息传递第一性的、最基本的手段 基础理论语言 自然语言自然语言 人类交流和思维的主要工具。 自然语言理解是泛在数据进行信息转换的重要桥梁 基础理论认知 泛在信息要素泛在信息要素 人物人物 事件事件 事物事物 时间时间 地点地点 现象现象 场景场景 基础框架 时空 框架 描述信息内容的基本单元。 人物人物 事件事件 事物事物 时间时间 地点地点 现象现象 场景场景 要素分类 要素关系要素关系 几何形态几何形态 人物人物 事件事件 事物事物 时间时间 地点地点 现象现象 场景场景 地理表达 时空 框架 社会 认知 空间 认知 基本方法 泛在信息理解泛在信息理解 对各种载体形式泛在数据中的要素信息进行结构化处理和语义分析。 地 理 学 泛在数据 音 频 文 本 图 像 图 表 视 频 语言单元 语义分析 语 法 分 析 语 用 分 析 人物人物 事件事件 事物事物 时间时间 地点地点 现象现象 场景场景 时空 框架 语 言 学 泛在数据 音 频 文 本 图 像 图 表 视 频 语言单元 语义分析 语 法 分 析 语 用 分 析 现实世界 音 频 文 本 图 像 图 表 视 频 关键技术语言单元划分 不同形态语言的基本组成部分和结构关系。 自然语言单元字、词、词组、句子、段落、篇章 文本数据音频数据图像数据 文字元素文字元素 ○字符○字符结构结构 ○字符○字符 ○○字体字体 视频数据图表数据 听觉元素听觉元素 ○音○音高高 ○音○音强强 ○音○音长长 ○音○音质质 视觉元素视觉元素 ○○色彩色彩 ○○线条线条 ○○空间空间 ○○光影光影 ○○形状形状 ○纹理○纹理 混混 合元素合元素 ○具象要素(图形与○具象要素(图形与 符号)符号) ○抽象要素(点、线、○抽象要素(点、线、 面等)面等) ○○文字文字 ○○数字数字 视觉元素视觉元素 ○○色彩色彩 ○○线条线条 ○○空间空间 ○○光影光影 ○○形状形状 ○纹理○纹理 语言单元语言单元 关键技术信息抽取 从不同形态数据中获取结构化的要素信息。 信息抽取信息抽取 标注语料库 模型和算法的潜力有限 知识工程的决定性作用 算法 关键技术语义分析 信息描述形式的全部意义,通常指概念及其关系的含义。语义分析语义分析 北京北京 南京南京 词义消歧词汇 指代消解(篇章)语义关系(跨篇章) 关键技术语用分析 把信息表述的对象和对对象的描述,与现实的真实事物及其属性相关联。语用分析语用分析 煮咖啡(吸食冰毒) 发话者受话者 话语 内容语境 语用因素 关键技术泛在信息的时空化 按照统一的时空基准对各个要素信息进行有序化组织和表达。 信息时空化信息时空化 时间要素 北京时间 地点要素 新街口 人物要素 李白 现象要素 台风 事件要素 “512”地震 场景要素 足球比赛 事物要素 美食 关键技术泛在信息聚合 将各种数据形态 中分散的、相关 的信息碎片,围 绕某个主题整合 成完整的、有参 考价值的信息。 信息聚合信息聚合 地点地点 一带一路一带一路 时间时间历史上的今天历史上的今天 事物事物 无人驾驶车无人驾驶车 人物人物人肉搜索人肉搜索 事件事件 中美贸易战中美贸易战 现象现象 台风台风 场景场景 枪杀现场枪杀现场 关键技术泛在信息聚合 中美贸易战 时间聚合事物聚合 推特总统 地点聚合虚拟空间 关键技术泛在信息溯源 记录信息传播路径、信息内容、载体形式等方面的演变过程。信息溯源信息溯源 以传播路径为纽带 以传播渠道为桥梁 以传播内容为核心 以载体形式为媒介 信息传播路径的时空化 关键技术 地理学地理学语言学语言学 泛在信息泛在信息 理解理解 应用场景 公安公安税务税务农业农业 应急应急 统计统计国土国土 政府管理 物流物流 历史文化历史文化 社交网络社交网络商业商业 游戏游戏 新媒体新媒体 社会服务 历史文化中国地方志 基于时空框架的地方志信息资源组织 “文-图-表”的地方志智能信息检索 地方志信息的全要素时空可视化分析 国国家家 数数字字记记 忆忆工工 场 场 新闻新媒体 智闻天下 1946-1957- W WI IN N 基于时空框架的新闻信息整合 以要素为线索的新闻智能检索 新闻信息传播时空可视化分析 新闻新媒体 新闻检索新闻检索 全文检索 要素检索 地图检索 新闻新媒体 新闻分析新闻分析 统计分析 情感分析 时空分析 专题分析 时间-地点-人物-事物-事件 新闻新媒体 新闻新闻AI 新闻语料库 中文词向量 新闻理解API 时空匹配引擎 新闻新媒体 赋能 地理信息地理信息 技术技术 人工智能人工智能 技术技术 助力 有普世价值的 道 新技术 认知世界的 道 新语言 跨学科思维的 道 新视角 小结 没有高新技术支撑的科学理论往往是空洞的 没有先进理论支撑的高新技术可能是盲目的 陈述彭院士 Esri中国信息技术有限公司 大数据架构师 刘春影 见著知微、大成智慧 ArcGIS时空大数据分析及应用 刘春影 北戴河 公元207年 曹操 北戴河 1954年 毛主席 北戴河 时空交错,跨越千年的共鸣时空交错,跨越千年的共鸣 TB/PB/EB 结构化 运动 空间 社会 历史 时间 非结构化 地理 基准 人文 变化 更新 内容 洞察 多结构 以时空为基准来描述物理世 界和虚拟世界的大数据。 80数据和地理位置有关 100数据属于时空范畴 时空大数据价值 快速信息提取 纵至深 支撑时空决策 横至广 时空大数据分析,机遇和挑战 挑战一时空大数据组织管理难 数量大结构杂来源广多时相 挑战二分析计算效率低 量大而计算慢结构杂而性能低 挑战三业务需求场景化 数据挖掘数据信息价值 应用 理论 1. 数 据 融 合 2. 分 布 式 存 储 3. 云 存 储 5. 人 工 智 能 技术 3.行业大数据(国土、测绘、农业、气象. 2.公共服务(智慧城市、智慧园区) 1.特征定义 2.价值讨论 3.大数据思维 4.大数据战略 以 数 据 为 基 础 以 平 台 为 手 段 以 应 用 为 导 向 理论 技术 应用 解构时空大数据 4. 分 布 式 计 算 1.指标模型、业务库 ArcGIS 大数据,基础时空框架构建 ArcGIS空间 大数据平台 业务应用 数据汇聚 ArcGIS已经积累了国土、测 绘、气象等多个行业模型, 还在不断扩展中. 标 准 分 析 矢 量 分 析 栅 格 分 析 实 时 计 算 模型融合 流程引擎 土地利用现状分析 多规合一应用分析 多行业 多领域多部门 国 土 测 绘 气 象 环 保 公 安 规 划 电 信 多类型 多结构多时相 多来源 时 空 基 准 数 据 清 洗 数 据 质 检 转 换 加 载 汇 聚 管 理 同 步 更 新 数 据 融 合 机 器 学 习 交通 电力 国土 农业 环保 规划 多业务 多结构 DBMS CSV/TSV/TXT shpfile HDFS CIFS/NFS Hive云存储 大数据资源池 汇聚 更新 空间数据组织管理,大数据分析的关键 数据,空间分析挖掘的本源 工具,连接数据与业务的关键 1、所有的业务问题,都可以归为数据问题; 2、所有的空间数据问题,都可以用ArcGIS大数据分析工具来解决 数据汇总 聚合点 连接要素 分析模式 计算密度 查找热点 点聚类 邻近分析 创建缓冲区 数据管理 复制到数据存储 字段计算 追加数据 分布式计算 流程化应用 工具组合 API for Python 逻辑判断 离线计算 业务工作流 17种工具 持续更新中 构建多值段网格 位置查找 查找相似位置 事件检测 地理编码 数据汇总 聚合点 连接要素 轨迹追踪 汇总属性 范围内汇总 空间叠加 312 事务计算型 传统需求,向分布式计算转移 TB、PB级数据分析 土地利用现状分析 建设用地审批分析 生态红线与基本农田压盖 地理国情变化监测 数据量大、效率低、运算复杂 辅助决策型洞察预测型 场景,时空大数据分析价值体现 多源数据融合分析 综合建模分析 土地用地规划 气象灾害等级评价 城市区域发展状态评估 人口活动、社会感知关联关系探索 Geo.AI 出行轨迹预测 到港时间预测 犯罪事件预测 事务型分布式计算--让性能不再是问题 不同坡度等级、不同管控区类别、不同地类分类面积汇总统计 坡度数据 700万 管控区 580万 地类图斑 800万 叠加分析叠加分析 传统方式30小时 大数据48分钟 数据裁剪数据裁剪叠加分析叠加分析汇总统计汇总统计 事务型由工具到模型,流程化应用 线状地物 地类图斑 土地利用现状数据 勘测定界数据 Join Join_Result Overlay 大数据分析工具 结果输出 零星地物 业务逻辑 数据组织分析工具业务逻辑应用集成业务模型 洞察型ArcGIS空间大数据聚类分析 杂乱无章有章可循 细粒度洞察时空关系 辅助决策型关联分析,时空态势挖掘 演示 王彤 一次出行分析 居民出行链特征分析出行方式识别 分 析 场 景 数 据 资 源 全市小区数据POI数据 信令数据(每天1TB、120亿条) 大 数 据 管 理 人口活动时空聚集规律出行轨迹绘制 交通枢纽OD分析 ArcGIS空间大 数据计算平台 平 台 资 源 工具 API 数 据 清 洗 数 据 质 检 数 据 组 织 数 据 挂 接 数据清洗 模型构建 业务场景 数据资源 业务需求 成果展示 时空大数据分析框架 三种模式、两种接口、多种语言 Python API Rest API 业务应用集成 模型重构 土地利用现状分析 30分钟46秒 优化业务流程 持续改进算法 ArcGIS 时空大数据应用领域 国土测绘农业环保 交通规划气象公安 电信教育医疗 提升性能 优化流程 提高效率 ArcGIS10.6 时空大数据分析平台 鲜活的大数据平台 以应用为导向的时空大数据 数据、平台、应用,全面优化、深入融合 ArcGIS GeoAnalytics Server 矢量大数 据技术架构及应用 刘春影 时间明天,1510-1550 空间311 会议室