GIS 中的数据工程-开启ETL 之旅


发布日期 : 2022-05-11 01:06:08 UTC

访问量: 118 次浏览

地理空间数据工程

GIS 中的数据工程为分析准备空间数据。例如,此过程填充缺失值、 添加字段、地理丰富和清理值。通常, 整个数据科学工作流程从数据工程和必要的ETL 工作流程开始。 数据工程方面可能是数据科学中最耗时的方面。 但也是分析中最关键的部分之一,因其与输入的数据一样好。

在本文中,我们将探讨地理空间数据工程的基本组成部分, 并讨论如何优化空间数据以进行分析。

数据工程中的关键术语

地理空间数据无处不在,是许多数据驱动的关键业务任务的核心。 从绘制属性边界到分析作物产量,地理空间分析可以帮助组织理解他们的数据。 就如任何类型的数据一样,可以进行常规流程, 据科学家/分析师能够为业务团队提供洞察力。 以下是数据工程过程中通常附带的一些关键术语:

  • DATA WAREHOUSE:来自各种来源的数据库集合, 就像一个数据库,每个人都可以拥有多个数据仓库。
  • DATA LAKE:非结构化数据的存储库,将其视为数据的倾倒场。
  • DATABASE:表、列和行形式的结构化数据。
  • 数据管道:一系列任务,每个任务都在一个数据集上运行, 将数据从一个系统传递到另一个系统,通常用于收集、 存储和处理数据以用于分析目的。
  • EXTRACT, TRANSFORM, LOAD (ETL):从一个系统中提取数据, 将其转换为另一个系统可以使用的格式, 并将其加载到最终系统中用于业务分析的过程。

ETL——提取、转换、加载

ETL(提取、转换加载)是一系列流程,可让数据为分析和业务洞察做好准备, 将数据从一个数据库移动到一个或多个数据库作为管道项目。 可将 ETL 视为接力赛。数据在某一时刻进入系统,并进行转换, 后从一个跑步者传递到下一个跑步者,直到到达最终目的地。

![](https://www.osgeo.cn/static/upload/61/61cfc150-d0c6-11ec-99bc-00163e0533f4_m.jpg)

数据工程工具

数据工程是从各种来源收集数据并创建将数据从原始 来源移动到数据仓库的数据管道的过程。 尽管空间分析是许多数据驱动过程的核心, 但地理空间分析可能具有挑战性且乏味。尽管增加了复杂性, 但 GIS 中的数据工程在过去几年中一直受到关注。 以下是一些对地理空间数据具有原生支持的关键数据工程软件应用程序。

Snowflake

Snowflake 是基于云的数据仓库和数据湖,从各种来源收集数据。 它是一种软件即服务 (SAS),可实现可扩展的数据存储和处理。 同样,提供了更快速、更易于使用的灵活分析解决方案。 它自己的 SQL 查询引擎是专门为云设计的。 Snowflake 支持的一些地理空间数据类型包括 GeoJSON 和 PostGIS。

Apache AirFlow

这个基于 Python 的开源 ETL 工具专为构建和准备数据管道而设计。 每个进程都是一个用有向无环图 (DAG) 表示的任务, 该有向无环图 (DAG) 将进程从一个连接到另一个。 此外,Apache AirFlow具有一组独特的工具, 可编写、调度、迭代和监控数据管道。

Feature Manipulation Engine (FME)

SAFE Software 的 FME 的核心是空间 ETL 专家。 通过利用 FME Cloud,是一种控制数据流的灵活解决方案。 但也允许在其云基础设施之外工作,例如使用 AWS。 通过读取器、写入器和转换器构建工作台, 可通过地理空间格式的最大互操作性来完善 ETL 过程。

![](https://www.osgeo.cn/static/upload/69/69a2c31e-d0c6-11ec-ae55-00163e0533f4_m.jpg)

Alteryx

这是数据工程工具的另一个示例, 可在其中如 Apache Airflow 一样将作业作为 DAG 执行。 Alteryx专门从事 ETL 处理。这意味着也可以从其他来源提取和丰富数据, 将转换后的数据移动到 Snowflake 或任何基于云的平台。

Elasticsearch

Elasticsearch 是免费的开源工具,用于搜索和分析所有类型的数据, 包括文本信息和其他数据类型。这种数据工程工具也被广泛用于 GIS 集成, 因其将Elastic Maps 应用程序与 Kibana 相结合, 允许分析和可视化地理空间数据。

Databricks

Databricks Geospatial Lakehouse 是用于大规模空间数据科学和 协作的数据工程平台。Databricks是数据工程的主要参与者之一。 甚至可以通过 CARTO Spatial Extension for Databricks 连接, 以挖掘甚至静音的潜力来解锁云中的空间分析。

GIS中的数据工程

空间数据工程侧重于管理、处理、清理和分析地理空间数据。 它与空间数据科学密切相关。但数据工程师更关注数据工程过程的实施, 而数据科学家更专注于数据的发现和探索。

GIS中的数据工程是从多个源中提取和编译数据, 将空间数据转换为对业务有用的格式,后将其加载到数据仓库中的过程。 这种注重实践、注重细节的职业要求数据工程师是耐心的问题解决者, 喜欢细致的工作。但是,当将地理空间添加到等式中时, 这会增加云中空间分析的复杂性。