ETL就是抽取转换加载，是一个数据集成的过程，它是一个将来自多个数据源的数据组合到单一的，一致的数据存储中，然后再添加到数据仓库或者别的什么系统中的工具。

ETL基础概念

ETL五大模块分别是：数据抽取、数据清洗、库内转换、规则检查、数据加载。

数据抽取

将数据缓冲区的数据直接加载到数据库对应表中，如果是全量方式则采用 LOAD 方式，如果是增量则根据业务规则 MERGE 进数据库

Glue提供ETL服务，由Glue Data Catalog(中央元数据存储库)，ETL引擎，以及处理的作业系统

有时候会有从不同的数据源统一数据的需求，这时可能字段名不同，但是实际存的数据意义相同，这样需要对其进行统一，在glue中可以通过crawler+classifier实现。

存储了数据的位置、架构和运行时指标的索引，一般来说从不同的数据源爬取了程序之后，会通过Classifier对其进行分类，分类器检查给定文件的格式是否可以处理。如果可以处理，分类器将以与该数据格式匹配的对象的形式创建一个模式。

Classifier在爬虫任务的时候触发,通过爬虫+classifiers自动识别应该到哪个字段去，流程如下图。

爬网程序如何填充 AWS Glue Data Catalog

Glue内置了机器学习功能，可以通过 FindMatches 转换，可以识别数据集中的重复或匹配记录，即使记录没有公共唯一标识符且没有完全匹配的字段也是如此创建自定义转换来清理数据。

tech

#tools

ETL(Extract,Transform,Load)

https://codebells.github.io/post/etl-glue.html

作者

Codebells

发布于

2022年6月21日

更新于

2023年3月2日

许可协议