是否有获取真实世界ETL示例的资源?

本文关键字:资源 ETL 获取 真实世界 是否 | 更新日期: 2023-09-27 17:49:25

我完全相信我所做的工作有很大一部分属于ETL的范畴,但我甚至在3个月前都不知道这个术语的存在。我发现SSIS与我的技能有点不匹配,也就是说,我的直觉是,以深思熟虑的方式编写c#代码会给我带来我需要的结果(我的雇主也不拥有它)。我开始关注WF,因为它看起来合乎逻辑,但我回到了最初的结论,我真的需要理解问题领域的基本原理,当我这样做时,利用我的经验并在。net/c#中编写解决方案将是最有意义的(我是一个人的团队,这似乎不会改变)。到目前为止,我已经有了一些大杂烩式的同步器实用程序,在管理它们的过程中开始出现的困难促使我去寻找这些知识。

第一个问题是:有没有什么资源可以让我得到一些例子,让我知道它们是如何组合在一起的,比如:

  • 从具有使用限制的REST服务中提取->加载到数据库以(尽可能接近)实时同步
  • 从内部第三方应用程序(如QuickBooks)提取->加载到数据库
  • 监控数据库的变化,并在仔细跟踪的批次中更新外部系统(即,被提取的相同信息被LOB应用程序更改,然后需要被推回)

问题2是:我还没有掌握T部分将在哪里发挥作用。到目前为止,我一直在提取一个系统中表示逻辑实体的信息,并将它们推入另一个系统。

是否有获取真实世界ETL示例的资源?

我没有您所看到的确切场景的任何示例,但是如果您想了解更多关于ETL本身的信息,您可以尝试查看Ayende网站上的文章。他有一个非常容易使用的ETL进程框架,叫做Rhino ETL。还有一个演示如何使用它的视频。

至于T部分在哪里发挥作用,T代表变换。在这个步骤中,您可以(但不一定必须)更改数据的形状。从一个数据源中提取后,您可以添加或删除字段、聚合信息、将对象分解为表、将表映射为对象等。这部分是变换步骤。然后继续将数据加载到新的数据存储或系统中。

希望对大家有所帮助。

http://en.wikipedia.org/wiki/Extract,_transform,_load