ETL -

Post Views: 1.823

ETL steht für Extrahieren, Transformieren und Laden von Daten aus einem oder mehreren Quellsystemen in einen Zieldatenbestand inkl. Data Cleansing. ETL-Systeme bilden beim Data Warehousing die Datenschnittstelle zwischen operativen / externen Datenbeständen und Data Warehouse / Data Marts.

Grundlagen

Zentrale Aufgabe des Informationsmanagements ist, den Mitgliedern einer Organisation jene Informationen bereitzustellen, die sie zur Wahrnehmung ihrer Aufgaben benötigen. Sie sollen in den Stand versetzt werden, relevante Informationen zu erkennen und adäquat zu interpretieren. Je nach Erkenntniszielen und Informationsbedarfen müssen Daten unterschiedlicher Syntax und Strukturen eruiert, in ihrer Semantik erfaßt, integriert und auf semantisch höhere Ebenen transformiert werden. Unter Business Intelligence (BI) wurden hierfür Konzepte, Methoden und Verfahren entwickelt.

Die unterschiedlichen Anforderungen an die Datenhaltung und Informationsintegration bei operativen Systemen und BI-Systemen führten zur Trennung von Transaktionsdatenbanken und Data Warehouse (vgl. [Devlin, Murphy 1988]). Folgende Schichten werden unterschieden:

Source Database Layer mit Quelldaten aus operativen (Enterprise Resource Planning-) Systemen, externen Informationsdiensten oder dem WWW
Information Access Layer mit materialisierter Informationsbereitstellung in Data Warehouse / Data Marts oder Anfragen an verteilte Datenbestände über Mediatoren
Data Access and Integration Layer als Schnittstelle zwischen Source Database und Information Access Layer.
Meta Data Layer mit Daten für den Build Prozeß, Kontrolldaten über Build- und Runtime-Prozeß sowie Anwenderinformationen zur Systemnutzung.

Bei einer materialisierten Datenextraktion, -integration und -aggregation wird zwischen den Phasen Extraktion, Transformation und Laden unterschieden und der Data Access und Integration Layer durch ETL-Systeme realisiert. Erste Ansätze gehen auf [Stecher, Hellemaa 1986] zurück. In einer föderierten Unternehmensarchitektur (siehe Wikipedia, Stichwort „Federal enterprise architecture“) können ETL-Prozesse auf den Ebenen der „Enterprise Architecture“ in ein Data Warehouse, der „Segment Architecture“ in ein Data Mart und der „Solution Architecture“ in eine lokale Datenhaltung erfolgen. So erlaubt das Add-In PowerPivot von Excel 2010 ETL-Prozesse aus mehreren Quellen.

ETL-Prozess

Extraktion

Aus unterschiedlichen Quelldatenbeständen (relationale Datenbanken, File-Systeme, XML-Dokumente/Datenbank, Textdateien etc.) werden Daten extrahiert und in den Staging Area geladen. Die Extraktion kann auf 3 Arten initiiert werden:

Offline aufgrund festgelegter, an den betrieblichen Anforderungen orientierten Regeln, i.a. in periodischen Abständen
On Demand durch Anwendungen auf Data Warehouse / Data Marts
Realtime ereignisgesteuert durch Quelldatenträger.

Bei der Extraktion werden die Datenprofile entweder anhand von Metadaten (Metadatenmanagement) über die Quellen oder spezifischer Prüfmethoden (Data Profiling) ermittelt und als ungeeignet erkannte Quelldaten zurückgewiesen.

Transformation

Die Phase Transformation dient ebenso der Datenintegration. Das Mapping der Quelldaten auf die Zieldaten bestimmt den Funktionsumfang, z.B.:

Auswahl der relevanten Daten, Elimination von Duplikaten
Schlüsselvergabe/-bereinigung
Überführung von CSV (Comma Seperated Value) -Dateien in strukturierte Formate, XML/SQL-Konversion (XML, Structured Query Language)
Datenbereinigung, Integritätstests aufgrund Domänen oder vorgegebenen Mustern, Datenabgleich (Data Cleansing)
Überführung ereignisorientierter in periodenorientierte Größen, Währungsumrechnung, Aggregation, Kennzahlenermittlung u.a.
Datenintegration unterschiedlicher Quellen, Standardisierung, Datenergänzung (Datenfusion).

Konzepte zur Filterung, Harmonisierung, Aggregation und Anreicherung (Information Enhancement) finden sich in [Kemper, Finger 2010]. Die integrierten und transformierten Daten werden im Operational Data Store (ODS) [Kimbell, Caaserta 2004] abgelegt; auf ihn können ebenso OLTP- (Online Transaction Processing) Anwendungen zugreifen.

Laden

Aus dem ODS werden die Daten in das Zielsystem importiert. Der Import soll, da während dessen das Zielsystem blockiert wird, rasch und effizient erfolgen, indem z.B. nur Bereiche mit Änderungen überschrieben werden.

Kritische Erfolgsfaktoren

Qualität und Nutzen eines ETL-Systems werden, abgesehen von aufgrund Service Level Agreements (ITIL) einzuhaltender Performance, dadurch bestimmt, inwieweit sich unterschiedlich strukturierte, semantisch differierende Daten integrieren lassen. [Roth et al. 2002] schlagen die 3-Schichten-Architektur in Abbildung 1 vor. Foundation Tier umfaßt die Arbeitsspeicher sowie die Extraktions- und Konversionsfunktionen eines high-performance Datenbankmanagementsystems. Integration Services bilden die aus den betrieblichen Anforderungen abgeleiteten Datenselektions-, Transformations- und Integrationsfunktionen, auf welche die Standardapplikationen und Anfragesprachen (Structured Query Language) des Application Interface zugreifen.

ETL Abbildung 1

Abbildung 1: A three-tier information integration architecture [Roth et al. 2002, S. 570]

Literatur

Devlin, B.; Murphy, P.T.: An Architecture for a Business and Information System. IBM Systems Journal 27(1988)1, S. 60-80.

Kemper, H.-G.; Finger, R.: Transformation operativer Daten – Konzeptionelle Überlegungen zur Filterung, Harmonisierung, Aggregation und Anreicherung im Data Warehouse. In: In: Chamoni, P.; Gluchowski, P. (Hrsg.): Analytische Informationssysteme, 4. Aufl., Berlin/Heidelberg 2010, S. 159-174.

Kimball, R.; Caserta, J.: The Data Warehouse ETL Toolkit. John Wiley and Sons, 2004.

Roth, M.A.; Wolfson, D.C.; Kleewein, J.C.; Belin, C.J.: Information Integration: A new generation of information technology. IBM Systems Journal 41(2002)4, S. 563-577.

Stecher, P.; Hellemaa, P.: An “intelligent” extraction and aggregation tool for company databases. Decision Support Systems 2(1986)2, S. 145-158.

Wikipedia, Stichwort “Federal enterprise architecture”, Version vom 8.08.2012, 14:00, abrufbar unter http://en.wikipedia.org/wiki/Federal_enterprise_architecture.

Hier weiterverbreiten

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.