In-Memory Data Management -

Post Views: 1.350

In-Memory Data Management (IMDM) bezeichnet die primäre Verwaltung von Daten im Hauptspeicher von einem oder mehreren Servern.

Zusammenfassung

Daten werden üblicherweise in Datenbanken gespeichert und verwaltet. Beim IMDM werden die Daten primär im Hauptspeicher abgelegt und – zur Absicherung vor Störfällen wie Stromausfällen – parallel auf persistentem Speicher wie z.B. Solid-State-Disks gesichert. Der Zugriff auf den Hauptspeicher ist wesentlich schneller als die Verarbeitung von Daten in klassischen Systemen, welche die Daten primär auf der Festplatte ablegen und im Hauptspeicher lediglich temporäre Arbeitskopien vorhalten. Dadurch ergeben sich fundamentale Verbesserungen für die Datenhaltung und -auswertung im Unternehmen.

Historie

Klassische Datenbanken speichern den Datenbestand auf Festplatten in Blöcken ab. Die zuletzt benutzten Blöcke werden nach Möglichkeit im Hauptspeicher vorgehalten, so dass auf diesen vorgehaltenen Daten schnelle Abfragen möglich sind. Sollen Anfragen über den gesamten Datenbestand durchgeführt werden, muss dieser von der Festplatte gelesen werden, bevor er verarbeitet werden kann.

Entwicklung der Computertechnik

Über die letzten Jahrzehnte wurden Computer stetig schneller, was sich direkt auf die Ausführungsgeschwindigkeit auswirkte. Jedoch hat sich in den letzten Jahren gezeigt, dass sich einige Komponenten langsamer weiterentwickeln als andere. So ist die Rechenleistung moderner Prozessoren rasant gestiegen, während sich die Geschwindigkeit von Festplatten weitaus langsamer entwickelte. Somit wurde es immer aufwändiger, Daten von der Festplatte zu lesen und auszuwerten, was leicht zum Flaschenhals des Gesamtsystems wird.

Daneben stehen heute Server mit Hauptspeicherkapazitäten von bis zu 48 Terabyte zur Verfügung. Verglichen mit dem Wachstum der Hauptspeicherkapazitäten, haben sich allerdings die Latenz des Speicherzugriffes sowie die Speicherbandbreite nur geringfügig verbessert. Um die Auslastung der Bandbreite zu optimieren, nutzen moderne Prozessoren mehrstufige Cache-Architekturen, wodurch die Latenz des Speicherzugriffes verringert werden kann. Durch solche Architekturen lassen sich Bandbreitenbeschränkungen beim Speicherzugriff umgehen oder zumindest einschränken. Diese sogenannten Speicherhierarchien nutzen den Fakt aus, dass kleinere aber dafür wesentlich schnellere Speichertechnologien dichter an der CPU operieren. Dies führt jedoch dazu, dass die Geschwindigkeit der Zugriffe auf gespeicherte Daten von der Lokalität der Daten abhängig ist. Aufgrund dessen werden – insbesondere im In-Memory Data Management – Algorithmen und Datenstrukturen entsprechend optimiert, um Cache-Architekturen optimal auszunutzen.

Zeilen- und Spaltenorientierte Datenorganisation

Hauptspeicher wird im Englischen häufig mit dem Begriff DRAM bezeichnet, wobei diese Abkürzung für Dynamic Random Access Memory steht. Dieser Begriff suggeriert, dass die Zugriffsperformance auf alle Dateneinheiten im Hauptspeicher wahlfrei ist, also unabhängig von der zuvor angefragten Dateneinheit. Wie im vorherigen Abschnitt erläutert, ist dies bei heutigen Rechnern (die in der Mehrheit nach der Von-Neumann Architektur gebaut sind) nicht der Fall. Daher ist es erstrebenswert, häufig zusammen abgefragte Daten nah beieinander zu speichern. Dies kann durch eine spaltenorientierte Datenablage in vielen Fällen erreicht werden, da hier alle Einträge einer Spalte bzw. eines Attributes gemeinsam gespeichert werden. Bei modernen Unternehmensanwendungen oder analytischen Anwendungen dominieren genau solche Anfragen, bei denen einzelne Attribute aller Datensätze einer Tabelle gelesen werden (für eine ausführliche Erklärung siehe [Plattner 2014]). Diese Art der Datenablage steht im Gegensatz zu einer zeilenorientierten Datenorganisation, bei der die verschiedenen Attribute eines einzelnen Datensatzes zusammen abgelegt werden. Diese Art der Ablage ist besonders geeignet für schreibende Zugriffe kompletter Entitäten. Einige moderne Datenbanksysteme kombinieren beide Ablagesysteme, um für eine gegebene Arbeitslast die optimale Datenorganisation zu ermöglichen.

In-Memory Data Management

Beim In-Memory Data Management werden sämtliche Daten komprimiert und optimiert im Hauptspeicher einer oder mehrerer Server bereit gehalten. Alle Anfragen können somit direkt aus dem schnellen Hauptspeicher beantwortet werden.

Der Fokus liegt beim In-Memory Data Management auf der Optimierung des physischen Datenlayouts, welches hinsichtlich des tatsächlichen vorkommenden Zugriffsmusters angepasst wird. Diese Muster werden in der Regel durch gegebene transaktionale oder analytische Workloads vorab definiert. Um einen effizienten Zugriff sicherzustellen, muss die verfügbare Speicherbandbreite möglichst vollständig ausgenutzt werden und Daten sequentiell gelesen werden. Diese Anforderung ist analog zu festplattenbasierten Datenbanksystemen, da diese ebenfalls profitieren, wenn ganze Blöcke gelesen und komplett genutzt werden können, jedoch gelten andere Parameter, die dazu führen, dass andere Algorithmen und Datenstrukturen zum Einsatz kommen.

Anwendungsgebiete beim Enterprise Computing

Im Kontext von Unternehmensanwendungen hat die Datenhaltung der IT-Systeme einen großen Einfluss auf die Geschwindigkeit, mit der Unternehmensdaten verarbeitet werden können.

In-Memory Data Management ermöglicht eine neue Klasse von Anwendungen, die analytische Anfragen auf aktuellsten transaktionalen Daten ausführen können, ohne diese vorher durch einen Extract, Transform, Load (ETL)-Prozess in ein spezielles Analyseformat übertragen zu müssen. Dadurch, dass Daten nicht länger voraggregiert gespeichert werden, lassen sich Anwendungen erstellen, welche die Daten weitaus flexibler verarbeiten können.

Neue Anwendungsgebiete, wie die Auswertung von RFID-Sensordaten, Customer-Sentiment Analysen sowie operationales Reporting werden dadurch möglich.

Beispiel für operationales Reporting

Ein Beispiel, anhand dessen der Vorteil des IMDM für die Betriebsplanung gezeigt werden kann, ist der Available-to-Promise-Check (ATP), bei dem geprüft wird, ob einem Kunden eine Bestellung zugesichert werden kann. Dazu müssen Lagerbestände, Produktionsplanung, Lieferanten sowie andere Bestellungen berücksichtigt werden, was einen hohen Berechnungsaufwand auf dem gesamten Datenbestand bedeutet. Festplattenbasierte Datenbanksysteme kommen dort schnell an ihre Grenzen, da der Zugriff auf großen Datenmenge durch den Festplattenzugriff zu langsam ist, um Antworten in Echtzeit zu liefern.

Literatur

Plattner, H.: A Course in In-Memory Data Management, Second Edition, Springer 2014, ISBN: 978-3-642-55270-0

Hier weiterverbreiten

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

In-Memory Data Management

Zusammenfassung

Historie

Entwicklung der Computertechnik

Zeilen- und Spaltenorientierte Datenorganisation

In-Memory Data Management

Anwendungsgebiete beim Enterprise Computing

Beispiel für operationales Reporting

Literatur

Schreibe einen Kommentar Antworten abbrechen

Arbeitsschwerpunkte

Besucheradresse

Kommunikation

Zusammenfassung

Historie

Entwicklung der Computertechnik

Zeilen- und Spaltenorientierte Datenorganisation

In-Memory Data Management

Anwendungsgebiete beim Enterprise Computing

Beispiel für operationales Reporting

Literatur

Schreibe einen Kommentar Antworten abbrechen

Arbeitsschwerpunkte

Besucheradresse

Kommunikation

Cookies