See-, Lager- und Datamart

Betrachten wir drei Arten der Cloud-Datenspeicherung, ihre Unterschiede und Anwendungen.







Datensee



Ein Datensee ist ein großes Repository von Rohdaten, sowohl unstrukturiert als auch halbstrukturiert. Daten werden aus verschiedenen Quellen gesammelt und einfach gespeichert. Sie werden nicht für einen bestimmten Zweck geändert und nicht in ein Format konvertiert. Die Analyse dieser Daten erfordert eine lange Vorbereitung, Reinigung und Formatierung, um sie homogen zu machen. Datenseen sind eine hervorragende Ressource für Stadtverwaltungen und andere Organisationen, die Informationen zu Infrastrukturstörungen, Verkehr, Kriminalität oder demografischen Daten speichern. Die Daten können später verwendet werden, um Budgetänderungen vorzunehmen oder Ressourcen zu überarbeiten, die Versorgungsunternehmen oder Rettungsdiensten zugewiesen sind.



Datenspeicher



Ein Data Warehouse besteht aus Daten, die aus verschiedenen Quellen in einem einzigen zentralen Repository zusammengefasst sind, das sie in Bezug auf Qualität und Format vereinheitlicht. Datenwissenschaftler können Daten aus der Speicherung in Bereichen wie Data Mining , künstliche Intelligenz (KI) und maschinelles Lernen nutzenund natürlich in Business Intelligence. Data Warehouses können in Großstädten verwendet werden, um Informationen über elektronische Transaktionen aus verschiedenen Abteilungen zu sammeln, einschließlich Daten zu Schnellfahrkarten, Verbrauchsteuern und mehr. Data Warehouses können auch von Entwicklern verwendet werden, um Terabytes an Daten zu sammeln, die von Automobilsensoren generiert werden. Dies wird ihnen helfen, die richtigen Entscheidungen zu treffen, wenn sie Technologien für autonomes Fahren entwickeln.



Datenschau



Ein Data Mart ist ein Data Warehouse, das für einen bestimmten Benutzerkreis in einem Unternehmen oder seiner Abteilung konzipiert ist. Der Data Mart kann von der Marketingabteilung eines produzierenden Unternehmens verwendet werden, um Zielgruppen bei der Entwicklung von Marketingplänen zu identifizieren. Es kann auch von der Fertigungsabteilung verwendet werden, um die Leistung und die Fehlerraten zu analysieren und Bedingungen für eine kontinuierliche Prozessverbesserung zu schaffen. Die Datensätze in einem Data Mart werden häufig in Echtzeit für Analysen und umsetzbare Ergebnisse verwendet.



See, Lager und Data Mart: Hauptunterschiede



Alle genannten Repositorys werden zum Speichern von Daten verwendet, es gibt jedoch erhebliche Unterschiede zwischen ihnen. Beispielsweise sind ein Data Warehouse und ein Data Lake große Repositorys, aber ein Lake ist in Bezug auf Implementierungs- und Wartungskosten normalerweise kostengünstiger, da er meist unstrukturierte Daten speichert. 



Die Data Lake-Architektur hat sich in den letzten Jahren weiterentwickelt und kann nun mehr Daten- und Cloud-Computing unterstützen. Große Datenmengen fließen von verschiedenen Quellen in ein zentrales Repository. 



Ein Data Warehouse kann auf drei Arten organisiert werden:



  1. Als Managed Service von Cloud-Anbietern.
  2. , .
  3. , , .


Daten in einem Lager sind für andere Zwecke einfacher zu verwenden als Daten in einem See. Dies liegt daran, dass die Daten im Lager strukturiert und einfacher abzurufen und zu analysieren sind.



Ein Datamart enthält im Vergleich zu einem Lagerhaus und einem See eine kleine Datenmenge, die für die Verwendung durch eine bestimmte Personengruppe oder eine Abteilung eines Unternehmens kategorisiert ist. Ein Datamart kann durch verschiedene Schemata (Sterne, Schneeflocken oder Gewölbe) dargestellt werden, die durch eine logische Datenstruktur definiert sind. Das Datentresorformat ist das flexibelste, vielseitigste und skalierbarste.



Es gibt drei Arten von Data Marts:



  1. Ein abhängiger Data Mart, der aus Teilen eines Enterprise Data Warehouse besteht. Es enthält Primärdatensätze für das Lager.
  2. , , .
  3. , . .


Die Wahl des Typs und der Struktur des Datenrepositorys hängt weitgehend von den Bedürfnissen und Anforderungen des Unternehmens ab. Wenn es Ihnen wichtig ist, nutzen Sie den flexiblen und skalierbaren Hybrid-Cloud- Speicher sowie einen umfassenderen und fundierteren Ansatz zur Problemlösung und Entscheidungsfindung.



IBM bietet eine Vielzahl von Cloud-Speicher- und Data-Mining-Lösungen an. Tanmay Sinha Programmdirektor, Db2 Portfolio Blog Link


























All Articles