Wie wir Data-Office erstellt haben





Hallo, ich bin Ildar Raimanov und ich bin der Abteilungsleiter der BARS Group, die für die Entwicklung von BI-Lösungen im Unternehmen verantwortlich ist. Wir verfügen über umfassende Erfahrung in der Arbeit mit Daten und verfügen über Branchenkenntnisse. Wir haben uns entschlossen, ein Kompetenzzentrum zu bilden, das es uns ermöglicht, große Datenmengen zu verarbeiten und einen Service für die Wissensbildung für bestimmte Themenanfragen von Kunden bereitzustellen.



Datenbüroumfasst mehrere Komponenten gleichzeitig - dies ist ein gut entwickelter Speicher, der sowohl einen "Big Data Lake" als auch vorbereitete Marts, Prozesse zum Füllen von Daten aus Quellsystemen und Mechanismen zur Überprüfung der Datenqualität umfasst; Ein Team von Methodologen, die verstehen, worüber diese oder jene Zahlen je nach Branchenspezifikation sprechen, und natürlich eine Reihe verschiedener Softwaretools, von denen das wichtigste die von der BARS Group entwickelte Alpha BI Business Intelligence-Plattform ist .



Um die Informationen noch verständlicher zu machen, werde ich versuchen, die im Text hervorgehobenen Schlüsselbegriffe in einfacher Sprache zu enthüllen.



Wenn wir detaillierter über Ansätze und Schritte sprechen, haben wir im Rahmen von Data-Office die folgende Reihenfolge definiert:



1. Analyse des Themenbereichs - hervorgehoben Das Methodenteam , das den Themenbereich, die Hauptentitäten, beschreibt, erstellt ein logisches Datenmodell für den Hauptspeicher .



Wer sind Methodologen ? Dies sind im Wesentlichen Branchenexperten, die die Essenz von Daten verstehen. Wenn wir zum Beispiel über Finanzen sprechen, können dies Buchhalter und Finanziers sein, aber wenn wir über Medizin sprechen, dann sind dies Ärzte und andere qualifizierte medizinische Mitarbeiter. Es ist ihr Verständnis, das es Ihnen ermöglicht, ein logisches Datenmodell zu erstellennämlich eine Reihe von Entitäten, die zusammen mit Beziehungen analysiert werden - welche Beziehung welche Entität in Bezug auf eine andere haben kann.



2. Basierend auf dem logischen Datenmodell wird ein normalisiertes physikalisches Modell erstellt , Datenarchitekten werden verbunden . Hier werden natürlich IT-Spezialisten benötigt, da diese eine Reihe von Entitäten in Tabellen übersetzen, die erforderlichen Fremdschlüssel, Attribute und Indizes erstellen - das heißt, sie erstellen lediglich das sogenannte physikalische Modell .



3. Ein Datenflussmodell wird ausgearbeitet, Quellen und Integrationsoptionen werden festgelegt. Ein Datenflussmodell ist ein Satz übertragener Daten mit den beschriebenen Regeln: von wo und wohin, unter welchen Bedingungen, mit welcher Häufigkeit.



4. Da es sich in der Regel um eine große Datenmenge handelt, werden die Daten aus den Quellen zunächst im Ist-Format in den Datenpuffer - die erste Schicht der Rohdaten - übertragen . Hier besteht das Ziel darin, die Zeit zum Laden von Daten zu verkürzen, und das Ziel besteht darin, einen Satz von Primärdaten zu haben, um die Fähigkeit zu bewahren, die Analysekette bei Bedarf auf den allerersten Wert abzuwickeln.



5. Die Probleme der Datentransformation vom Puffer in den normalisierten Speicher der zweiten Schicht sowie die Häufigkeit der Aktualisierung und Speicherung von Informationen im Puffer werden ausgearbeitet. Das Problem der inkrementellen Aktualisierung wird sofort behoben. Datenqualitätsprobleme , -methoden und -werkzeuge werden ebenfalls ausgearbeitet . Unter DatenqualitätDie Entsprechung von Informationen mit dem erforderlichen logischen Inhalt ist impliziert. Alles beginnt mit einfachen formatlogischen Steuerungsvalidierungen und endet mit komplexeren methodischen Mustern.



6. Methodologen analysieren Verbraucherfälle und auf dieser Grundlage werden mögliche Data Marts beschrieben , dh speziell vorbereitete Datensätze, die bei der Beantwortung bestimmter Fragen helfen sollen.

Das BI-Entwicklungsteam bildet bereits direkt eine Reihe von Data Marts, bei denen es sich um ein analytisches Data Warehouse handelt - die dritte Schicht.



7. Es ist zu beachten, dass parallel an der Erstellung des Datenglossars gearbeitet wird(eine detaillierte methodologische Beschreibung) und ständige Aktualisierung der Beziehung zwischen den Entitäten des Repositorys mit dieser detailliertesten methodischen Beschreibung.



8. Die Toolbox während des obigen Vorgangs kann je nach Anwendung unterschiedlich sein. Hauptsächlich wird die Alpha BI Business Intelligence-Plattform verwendet, auf deren Grundlage Speicherschichten auf PostgreSQL- und ETL-Aufgaben aufgebaut werden, die über die Plattform selbst gelöst werden.



9. Die direkte Arbeit mit vorbereiteten Vitrinen erfolgt ebenfalls über Alpha BI. Erhalten der Notwendigkeit des Wissenserwerbs - Zunächst analysiert das Methodenteam die Aufgabe und legt sie dem vorhandenen logischen Modell auf, dann dem Team der BI-EntwicklerNachdem eine themenorientierte Einstellung erhalten wurde, werden die erforderlichen Auswahlen, OLAP-Cubes, Dashboards und Berichte auf der Grundlage von Vitrinen implementiert. Es kommt vor, dass das Schaufenster etwas verändert wird oder ein neues erstellt wird, wenn die Situation dies erfordert.



Wenn wir über Tools und Big Data sprechen, können wir die Erfahrung der Arbeit mit den modischen „BigData in der Küche“ seit mehreren Jahren, Hadoop , nicht übersehen - eine Ebene zum Speichern großer Mengen historischer Rohdaten.


Aus technischer Sicht interagiert Alpha BI mit Hadoop über eine Schicht, die auf der Basis des massiv parallelen analytischen DBMS Greenplum unter Verwendung des PXF-Protokolls (Platform Extension Framework) erstellt wurde.



In ähnlicher Weise wird mit Greenplum die Möglichkeit der Online-Analyse und der Arbeit mit heißen Daten implementiert, die beispielsweise alle 10 Sekunden aktualisiert wird. Bei heißen Daten wird die Interaktion über Greenplum mit der speicherinternen Apache Ignite-Datenbank auch unter Verwendung des PXF-Protokolls erstellt.



Am Ende des Tages werden Daten aus der Ignite-Tabelle an HDFS übertragen und aus Ignite entfernt.



Zusammenfassend möchte ich noch einmal zusammenfassen - die Daten sollten funktionieren und nützlich sein. Um ihnen so viel Wissen wie möglich zu entlocken, sollten alle oben genannten Aspekte berücksichtigt werden: sich kompetent dem Aufbau eines Speichers zu nähern, die optimalen Datenflüsse zu bestimmen, den Themenbereich "Zahlen" zu verstehen, ein Werkzeug für die Aufgabe auszuwählen.



Gleichzeitig lohnt es sich natürlich, der Bildung des Teams und seiner Aufteilung in verschiedene Arten von Aufgaben, in denen jeweils gleichgesinnte Fachkräfte arbeiten sollten, besondere Aufmerksamkeit zu widmen.



Und dann werden Ihre Daten mit ihren Millionen und Milliarden Zeilen und Terabyte Speicher wirklich funktionieren, Wissen vermitteln und daher nützlich sein!



Gerne beantworte ich Ihre Fragen in den Kommentaren!)



All Articles