Ein weiterer, vielleicht höchst merkwĂŒrdiger Fehler war der Fehler in der GroĂbestellung der SNCF der französischen Eisenbahn fĂŒr zweitausend ZĂŒge im Jahr 2014. Das Team, das die technischen Anforderungen formulierte, maĂ persönlich die Abmessungen der SchĂŒrzen an mehreren Dutzend Stationen. Um den Komfort zu erhöhen, setzen sie die Breite der Kompositionen RĂŒcken an RĂŒcken auf das Maximum. Sie fĂŒhrten Messungen in der NĂ€he von Paris durch - und dass in den Regionen vieler Stationen die Vorfelder nĂ€her an den Gleisen liegen, erfuhren sie bereits wĂ€hrend der Tests. Der Preis fĂŒr einen Fehler ist die Modernisierung der gesamten Infrastruktur fĂŒr Hunderte Millionen Euro. Sie wĂ€ren dort MDM mit den Eigenschaften der Stationen ...
Darauf folgt eine groĂe Anzahl von Umtausch- und Bankfehlern, wenn falsche Angaben in den Details, in Zahlen und im Wert der platzierten Aktien zu Verlusten in Milliardenhöhe oder sogar zum Konkurs fĂŒhrten.
Dieser Artikel setzt den Artikel " Stammdaten und Integration " fort - und behandelt ausfĂŒhrlicher das Thema der QualitĂ€tskontrolle von Daten, vor allem - Stammdaten. Der Artikel ist von besonderem Interesse fĂŒr IT-Manager, Architekten, Integratoren sowie alle, die in relativ groĂen Unternehmen arbeiten.
Inhalt
1. Wörterbuch, Arten von GeschÀftsdaten: Stammdaten, behördliche Referenzinformationen, Betriebsdaten.
2. Kurz darĂŒber, was Fehler sind.
3. Architektur von DQS-Lösungen.
4. Technische und nichttechnische Methoden zum Umgang mit Fehlern:
4.1. NSI.
4.2. Stammdaten.
4.3. Betriebssystem.
5. Was tun, wenn keiner der oben genannten Punkte geholfen hat? Implementieren Sie DQS.
6. Und wie kann man Verantwortung teilen?
Wenn Sie bereits mit der Terminologie und den Problemen vertraut sind, fahren Sie direkt mit Teil 3 der DQS-Architektur fort.
1. Wörterbuch, Arten von GeschÀftsdaten
Seit einigen Jahrzehnten ĂŒberzeugen uns IT-Evangelisten davon, dass Daten das neue Ăl sind. Dass jedes Unternehmen zunehmend von den Informationen abhĂ€ngig ist, die es besitzt. Analytik- und Datenabteilungen erscheinen nicht nur in IT-Unternehmen, sondern auch in Industrie- und Industriebereichen so weit wie möglich von der "Zahl" entfernt.
Viele Menschen haben sich bereits ĂŒber das Beispiel geĂ€rgert, wie General Electric und Boeing "digitale" Tochtergesellschaften grĂŒnden und mit der enormen Menge an Informationen verdienen, die von den EigentĂŒmern ihrer AusrĂŒstung - Flugzeugen, Turbinen, Kraftwerken - gesammelt wurden. Diese Daten ermöglichen es ihnen, die ZuverlĂ€ssigkeit von GerĂ€ten zu erhöhen, mögliche AusfĂ€lle vorherzusagen, potenzielle SchĂ€den erheblich zu sparen und schlieĂlich einfach das Leben von Menschen zu retten!
Daten werden immer mehr und ihre Akkumulation hĂ€ngt nichtlinear vom GeschĂ€ftswachstum ab. Das Wachstum ĂŒbertrifft das Wachstum. Jedes wachsende Unternehmen in einem bestimmten Stadium seiner Entwicklung (ungefĂ€hr auf Stufe 6-7 auf der Skala des vorherigen Artikels ) hat Probleme mit falschen Daten, und es gibt immer mehrere FĂ€lle, in denen sich die Kosten fĂŒr diese Fehler als recht hoch herausstellen.
Das traditionelle Bild des Datenwachstums ist fast immer exponentiell.
Im GeschĂ€ftsverlauf sind drei Arten von Daten fĂŒr das Unternehmen von besonderer Bedeutung:
- - â , , . , ( : , , ), , , ..;
- - () â -, . , : () , , , ;
- Betriebsdaten (auch Transaktionsdaten genannt) - die Tatsache, dass ein bestimmtes Produkt an einen bestimmten Kunden verkauft wird, Rechnungen und Handlungen, Kurse, KurierauftrÀge und Taxifahrten - je nachdem, was Ihr Unternehmen tut.
Wenn NSI mit einem unterstĂŒtzenden Skelett verglichen werden kann, Stammdaten mit Venen und Arterien, dann ist das Betriebssystem das Blut, das durch diese Venen flieĂt.
Die Unterscheidung der Arten von GeschÀftsdaten ist notwendig, da jeder seinen eigenen Ansatz zur Bearbeitung von Fehlern hat.
2. Kurz darĂŒber, was Fehler sind
Fehler sind unvermeidlich, sie treten immer und ĂŒberall auf und spiegeln anscheinend die chaotische Natur des Universums selbst wider. Sie können sie fĂŒr etwas Schlechtes halten, sich ĂŒber sie aufregen, aber denken Sie darĂŒber nach: Fehler sind das HerzstĂŒck der Evolution! Ja, jede nĂ€chste Art ist die vorherige mit mehreren zufĂ€lligen DNA-Fehlern. Nur die Folgen dieser Fehler erwiesen sich unter bestimmten Bedingungen als nĂŒtzlich.
Die wichtigsten Arten von Fehlern, unter denen ein Unternehmen leidet:
- menschlicher Faktor. Tippfehler aller Art, verwirrte Felder und verlegte Informationen. Vergessene oder versehentlich verpasste Aktionen und Schritte bei der Eingabe (Sie haben auch 50 Felder auf Ihrer Kundenkarte?) Statisch gesehen ist dies die wahrscheinlichste Art von Fehlern, sodass sich die HĂ€ufigkeit und Auswirkung dieser Fehler als die gröĂten herausstellen kann. GlĂŒcklicherweise wurde die gröĂte Anzahl von Methoden erfunden, um sie zu bekĂ€mpfen.
- . , , . , â , . , , . ⊠, , ? , , , CRM : ! !
- absichtliche Fehler. Der Mitarbeiter hat absichtlich mehrere Millionen auf sich ĂŒbertragen - und ist verschwunden. Dies ist natĂŒrlich ein extremes Beispiel, ein Verbrechen, aber es gibt viele Schritte auf dem Weg dorthin. Beispielsweise wird einem der Kunden in CRM ein unverdient hoher Rabatt zugewiesen, oder die Kosten des Artikels werden unter dem Selbstkostenpreis festgelegt.
Und wenn der dritte Gegenstand des Informationssicherheitsdienstes ist, hat er seine eigenen Methoden, dann werden wir inhaltlich mit dem menschlichen Faktor und der UnvollstÀndigkeit arbeiten.
3. Architektur von DQS-Lösungen
DQM - DatenqualitÀtsmanagement, DatenqualitÀtsmanagement.
DQS - DatenqualitÀtssystem, DatenqualitÀtsmanagementsystem.
Bevor ich direkt ĂŒber DatenqualitĂ€tsmanagementsysteme spreche (DQS ist weniger eine spezifische Software als vielmehr ein Ansatz fĂŒr die Arbeit mit Daten), werde ich die IT-Architektur beschreiben.
Normalerweise ist die IT-Landschaft zu dem Zeitpunkt, zu dem das Problem des DatenqualitÀtsmanagements auftritt, wie folgt:
(Diagramm aus dem vorherigen Artikel)
Wenn MDM ein System zur Verwaltung von Stammdaten und Vorschriften ist und ESB ein einzelner Unternehmensdatenbus ist. Eine hĂ€ufige Situation ist, wenn nicht alle Daten- und InformationsflĂŒsse zwischen Systemen noch in eine gemeinsame Schleife eingebunden sind und einige Systeme direkt miteinander kommunizieren - dies muss ausgearbeitet werden, andernfalls ist eine Reihe von Prozessen ein "blinder Fleck". fĂŒr DQS.
Traditionell wird DQS in der ersten Phase mit dem MDM-System verbunden, da das QualitÀtsmanagement der Stammdaten eine höhere PrioritÀt als das Betriebssystem hat. In Zukunft wird es jedoch als eine der Phasen des Prozesses in den gemeinsamen Datenbus aufgenommen oder prÀsentiert seine "Dienste" im API-Format. In konkreten Zahlen gibt es einen etwa zehnfachen Unterschied in der Datenmenge zwischen dem ersten und dem zweiten Schema oder einer Ebene auf der Skala des vorherigen Artikels.
4. Technische und nichttechnische Methoden zum Umgang mit Fehlern.
Der nĂ€chste Satz enthĂ€lt den traurigsten Gedanken dieses Artikels. Es gibt keine Silberkugel. Es gibt keine solche SchaltflĂ€che oder kein solches System, und die Fehler verschwinden. Im Allgemeinen gibt es keine einfache und eindeutige Lösung fĂŒr dieses komplexe Problem. Was fĂŒr eine Ansicht oder einen Datensatz gut funktioniert, ist fĂŒr eine andere nutzlos.
Die gute Nachricht ist jedoch, dass die in diesem Artikel beschriebenen technischen und organisatorischen Methoden die Fehler drastisch reduzieren. Unternehmen, die den DQM-Ansatz implementieren, reduzieren die Anzahl der erkannten Fehler um das 50- bis 500-fache. Die spezifische Zahl ist das Ergebnis eines angemessenen Gleichgewichts zwischen Effekt, Kosten und Verwendbarkeit.
4.1. Referenzinformationen.
Bei normativen und Referenzinformationen (in der Tat Zustandsklassifikatoren) gibt es eine maximal kategorische Lösung, die universell ist: Sie mĂŒssen die normativen Dokumente nicht selbst pflegen! Niemals unter keinen UmstĂ€nden!
Der Standard muss immer und ausschlieĂlich aus externen Quellen geladen werden. Ihre Hauptaufgabe besteht darin, ein solches Laden zu implementieren und eine BetriebsĂŒberwachung im Falle von Fehlern einzurichten.
#1. . : ( ), ( ), ( ).
, , ( - ) . , â ( ).
, : . - , . , . , , ⊠.
( â ), (), (), (), , ( ) â API , .
Aufgrund dieser MaĂnahmen sollte niemand in Ihrem Unternehmen jemals daran denken, beispielsweise den Dollar / Rubel-Wechselkurs fĂŒr gestern manuell einzugeben. Nur eine Auswahl von LeitfĂ€den, die aus offiziellen Quellen heruntergeladen wurden.
Der kategorische Charakter dieses Punktes beruht auf der Tatsache, dass durch seine Implementierung fast alle Fehler in der Norm beseitigt werden. Und wenn Fehler in den Stammdaten nicht vollstĂ€ndig ĂŒberwunden werden können, ist es im NSI auf diese Weise möglich, die Anzahl der Fehler auf ein oder zwei pro Jahr zu reduzieren - und dies sind nicht mehr Ihre Fehler, sondern Fehler in den Statusdaten.
4.2. Stammdaten
Die Hauptstrategie fĂŒr Stammdaten mag paradox klingen: Machen Sie sie normativ!
#2. â , ( 5-6 â , ).
MDM, : , . â .
, . . . (, , ) â (). â . -, (, -). , , .
, . , .
#3. , . , , . , , .
- . ? â . . : . , .
Eine natĂŒrliche Fortsetzung dieser Geschichte wird ein elektronischer Fluss von Personaldokumenten sein - ein elektronisches Arbeitsbuch, ein elektronischer Krankenstand usw., wodurch die Arbeitskosten fĂŒr die Personalbeamten erheblich gespart werden. In der Grenze ermöglicht dies einem Personalreferenten, nicht 200-300 Mitarbeiter, sondern 1000+ zu bedienen.
AuĂerdem erhalten alle Mitarbeiter automatisch elektronische SignaturschlĂŒssel - und können diese sowohl in internen GeschĂ€ftsprozessen als auch im Dokumentenmanagement mit Kunden verwenden.
Informationen zu Schulden, Verurteilungen usw. in offener Form ĂŒber API gem. Die Integration mit staatlichen Diensten ist Ă€uĂerst einfach und ermöglicht es Ihrem Unternehmen, eine groĂe Anzahl von Risiken gleichzeitig zu schlieĂen.
4.3. Betriebssystem
Hier gibt es bereits weitere AnsÀtze. Die erste Àhnelt der vorherigen - um externe Informationsquellen zu verbinden.
#4. â , â , â â . - ? .
. . , â , . , , .. .
â -. , . ( , !)
(, ).
, - - ? ( , ) â . , -, , .
#5. : , .
â , , -, ( , ). -, API , . â , . .. , .
Ja, nicht in allen Prozessen können die erforderlichen Informationsquellen schnell gefunden werden. Suche und Analyse sind erforderlich. Es kann sich auch herausstellen, dass die Quellen bezahlt werden, und dann werden die Vor- und Nachteile abgewogen, aber der Ansatz funktioniert und wurde in der Praxis wiederholt getestet.
Informationen (Daten) sind ein neues Ăl, und alle Staaten bemĂŒhen sich, die gröĂtmögliche Menge an Informationen ĂŒber ihre Themen, einschlieĂlich des GeschĂ€fts, ĂŒber alle Prozesse, an denen sie beteiligt sind, zu erhalten.
Es fĂ€llt uns sogar schwer, uns vorzustellen, welche Informationen der Staat sammelt. Ich kann nur sagen, dass zum Zeitpunkt dieses Schreibens etwa 20.000 DatensĂ€tze auf dem russischen offenen Datenportal prĂ€sentiert werden. Und Russland steht erst am Anfang dieses Weges. Auf einem Ă€hnlichen Portal der EuropĂ€ischen Union stehen mehr als eine Million offene DatensĂ€tze zur VerfĂŒgung!
www.europeandataportal.eu/en
- Wo ist DQS hier, - wird ein aufmerksamer Leser fragen?
Und sie hatte noch nichts an sich.
All dies sind in der Tat Standardwerkzeuge und -methoden zum Organisieren von GeschÀftsprozessen mit einer minimalen Anzahl von Fehlern.
5. Was tun, wenn keiner der oben genannten Punkte geholfen hat? Implementieren Sie DQS
Sun Tzu lehrt, dass der beste Kampf der gemiedene ist.
Ăhnlich verhĂ€lt es sich mit der Implementierung von DQS.
Ihre Aufgabe ist es, die Umwandlung von Stammdaten und sogar Betriebssystemen in Referenzdaten zu maximieren. In einigen Branchen, insbesondere im Dienstleistungssektor, ist dies fast zu 100% möglich. Vor allem im Bankensektor ist der Automatisierungsgrad der GeschÀftsprozesse daher viel höher als bei vielen anderen.
Wenn der Kampf jedoch nicht vermieden werden kann, mĂŒssen Sie sich so gut wie möglich darauf vorbereiten.
Auf welcher Ebene der Unternehmensentwicklung sollte DQS eingefĂŒhrt werden? Als DQM-Prozess - um 4-5 (frĂŒher als MDM-Systeme!), Als organisatorisch dedizierte Funktion - um 7-8.
5.1. DQM als Prozess
Wenn Ihr Unternehmen ĂŒber ein Buchhaltungs- oder Personalsystem verfĂŒgt, verfĂŒgen Sie in irgendeiner Form ĂŒber einen DQM-Prozess. Alle diese Systeme verfĂŒgen ĂŒber integrierte Regeln fĂŒr Eingabedaten. Zum Beispiel das obligatorische und strenge Format des Geburtsdatums fĂŒr den Arbeitnehmer, der obligatorische Name fĂŒr die Gegenparteien.
In dieser Phase besteht Ihre Aufgabe darin, den DQM-Prozess zu erstellen. Er ist der nÀchste:
- ĂŒberlege dir eine Regel;
- Testen Sie die Regel auf Anwendbarkeit und Angemessenheit und testen Sie sie an FĂ€llen.
- Vorschriften fĂŒr die Anwendung der Regel entwickeln, mit Benutzern kommunizieren, begrĂŒnden;
- in die Produktion umsetzen;
- Ăberwachen Sie Versuche, die Regel zu umgehen.
Wenn Sie es geschafft haben, MDM im Unternehmen zu implementieren, sollten Ihnen die Punkte ab dem zweiten keine besonderen Schwierigkeiten bereiten. Dies ist die derzeitige systematische Arbeit.
Die gröĂten Schwierigkeiten ergeben sich in diesem Fall bei der Ausarbeitung neuer Regeln.
5.2. Regeln
Wenn fĂŒr eine EntitĂ€t wie einen vollstĂ€ndigen Namen Ihre Vorstellungskraft auf den obligatorischen Vor- und Nachnamen und fĂŒr ein Datum beschrĂ€nkt ist - um nach ânicht mehr als hundert Jahrenâ zu suchen, lassen Sie sich nicht entmutigen!
Es gibt eine groĂartige Technik, um neue Regeln zu entwickeln, um die unvorstellbarsten Daten zu testen. Um es zu beherrschen, mĂŒssen Sie nicht sieben Zoll in der Stirn sein - und wie die Praxis zeigt, kann jedes unerfahrene System oder jeder GeschĂ€ftsanalyst, selbst Bediener, die Stammdaten eingeben, es beherrschen.
TatsĂ€chlich handelt es sich hierbei um ein Schritt-fĂŒr-Schritt-Skript, das an der Eingabe die Definition Ihrer Daten und an der Ausgabe eine Reihe von Regeln fĂŒr alle Gelegenheiten enthĂ€lt. Die als Taxonomie schmutziger Daten bekannte Technik wurde im frĂŒhen 21. Jahrhundert von einer Gruppe europĂ€ischer Datenwissenschaftler entwickelt.
Das Wesentliche des Ansatzes sowie praktische Beispiele finden Sie in ihrem Systemartikel, der glĂŒcklicherweise bereits in der Ăbersetzung hier auf HabrĂ© veröffentlicht wurde - habr.com/ru/post/548164
Wenn das Problem der DatenqualitĂ€t fĂŒr Sie keine leere Phrase ist , dann, nach einer nachdenklichen LektĂŒre des Artikels, befinden Sie sich in einem Zustand, der dem Erreichen des Nirvana nahe kommt :)
Beispiel 6 . Starkes Tippen. Wenn in der Referenz der Datentyp "Datum" verwendet wird, sollte die Struktur des Datums so explizit wie möglich sein. Wenn Sie zwei Sekunden fĂŒr Bediener sparen und eine Vorlage wie "__.__.__" mit dem Hinweis "Tag, Monat, Jahr" erstellt haben, stellen Sie sicher, dass am ersten Tag die DatensĂ€tze "18.04.21", " 21.04.18 âundâ 04.18.21 â.
Eine gute Möglichkeit, ein Datum einzugeben, sind drei Felder mit einer expliziten Bezeichnung (Tag, Monat, Jahr) und ein schneller Sprung, wenn Sie zwei Zahlen in jedes der Felder eingeben. Wenn Sie jemals mit einer Karte im Internet fĂŒr etwas bezahlt haben, werden Sie verstehen.
Beispiel # 7 . Verbotene Zeichen in der gröĂtmöglichen Liste von Feldern, WörterbuchprĂŒfungen. Wenn es sich beispielsweise um Bildung (Position) handelt und die Klassifizierer von Fachgebieten nicht geholfen haben, können Benutzer dem Benutzer Daten in das Textfeld eingeben, auch wenn dort Punkte, AnfĂŒhrungszeichen und freistehende Bindestriche verboten sind ( die Liste ist nicht vollstĂ€ndig). Ein Beispiel fĂŒr Informationen, deren QualitĂ€t zunimmt: "Doktor der Technischen Wissenschaften", "Doktor der Technischen Wissenschaften", "DTN", "Dr. Wissenschaften âusw.
#8. (NULL) â . , / , / â , . â â â.
, , . , ââ, ââ, ââ, ââ ( .) , , . (â â, â, â) (â â, â-â, â â). â . , , ââ ââ â , â . ââ, âââŠ
, , . , , , .
6. DQS?
In Fragen des Managements und der Verantwortung gibt es keine richtigen Antworten, vielmehr hĂ€ngt alles von bestimmten Teams und Einzelpersonen ab. Ein Raketeningenieur könnte ein Hauptbuchhalter sein, ein KĂŒnstler könnte ein Finanzdirektor sein und ein Grundschullehrer könnte ein Sicherheitschef sein.
Die Frage nach der Verantwortung fĂŒr den DQM-Prozess ist sogar noch allgemeiner: Wer ist fĂŒr die QualitĂ€t der Daten im Unternehmen verantwortlich? Traditionell fungieren GeschĂ€ftsbenutzer und die IT-Abteilung als Antagonisten bei der Beantwortung dieser Frage.
Unternehmen beginnen hĂ€ufig einen Dialog mit der Aussage âWir haben einen Fehler in Ihrem Meteor-Datensystem festgestelltâ.
Der IT-Service ist hingegen der Ansicht, dass seine Aufgabe darin besteht, den reibungslosen Betrieb von Systemen sicherzustellen. Welche spezifischen Daten GeschÀftsbenutzer in das System eingeben, liegt in der Verantwortung des Unternehmens.
Das Einrichten eines funktionierenden DQM-Prozesses und das AusfĂŒhren von DQS ist ein Kompromiss, der beide Parteien zufriedenstellt. Die Herausforderung fĂŒr IT und Analysten besteht darin, so viele Regeln und EinschrĂ€nkungen wie möglich fĂŒr die Dateneingabe zu entwickeln, um das Fehlerrisiko zu minimieren.
Die âGeschĂ€ftseinstellungâ wird normalerweise durch mangelnde Transparenz in DQM-Prozessen verursacht. Wenn Sie den Fehler jedoch auf eine eindeutige Demonstration des Fehlers reduzieren, wird die Position weicher. Und es kann eine Einigung erzielt werden, wenn demjenigen, der die PrimĂ€rdaten eingibt, die Konsequenzen aufgezeigt werden.
Ein erstaunliches Beispiel fĂŒr die Motivation und sogar Visualisierung der Folgen von Fehlern findet sich im Artikel habr.com/ru/post/347838 - in diesem Beispiel ist ein IT-Service mit erweiterten GeschĂ€ftsanalysekompetenzen fĂŒr den DQM-Prozess verantwortlich. DarĂŒber hinaus sind die DQM-Kompetenzen selbst nicht schwierig und können von jedem Analysten in ein paar Monaten entwickelt werden.
Ein weiteres interessantes Beispiel, da der DQM-Prozess auch das QualitĂ€tsmanagement fĂŒr GeschĂ€ftsprozesse umfasst, finden Sie im Artikel habr.com/ru/company/otus/blog/526174 .
Ergebnisse
Die allgemeinen Schlussfolgerungen aus diesem Artikel sind paradox.
Wenn Ihrem Unternehmen die Frage gestellt wurde, wer fĂŒr die QualitĂ€t der Daten verantwortlich ist, sind Sie in eine Falle geraten. Es gibt keine richtige Antwort darauf, tk. Die Frage selbst ist falsch. Wenn Sie versuchen, diesen Weg zu gehen, werden Sie schlieĂlich feststellen, dass die einzig angemessene Antwort auf diese Frage (âallesâ) Ihnen in der Praxis nichts gibt.
Der richtige Ansatz besteht darin, die Frage in zwei Blöcke aufzuteilen.
Der erste besteht darin, DQM als Prozess aufzubauen, DQS zu implementieren und Regeln zu bilden (nicht auf Ad-hoc-Basis, sondern als fortlaufender Prozess). Diese Einheit lebt dort, wo die Analysefunktionen stark sind, normalerweise in der IT, aber nicht unbedingt.
Der zweite Block - die Eingabe der PrimĂ€rdaten selbst - ist der Ort, an dem Entscheidungen ĂŒber bestimmte Daten getroffen werden, jedoch nicht zufĂ€llig, sondern auf der Grundlage aller Regeln. Die Implementierung von DQS ist daher ein wichtiger Schritt in Richtung eines datengetriebenen Unternehmens.
Ich lade Sie zur Diskussion ein!