👵🏼 ⏪ 👩🏻‍🔬 Spezifische Data Science-Aufgaben bei der Bank 🥣 👨🏾 🌊

In den letzten fünf Jahren habe ich im Büro für maschinelles Lernen (ML) einer großen Bank gearbeitet und viele Engpässe bei der Modellentwicklung und -validierung festgestellt.

In diesem Artikel wollte ich zunächst die Hauptinformationssysteme einer abstrakten Bank X betrachten, da auf der Grundlage bereits etablierter Informationssysteme die Arbeit von Datenanalysten aufgebaut wird und ML-Algorithmen für die Entscheidungsfindung geschult werden und funktionieren . Als ich anfing zu schreiben, stellte ich plötzlich fest, dass es viel interessanter ist, eine Reihe von Themen und Unteraufgaben zu diskutieren, die beim Aufbau und der Validierung der grundlegendsten Modelle der Bank, dh der Modelle des Kreditrisikos, auftreten.

Das Risikomanagement und die Berechnung des Kreditrisikos können als die Vorfahren der Datenwissenschaft in der Bank angesehen werden, da das Kreditrisikomanagement ein vorrangiges Vorrecht des Bankwesens ist. Es ist ein geschicktes Risikomanagement, das es Banken ermöglicht, dem Markt für Kredit- und Finanzbeziehungen etwas Wertvolles anzubieten. Die Idee, dass die Bank einfach die Zinsmarge zwischen den Zinsen für den Kredit und den Zinsen für die Einlage einsteckt, ist grundsätzlich falsch, obwohl ich dies manchmal von Leuten höre, die mit dem Innenleben des Bankgeschäfts nicht vertraut sind.

Zum einen übernimmt die Bank alle Risiken der Nichtrückzahlung des Kredits und zum anderen gibt sie dem Einleger Garantien für die Rückgabe der investierten Mittel. Eine Alternative zu einer Bankeinlage besteht darin, Ihr Geld ohne Rückgabegarantie direkt an den Kreditnehmer zu leihen. Die Bank wiederum kann Garantien geben, da sie einerseits ein "Sicherheitspolster" in Form von Anlagekapital hat und zunächst Verluste aus der Nichtrückzahlung von Krediten in ihre Finanzindikatoren einbezieht ("Formulare Reserven"). . Andererseits weiß die Bank, wie die Wahrscheinlichkeit zu berechnen ist, dass der Kreditnehmer das ihm gewährte Darlehen nicht zurückzahlt. Natürlich kann niemand genau vorhersagen, ob eine bestimmte Person oder ein bestimmtes Unternehmen die Schulden zurückzahlen wird, aber im Durchschnitt kann die Wahrscheinlichkeit für eine große Anzahl von Kreditnehmern geschätzt werden.

Die Bank wird nur dann finanziell stabil sein, wenn der Gewinn, den sie mit der Zinsmarge erzielt, die Verluste aus Kreditausfällen und anderen damit verbundenen Kosten der Bank abdeckt.

Etablierte Bankpraxis

Bevor wir uns mit der direkten Erörterung von Vorhersagemodellen und datenwissenschaftlichen Aufgaben befassen, wollen wir uns kurz mit den Einzelheiten der Zusammenarbeit einer Bank mit einem Kunden befassen. Eine Bank und insbesondere eine große Bank ist ein gut organisiertes System, in dem buchstäblich jeder Schritt vorgeschrieben ist. Dies gilt auch für die Interaktion mit Kreditnehmern.

Insbesondere in Bezug auf Kreditnehmer wird häufig ein Konzept wie "Standard" verwendet. Standard ist ein Status, der einem Kunden zugewiesen wird, wenn fast die vollständige Gewissheit besteht, dass der Kunde das Geld zumindest vollständig nicht an die Bank zurückgibt. Die Regeln und Verfahren, nach denen Kunden einen Standardstatus zugewiesen bekommen, werden auf der Ebene einer speziell erstellten Arbeitsgruppe ausgehandelt. Und dann sind die oben genannten Regeln in der internen Dokumentation der Vorschriften vorgeschrieben.

Wenn einem Client ein Standardstatus zugewiesen wird, wird normalerweise gesagt, dass "der Client einen Standardstatus hat". Aus Sicht der Prozesse der Bank bedeutet dies, dass bestimmte Verfahren zur Interaktion mit dem Kunden eingeleitet werden. Vielleicht wird das Problem der Insolvenz des Kreditnehmers gelöst, die Bank wird versuchen, das verpfändete Eigentum zu verkaufen, Gelder von Bürgen einzuziehen oder die Schulden des Schuldners an Sammler zu verkaufen usw.

Historisch gesehen ist es einfach so passiert, dass die erwarteten Verluste aus der Nichtrückzahlung von Krediten normalerweise in drei Komponenten unterteilt sind:

EL = PD * EAD * LGD

wobei EL - erwarteter Verlust, erwartete Verluste;

PD - Ausfallwahrscheinlichkeit, die Wahrscheinlichkeit, dass dem Kreditnehmer innerhalb des nächsten Jahres ab dem Bewertungsdatum ein Ausfallstatus zugewiesen wird;

EAD - Exposure at Default, alle Gelder, die der Kunde am Tag des "Inverzugs" an die Bank zurückgeben muss, einschließlich des ausgegebenen Betrags und der Zinsen, Geldbußen und Provisionen;

LGD - Verlust bei Ausfall, der Anteil der Gesamtschuld des Kreditnehmers an der Bank, den die Bank nicht mehr an sich selbst zurückzahlen wird. Das heißt, es ist ein Nettoverlust für die Bank;

Wenn ich mich irgendwo von pädagogischen Definitionen und Konzepten entferne, entschuldige ich mich im Voraus, da mein Hauptziel nicht darin besteht, eine korrekte Nacherzählung von Lehrbüchern zu schreiben, sondern das Wesentliche bestehender Probleme zu erfassen. Dafür ist es manchmal notwendig, "an den Fingern" zu argumentieren.

Versuchen wir nun, eine typische Aufgabe für einen Datenwissenschaftler zu formulieren. Das erste, was vorhergesagt werden kann, ist die Wahrscheinlichkeit eines PD-Ausfalls. Hier scheint alles einfach zu sein. Wir haben ein binäres Klassifizierungsproblem. Geben Sie uns die Daten mit der wahren Klassenbezeichnung und allen Faktoren und wir werden schnell ein Skript mit doppelter Kreuzvalidierung und Auswahl aller Hyperparameter zusammenstellen, das Modell mit der besten Gini-Metrik auswählen und alles wird gut. Aber aus irgendeinem Grund funktioniert dies in Wirklichkeit nicht.

Es gibt kein echtes Klassenlabel

Tatsächlich kennen wir das wahre Klassenlabel (Ziel) nicht. Theoretisch ist das Ziel eine binäre Variable, die gleich Null ist, wenn der Kreditnehmer „gesund“ ist, und gleich eins, wenn dem Kreditnehmer der Status „Standard“ zugewiesen wurde. Das Problem ist jedoch, dass die Regeln, nach denen der Standard festgelegt wird, von uns erfunden werden. Sobald die Regeln geändert wurden, funktioniert das Modell nicht mehr, selbst wenn historische Daten trainiert werden.

Wir kennen unseren Kunden nicht gut

Mit der Anhäufung der Geschichte der ausgegebenen Kredite besteht der Wunsch, komplexere Modelle zu erstellen, und dies erfordert zusätzliche Informationen über Kunden. Es stellt sich dann heraus, dass wir diese Informationen zuvor nicht benötigt haben und dementsprechend niemand sie gesammelt hat. Infolgedessen gibt es viele Lücken in den gesammelten Stichproben, was die Idee, ein "informierteres Modell" zu erstellen, zunichte macht. Und wenn nur das.

Die Anwesenheit einer großen Anzahl von Kunden ist verlockend, sie in Segmente aufzuteilen, in denen "engere" und gleichzeitig genauere Modelle erstellt werden können. Die Aufteilung in Segmente erfolgt jedoch auch nach einer bestimmten Regel, die auf denselben Kundendaten basiert. Und was haben wir? Und wir haben Lücken in den Daten, und dementsprechend können wir nicht immer verstehen, welchem Segment ein bestimmter Kunde zugeordnet werden soll.

Der Regler muss Modelle interpretierbar machen

Mit „Regulierungsbehörde“ meine ich die Zentralbank, für die Modelle verständlich sein müssen. Es sollte nicht nur die Prognose selbst klar sein, sondern auch die Regeln, nach denen diese Prognose erstellt wurde. Um fair zu sein, werde ich sagen, dass diese Regel in größerem Umfang nur für die sogenannten "regulatorischen" Modelle gilt. Um die Stabilität des Bankensystems insgesamt zu gewährleisten, überwacht die Regulierungsbehörde die Aktivitäten der Banken ständig anhand einer Reihe von Schlüsselindikatoren, darunter beispielsweise die Berechnung der Kapitaladäquanz zur Deckung unvorhergesehener Verluste während möglicher wirtschaftlicher und wirtschaftlicher Probleme Finanzkrisen.

Was bedeutet das Erfordernis der Interpretierbarkeit? Dies bedeutet, dass Sie in den meisten Fällen mit Modellen in Form einer logistischen Regression oder eines Entscheidungsbaums zufrieden sein müssen. Sie müssen neuronale Netze, Ensembles, Stapel und andere "moderne" Architekten vergessen.

Procrustean Bett der etablierten Bankpraxis

Der De-facto-Industriestandard verlangt, dass der erwartete Verlust als Produkt aus drei Werten geschätzt wird: PD, EAD und LGD. Dies gilt nur, wenn sich Ereignisse nach demselben Szenario entwickeln. Der Kunde gibt das Darlehen entweder zurück oder nicht. Im ersten Fall wird davon ausgegangen, dass keine Verluste vorliegen. Im zweiten Fall wird davon ausgegangen, dass ein bestimmter Risikobetrag (EAD) vorliegt.

In der Praxis ist das Zahlungsverhalten von Kunden nicht auf zwei einfache Optionen beschränkt, und die Grenze zwischen diesen Optionen ist eher willkürlich. Der Kreditnehmer kann in einem Monat, einem oder zwei Jahren in Verzug geraten und dann, nachdem ihm der Status „Standard“ zugewiesen wurde, plötzlich zu den Zahlungen zurückkehren und den gesamten Kredit zurückzahlen. Darüber hinaus können Abweichungen vom Zahlungsplan sowohl in Bezug auf die Beträge als auch in Bezug auf die Bedingungen vorzeitig oder umgekehrt erfolgen. Das finanzielle Ergebnis für die Bank wird in jedem Fall unterschiedlich sein.

Ich sage nicht, dass es im Prinzip unmöglich ist, die Vielfalt der Verhaltensweisen der Kreditnehmer auf das Dreikomponenten-Berechnungsschema zu reduzieren. Natürlich hängt alles von der Aufgabe ab. Wo möchten wir dieses Modell später anwenden? Wenn zur Beurteilung des Kreditrisikos nach Pools (Gruppen) von Kreditnehmern alle möglichen Abweichungen durch verschiedene Kalibrierungen und die Berechnung gewichteter Durchschnittswerte berücksichtigt werden. Wenn unser Ziel jedoch darin besteht, den Ansatz für die Ausgabe eines Kredits einschließlich der persönlichen Auswahl von Vorschlägen zu personalisieren, ist es wichtig, den Zahlungsfluss des Kunden oder den Barwert vorherzusagen.

Wo fortschrittliche datengesteuerte Alternativen stolpern

Es versteht sich, dass die gesamte Bankpraxis der Branche in jenen Jahren gegründet wurde, in denen es kein Big Data oder maschinelles Lernen gab, und alle Berechnungen auf die Erstellung von Scorekarten reduziert wurden. Sie nahmen alle wesentlichen Faktoren, die die Kreditwürdigkeit des Kreditnehmers beeinflussten, und bewerteten sie in Form von Punkten. Anschließend wurden diese Punkte zusammengefasst und anhand der Punktesumme entschieden, ob ein Kredit vergeben werden sollte oder nicht.

Mit der Anhäufung der Geschichte der ausgegebenen Kredite und der Entwicklung der Computertechnologie wurden die Entscheidungsverfahren in der Bank allmählich komplizierter. Scorch Maps haben sich in logistische Regressionsmodelle verwandelt, die mit Python-Skripten erstellt wurden. Die Bank begann, ihre Kunden und Produkte zu segmentieren, um innerhalb jedes Segments eigene engstirnige Modelle aufzubauen. Andererseits wurde es mit dem Wachstum des Datenspeichervolumens möglich, immer mehr Informationen in einer miteinander verbundenen Form zusammen zu sammeln und zu speichern.

Letztendlich bewegt sich alles in Richtung der Idee, dass für jeden Kunden, der kommt, das beste Angebot (optimales Bankprodukt) fast sofort gefunden wird, wodurch CLTV (Customer Lifetime Value) über einen bestimmten Zeithorizont oder eine andere Metrik, je nachdem, maximiert wird den aktuellen Stand der Bank und Ziele ihrer Stakeholder.

Warum nicht ein leistungsfähiges neuronales Netzwerk (dh die berüchtigte "künstliche Intelligenz") verwenden, um das oben genannte Problem zu lösen? Ich werde einige Umstände auflisten, die dies beeinträchtigen:

- Die Zentralbank verlangt, dass die Modelle zur Berechnung der Kapitaladäquanz in einem "Live" -Kreditprozess angewendet werden. Das heißt, diese Modelle müssen angewendet werden, um Entscheidungen über die Gewährung von Darlehen zu treffen, interpretierbar zu sein und eine Reihe von obligatorischen Validierungstests zu bestehen.

- Kundendatenbanken werden ständig erweitert und ergänzt. Relativ neue Datentypen sind beispielsweise Biometrie, Webanalyse, Analyse mobiler Apps und Bewertung sozialer Medien. Das Hinzufügen neuer Attribute erfolgt im Laufe der Zeit, und dementsprechend liegen uns praktisch keine historischen Daten vor.

- Die Produkte und Prozesse der Bank ändern sich ständig, und eine Neuberechnung des CLTV für Kunden und eine Berechnung des Kapitalwerts (Barwert) für neue Produkte sind erforderlich. Um ein Modell von akzeptabler Qualität zu erstellen, müssen Sie mehrere Jahre warten, historische Daten sammeln und die tatsächlichen Werte von CLTV oder NPV anhand einer Stichprobe realer Kreditnehmer berechnen.

Ergebnis:

Bei allem Wunsch kann die Erstellung von Prognosemodellen in der Bank nicht als rein mathematisches Problem angesehen werden. In der Praxis werden geschäftliche Probleme gelöst, die unter anderem stark mit den Anforderungen der Regulierungsbehörde in der Person der Zentralbank verknüpft sind.

Manchmal scheint es, dass Unternehmen mit starker Datenwissenschaft den Bankenbereich infiltrieren und die Spielregeln ändern können. Aber um Kredite zu vergeben, muss man nach den bereits bestehenden Regeln spielen, und deshalb wird es eine Bank mit allen sich daraus ergebenden Konsequenzen. Der Kreis schließt sich.

Bei der Entstehung eines coolen neuen Fintech-Startups in der Kreditvergabe geht es anscheinend mehr darum, Lücken im Rechtsbereich zu finden, als um Innovationen beim maschinellen Lernen.

Spezifische Data Science-Aufgaben bei der Bank