
Dieser Artikel beschreibt das einfachste und schnellste Tool zur Datenerkennung, das Sie bei der Arbeit mit KDPV sehen. Interessanterweise ist der Wal so konzipiert, dass er auf einem Remote-Git-Server gehostet wird. Details unter dem Schnitt.
Wie das Datenerfassungstool von Airbnb mein Leben verändert hat
In meiner Karriere hatte ich das Glück, an einigen lustigen Problemen zu arbeiten: Ich habe während meines Studiums am MIT Strömungsmathematik studiert, an inkrementellen Modellen und dem Open-Source-Projekt pylift bei Wayfair gearbeitet und neue Homepage-Targeting-Modelle und CUPED-Verbesserungen eingeführt Airbnb. Aber all diese Arbeiten waren nie glamourös - tatsächlich verbrachte ich oft die meiste Zeit damit, Daten zu suchen, zu erkunden und zu validieren. Während dies ein anhaltender Zustand bei der Arbeit war, kam mir nicht der Gedanke, dass es ein Problem war, bis ich zu Airbnb kam, wo es mit einem Datenerkennungstool, Dataportal, gelöst wurde .
Wo finde ich {{data}}? Datenportal .
Was bedeutet diese Spalte? Datenportal .
Wie geht es {{metric}} heute? Datenportal .
Was ist ein Lebenssinn? Wahrscheinlich im Dataportal .
Okay, du hast ein Bild präsentiert. Die Daten finden und verstehen, was sie bedeuten, wie sie erstellt wurden und wie sie verwendet werden - all dies dauert nur wenige Minuten, nicht Stunden. Ich könnte meine Zeit damit verbringen, einfache Schlussfolgerungen oder neue Algorithmen zu ziehen (... oder zufällige Fragen zu den Daten zu beantworten), anstatt Notizen zu durchsuchen, sich wiederholende SQL-Abfragen zu schreiben und Kollegen in Slack zu erwähnen, um zu versuchen, den Kontext wiederherzustellen. dass jemand anderes schon hatte.
Was ist das Problem?
Mir wurde klar, dass die meisten meiner Freunde keinen Zugang zu einem solchen Tool hatten. Nur wenige Unternehmen möchten enorme Ressourcen für den Aufbau und die Wartung eines Plattform-Tools wie Dataportal aufwenden. Es stehen zwar mehrere Open Source-Lösungen zur Verfügung, diese sind jedoch im Allgemeinen skalierbar und erschweren die Einrichtung und Wartung ohne einen dedizierten DevOps-Techniker. Also habe ich beschlossen, etwas Neues zu kreieren.
Whale: ein dummes Datenerkennungswerkzeug

Und ja, mit einfach bis Dummheit meine ich einfach bis Dummheit. Wal hat nur zwei Komponenten:
- Eine Python-Bibliothek, die Metadaten sammelt und in MarkDown formatiert.
- Rust-Befehlszeilenschnittstelle zum Durchsuchen dieser Daten.
Aus Sicht der internen Infrastruktur gibt es nur viele Textdateien und ein Textaktualisierungsprogramm zur Wartung. Das war's, also ist das Hosting auf einem Git-Server wie Github trivial. Keine neue Abfragesprache zu lernen, keine Verwaltungsinfrastruktur, keine Backups. Git ist jedem bekannt, daher ist die Synchronisierung und Zusammenarbeit kostenlos. Schauen wir uns die Funktionalität von Whale v1.0 genauer an .
Voll funktionsfähige git-basierte Benutzeroberfläche
Whale wurde gebaut, um den Ozean eines Remote-Git-Servers zu segeln. Es ist sehr anpassbar: Definieren Sie einige Verbindungen, kopieren Sie das Github Actions-Skript (oder schreiben Sie es für die von Ihnen ausgewählte CI / CD-Plattform), und Sie haben sofort ein webbasiertes Datenerkennungstool. Sie können Ihre Tabellen direkt in Github suchen, anzeigen, dokumentieren und freigeben.

Ein Beispiel für eine Stub-Tabelle, die mit Github-Aktionen erstellt wurde. In diesem Abschnitt finden Sie eine vollständige Demo .
Blitzschnelle CLI-Suche nach Ihrem Repository
Whale lebt und atmet auf der Befehlszeile und bietet leistungsstarke Millisekunden-Lookups über Ihre Tische. Selbst mit Millionen von Tischen haben wir es geschafft, Wale unglaublich leistungsfähig zu machen, indem wir einige clevere Caching-Mechanismen verwendet und das Backend in Rust neu aufgebaut haben. Sie werden keine Suchverzögerung bemerken [Hallo Google DS].

Demo-Wal, suchen Sie über eine Million Tische .
Automatische Berechnung von Metriken [in Beta]
Eine meiner am wenigsten bevorzugten Aufgaben als Datenwissenschaftler ist es, immer wieder dieselben Abfragen durchzuführen, um die Qualität der verwendeten Daten zu überprüfen. Whale unterstützt die Möglichkeit, Metriken in einfachem SQL zu definieren, die nach einem Zeitplan zusammen mit Ihren Pipelines zur Bereinigung von Metadaten ausgeführt werden. Definieren Sie einen YAML-Metrikblock in der Stub-Tabelle, und Whale wird automatisch planmäßig ausgeführt und verschachtelte Metrikabfragen ausgeführt.
```metrics
metric-name:
sql: |
select count(*) from table
```

In Kombination mit Github bedeutet dieser Ansatz, dass der Wal als einfache zentrale Wahrheitsquelle für metrische Definitionen dienen kann. Whale speichert sogar die Werte zusammen mit dem Zeitstempel im ~ /. Wal / Metriken “, wenn Sie eine Art Grafik oder tiefere Forschung betreiben möchten.
Zukunft
Nachdem wir mit Benutzern unserer Vorabversionen von Wale gesprochen hatten, stellten wir fest, dass die Benutzer mehr Funktionen benötigen. Warum ein Tabellensuchwerkzeug? Warum nicht ein Metrik-Suchwerkzeug? Warum nicht überwachen? Warum nicht ein SQL-Abfrageausführungstool? Während whale v1 ursprünglich als einfaches CLI-Begleittool konzipiert wurde
Dataportal/Amundsen, hat es sich bereits zu einer voll funktionsfähigen eigenständigen Plattform entwickelt, und wir hoffen, dass es ein integraler Bestandteil der Data Scientist-Toolbox wird.
Wenn Sie im Entwicklungsprozess etwas sehen möchten, treten Sie unserer Slack-Community bei , öffnen Sie Issues on Github oder wenden Sie sich direkt an LinkedIn .... Wir haben bereits eine ganze Reihe cooler Funktionen - Jinja-Vorlagen, Lesezeichen, Suchfilter, Slack-Warnungen, Jupyter-Integration und sogar ein CLI-Panel für Metriken - aber wir würden uns über Ihre Eingabe freuen.
Fazit
Whale wird von Dataframe entwickelt und unterstützt, einem Startup, mit dem ich kürzlich mit anderen Leuten angefangen habe. Während Wal für Datenwissenschaftler ist, ist Dataframe für Datenteams. Für diejenigen unter Ihnen, die enger zusammenarbeiten möchten - zögern Sie nicht , Kontakt aufzunehmen , wir werden Sie auf die Warteliste setzen.

Mit dem HABR-Gutscheincode erhalten Sie zusätzlich 10% auf den auf dem Banner angegebenen Rabatt.
- Online-Bootcamp für Data Science
- Schulung des Data Analyst-Berufs von Grund auf
- Data Analytics Online Bootcamp
- Unterrichten des Data Science-Berufs von Grund auf
- «Python -»
E