Das Beste von Kaggle: Was wettbewerbsfähige Datenwissenschaft ist und wie man damit erfolgreich ist

Hallo Habr! Im Blog auf unserer Website veröffentlichen wir regelmäßig Artikel über Daten und alles, was damit zusammenhängt. Wir veröffentlichen einige Materialien von dort und hier.



Woher wissen Unternehmen, welcher Datenwissenschaftler cooler ist, wenn sie ihn einstellen? Wie können Sie Ihr Talent zeigen und in der Community berühmt werden? Auf welcher Grundlage wird das Rating gebildet, auf dessen Grundlage Sie dann für eine prestigeträchtige Position eingestellt werden können? Wir werden Ihnen die bekannteste Wettbewerbsplattform, die Möglichkeiten und Regeln ihres Spiels vorstellen und auch die Liste der besten Teilnehmer aus Russland enthüllen.










Datenwissenschaft ist per Definition eine Wissenschaft. Zur Bewertung von Entwicklern und Analysten wurde und wird daher der unter Wissenschaftlern weit verbreitete Hirsch-Index seit langem angewendet  . Anhand der Anzahl der Veröffentlichungen und ihrer Zitierweise hilft es zu verstehen, wie viel wissenschaftliche Arbeit gefragt ist - und damit auch deren Autor. 

Der Hirsch-Index h entspricht der Anzahl der Artikel, auf die jeweils mindestens h-mal Bezug genommen wurde. Das heißt, um es zu berechnen, nehmen sie alle Artikel des Wissenschaftlers, die von seinen Kollegen zitiert wurden, ordnen sie in absteigender Reihenfolge der Anzahl der Verweise auf sie an und weisen ihnen Nummern zu. Danach finden sie den letzten Artikel, dessen Anzahl die Anzahl der Zitate nicht überschreitet. Diese Zahl ist der Hirsch-Index.
Kompliziert? Es scheint nicht sehr gut zu sein, und echte Datenwissenschaftler verstehen es sofort - nur nicht sehr gut geeignet, um ihre Arbeit zu bewerten. Schließlich ist das Ergebnis ihrer Arbeit viel häufiger ein Code, kein wissenschaftlicher Text. Darüber hinaus sind Datenwissenschaftler auf dem Markt gefragt, und der Markt ist für Beispiele von Algorithmen wichtiger als wissenschaftliche Erfolge. 



Aber oft halten Unternehmen Informationen über ihre Mitarbeiter und ihre Arbeit geheim. Data Scientists sind in Russland besonders sorgfältig versteckt, wo  es  in diesem Bereich einen enormen Personalmangel gibt. 



Als Reaktion auf die Nachfrage sind wettbewerbsfähige Plattformen für Entwickler immer beliebter geworden. Der bekannteste Dienst ist Kaggle (ausgesprochen: "cajel"), der Google gehört. Studenten verwenden  es und professionelle Entwickler  erzählenSo verbessern Sie Ihre Bewertung. Die dort verwendeten Lösungen bestimmen die Mode bei Datenwissenschaftlern, und Unternehmen in Russland und der Welt achten bei der Einstellung auf ihren Platz in den Bewertungen von Kaggle. 



Im Jahr 2017 wurden  mehr als eine Million Benutzer bei Kaggle  registriert , und im August 2020 haben Benutzer aus Russland  den  Dienst fast so oft gegoogelt wie der Ausdruck "Big Data": 







Kaggle ist völlig kostenlos und jeder Benutzer kann einen Data Mining-Wettbewerb veranstalten oder an einem bestehenden teilnehmen. Das System hostet offene Datensätze  und bietet Cloud-Tools für deren Verarbeitung und maschinelles Lernen. Es gibt auch die Möglichkeit zu studieren und einen Abschnitt zum Stellenangebot, in dem Wettbewerbe auch bei der Auswahl der besten Kandidaten helfen. 



Wie es funktioniert



Eines der interessanten Merkmale von Kaggle, dank dessen es in der datenwissenschaftlichen Umgebung so populär wurde, ist  das Bewertungssystem



Benutzer können Punkte sammeln und ihr Ranking in vier verschiedenen Kategorien verbessern: 



  • Wettbewerb.  Alleine oder als Team lösen Sie Probleme des maschinellen Lernens. Die Wettbewerbe sind sehr unterschiedlich: von einer einfachen und unkomplizierten Aufgabe, die Anzahl der Überlebenden auf der Titanic vorherzusagen,   bis zur  Beurteilung der Effektivität von Verteidigungsspielern  beim Spielen eines Passes aus dem NFL Big Data Bowl 2021.
  • Programmcode.  Teilen Sie Ihren Code mit der Community, indem Sie ihn auf Kaggle Notebooks, einer Cloud-Computing-Umgebung, ausführen.
  • Datensätze.  Sie können anderen Datenwissenschaftlern helfen, indem Sie neue Daten teilen.
  • Diskussionen.  Besprechen Sie Aufgaben, teilen Sie Ihre besten Lösungen und bewerten Sie die Beiträge anderer Benutzer.


Die Werbung in jeder der Kategorien hängt nicht von den anderen ab. In ihnen stehen verschiedene Leistungsniveaus zur Verfügung: 



  • Anfänger.  Sie müssen sich nur registrieren.
  • Teilnehmer.  Sie haben Ihr Profil ausgefüllt, mit der Community gesprochen und alle Funktionen der Plattform genutzt:

    - Führen Sie ein Skript aus.

    - Wir haben an einem Wettbewerb teilgenommen.

    - Wir haben einen Kommentar geschrieben.

    - Wir haben einem der Teilnehmer eine Stimme gegeben.

  • .  Kaggle . , Kaggle . 
  • .  , Kaggle . «» , .
  • .  . .


Medaillen werden für hervorragende Ergebnisse bei Wettbewerben, populärem Programmcode oder nützlichem Datensatz vergeben und bleiben für immer. Gleichzeitig verlieren Punkte mit der Zeit ihren Wert, wodurch das Gesamtranking relevant bleibt.



Wer kommt zuerst?



Am allermeisten hat Kaggle   Benutzer aus Indien und den USA registriert . Die Russen belegen einen stabilen fünften Platz in der Gesamtbewertung der Länder - zwischen China und Japan. Der erste Platz in der Gesamtwertung von Daten  Wissenschaft Wettbewerben  wird durch genommen Guanshuo Xu, ein Datum Wissenschaftler aus New York. Fünf Jahre lang erzielte er bei Kaggle-Wettbewerben mehr als 255.000 Punkte (dies ist ein absoluter Rekord).



Guangshuo war  fertig Er hat einen Bachelor-Abschluss in Elektrotechnik und Elektronik an der Tongji-Universität in Shanghai und anschließend einen Master-Abschluss an der University of New Jersey. Seit 2010 arbeitet er an Algorithmen zur Bilderkennung und zum maschinellen Lernen, 2017 wurde er zum ersten Mal Großmeister bei Kaggle und seit 2019 arbeitet er als Data Scientist bei H2O.ai (Cisco, Intel und PayPal verwenden die Algorithmen dieses Unternehmens). 



Die besten Datenwissenschaftler aus Russland laut Kaggle



Um eine Liste der am besten praktizierenden Datenwissenschaftler in Russland zusammenzustellen, haben wir die  Daten der  Teilnehmer der Kaggle-Wettbewerbe verwendet, die über persönliche Informationen verfügen.



Der mächtigste  russische Entwickler, der am Kaggle-Wettbewerb  Dmitry Gordeev  ( dott ) teilnimmt, arbeitet ebenfalls bei H2O.ai. Er hat sich vor acht Jahren bei Kaggle angemeldet und hat heute 114.000 Punkte.



In der Gesamtwertung von Kaggle belegt er  den neunten Platz... Dmitry absolvierte 2010 die Moskauer Staatliche Universität und machte dort Bilderkennung und Data Mining. Er arbeitet seit 2008 in der Retail Risk Modeling Group einer Bank, ist zum Bereichsleiter herangewachsen und 2013 nach Österreich gezogen. 2014 absolvierte er einen  datenwissenschaftlichen Kurs über Coursera und trat 2020 dem  Team von H2O.ai bei.



Auf dem  zweiten Platz  unter den russischen Datenwissenschaftlern bei den Kaggle-Bewertungswettbewerben - Arthur Kuzin ( n01z3 ) - belegt es mit mehr als 71.000 Punkten den 28. Platz in der Gesamtwertung von Kaggle. 



Arthur absolvierte 2011 das Moskauer Institut für Physik und Technologie und arbeitete von 2008 bis 2016 in der Forschungsanalytik. Danach bekam er eine Stelle bei Avito als Data Scientist und leitete in den letzten Jahren das Computer Vision-Team der X5 Retail Group. Arthur hat  mehrere  physikalische Veröffentlichungen und ein Patent für ein Gerät zur Kalibrierung von Transmissionselektronenmikroskopen.



Den dritten Platz  in der Gesamtwertung der Kaggle-Wettbewerbe unter Russen belegt Artem Kulakov ( Art) - In der Gesamtwertung liegt er auf dem 29. und 71. Tausend Kaggle-Punkten, die er über zwei Jahre Teilnahme am Wettbewerb verdient hat. Artem studiert an der Higher School of Economics mit einem Abschluss in Informatik und hat bereits als Datenanalyst bei Tinkoff Bank und Megafon gearbeitet. Artem ist jetzt freiberuflich tätig und auf Computer Vision- und NLP-Aufgaben spezialisiert.



Auf dem vierten Platz liegt Roman Soloviev ( ZFTurbo ) mit 69.000 Punkten und dem 31. Platz in der Gesamtwertung der Kaggle-Wettbewerbe. Roman ist ein führender Forscher am Institut für Designprobleme in der Mikroelektronik der Russischen Akademie der Wissenschaften.



Auf dem fünften Platz liegt  Ilya Larchenko ( ilialar)), derzeit auf Platz 37 der Kaggle-Gesamtwertung mit 65.000 Punkten. Ilya absolvierte 2014 das Moskauer Institut für Physik und Technologie und arbeitete dann als Analyst und Entwickler. Seit 2017 er  führte  das Team Daten Scientist bei DOC +, und im Jahr 2020 zog nach Thailand, wo er als Daten Wissenschaft Manager bei Agoda arbeitet. 



Ein kleines Element der Gamifizierung, mit dem Benutzer bei Kaggle-Wettbewerben Punkte und Medaillen sammeln können, hat das Einstellungsspiel verändert. 



Das Beispiel der besten Datenwissenschaftler aus Russland zeigt, dass Bildung und Erfahrung im Umgang mit Daten für den Aufbau einer erfolgreichen Karriere nicht so wichtig sind. Zum Beispiel studiert Artem Kulakov noch an der Universität und hat erst vor zwei Jahren begonnen, an Wettbewerben bei Kaggle teilzunehmen. Jetzt steht er auf der Liste der besten Datenwissenschaftler in Russland und arbeitet als Freiberufler. Guangshuo Xu hat einen Bachelor-Abschluss in Elektrotechnik und Elektronik und arbeitet jetzt bei H2O.ai, einem führenden Anbieter von Open-Source-Data-Science-Lösungen.



Beginnen Sie noch heute mit einfachen Aufgaben - und wer weiß, vielleicht werden Sie in ein oder zwei Jahren im Ranking der besten Datenwissenschaftler sein und Fortschritte erzielen, indem Sie HIV-Forschungstechnologien implementieren  , Modelle zur  Vorhersage der Überlastung von Autobahnen und vieles mehr. Die Hauptsache ist, den Wunsch zu haben, sich auf dem Gebiet der Datenwissenschaft zu entwickeln und so viel wie möglich zu praktizieren. 



Bild






empfohlene Artikel






All Articles