DVC gegen GIT. Warum GIT für maschinelle Lernprojekte nicht ausreicht

Inhalt





Einführung



Trotz aller Vorteile von DVC gibt es nur sehr wenige Entwickler, die über dieses Tool Bescheid wissen. Daher denke ich, dass es nicht überflüssig sein wird, Sie zuerst vorzustellen. DVC ist ein Open-Source-Versionskontrollsystem für Daten, das sich hervorragend für maschinelles Lernen eignet. Der Hauptunterschied zwischen DVC und Git besteht darin, dass es erstens ein breiteres und bequemeres Toolkit für ML- Projekte gibt; Zweitens dient es zur Versionskontrolle von Daten, nicht von Code. Und hier enden größtenteils ihre Hauptunterschiede. Und dann werde ich versuchen zu beschreiben, warum DVC so gut ist und warum Git für ML nicht ausreicht.









Reproduzierbarkeitskrise



«Reproducibility crisis» ( . – « »), , , , , .







? , 98.5%, ?







, . . , . – , , , , , .







, – . , / . , .











Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS







Git-LFS [] Git , Git. – / , . . . . , :







  • Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
  • , .
  • Git-LFS . LFS .
  • Git-LFS .




Data Version Control



DVC Git. , (, Git). DVC + Git :











Github’ - . ( ) , . .







DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .







DVC:







  • ;
  • ;
  • Erstellung von Pipelines zur Verarbeitung von Datensätzen und deren Visualisierung in der Konsole;
  • Speichern und Verfolgen aller Metriken;
  • Wechseln zwischen Dateiversionen;
  • Reproduktion von Modellen durch die erstellten Pipelines.









All Articles