Inhalt
- Hauptunterschiede
- Reproduzierbarkeitskrise
- Versionskontrollsystem
- Datenversionskontrolle
- Nützliche Links
Einführung
Trotz aller Vorteile von DVC gibt es nur sehr wenige Entwickler, die über dieses Tool Bescheid wissen. Daher denke ich, dass es nicht überflüssig sein wird, Sie zuerst vorzustellen. DVC ist ein Open-Source-Versionskontrollsystem für Daten, das sich hervorragend für maschinelles Lernen eignet. Der Hauptunterschied zwischen DVC und Git besteht darin, dass es erstens ein breiteres und bequemeres Toolkit für ML- Projekte gibt; Zweitens dient es zur Versionskontrolle von Daten, nicht von Code. Und hier enden größtenteils ihre Hauptunterschiede. Und dann werde ich versuchen zu beschreiben, warum DVC so gut ist und warum Git für ML nicht ausreicht.
Reproduzierbarkeitskrise
«Reproducibility crisis» ( . – « »), , , , , .
? , 98.5%, ?
, . . , . – , , , , , .
, – . , / . , .
Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS
Git-LFS [] Git , Git. – / , . . . . , :
- Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
- , .
- Git-LFS . LFS .
- Git-LFS .
Data Version Control
DVC Git. , (, Git). DVC + Git :
Github’ - . ( ) , . .
DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .
DVC:
- ;
- ;
- Erstellung von Pipelines zur Verarbeitung von Datensätzen und deren Visualisierung in der Konsole;
- Speichern und Verfolgen aller Metriken;
- Wechseln zwischen Dateiversionen;
- Reproduktion von Modellen durch die erstellten Pipelines.