Wir haben 10 Millionen Jupyter-Notizbücher von Github heruntergeladen - und das haben wir herausgefunden.

Hallo Habr! 





Das Datalore by JetBrains- Team ist in Kontakt . Wir möchten Ihnen die Ergebnisse der Analyse von mehreren Millionen öffentlich verfügbaren Github-Repositories mit Jupyter-Notebooks mitteilen. Wir haben Laptops heruntergeladen, um einen numerischen Einblick in den aktuellen Status des wohl beliebtesten datenwissenschaftlichen Tools zu erhalten.









Inspiriert von Forschungen des Design Lab-Teams an der UC San Diego haben wir Jupyter-Laptops zweimal heruntergeladen, im Oktober 2019 und im Oktober 2020. 





Vor zwei Jahren waren 1,23 Millionen Laptops gemeinfrei. Im Oktober 2020 hat sich die Anzahl der Laptops verachtfacht, und wir konnten 9,72 Millionen Dateien herunterladen. Wir haben diesen Datensatz veröffentlicht - Anweisungen zum Herunterladen finden Sie am Ende des Beitrags.





Datalore . Datalore — Jupyter- , JetBrains. , , Datalore.





, . , @JBDatalore contact@datalore.jetbrains.com





.





data science

R Julia , Python Jupyter-.





, Bash, MatLab Scilab, , , , : Scala, C++ Java.





. , , “nan”.









Python 2 Python 3 2018, 2019 2020 .









Python 2





Python 3





Other languages





2018





52,5%





43,8%





3,7%





2019 (JetBrains Datalore)





18,1% ( 1029 K)





72,6% ( 4128 K)





9,3% ( 529 K)





2020 (JetBrains Datalore)





11,8% ( 1154 K, +125 K 2019)





79,3% ( 7710 K, +3582 K 2019)





10,8% ( 1050 K, +521 K 2019)





, Python 3, 2019 87%, Python 2 — 12%.





, Python R, :





data science

Datalore , Python-. Jupyter-.





, 60% Numpy, 47% Pandas Matplotlib.





:





:





PyTorch TensorFlow

, PyTorch TensorFlow.





, PyTorch , TensorFlow.





, Keras TensorFlow , Fast.ai PyTorch . , TensorFlow, , , , .









TensorFlow





Keras





PyTorch





Fastai





2019 (JetBrains Datalore)





321 K





231 K





110 K





19 K





2020





(JetBrains Datalore)





430 K (+34%)





367 K(+59%)





253 K(+130%)





25 K(+32%)









( , Python 3.6 ):





  • 71,90% Markdown.





  • 42,13% output.





  • 12,34% LaTex.





  • 19,77% HTML.





  • 20,63% Markdown.





Markdown Jupyter-. 50% 4 Markdown 14 . 





Markdown- :





. , 25 000 , 95% 465 :





. , 42% . 10% 8 .





Jupyter-

Jupyter- — . , . Jupyter- , 36% Jupyter- , . . .





, Markdown- . , , , , , .









Jupyter- , data science. 





, . , , Datalore-.





2018





Datalore





:





  1. :





    1. (10 , 4,4 ): https://github-notebooks-update1.s3-eu-west-1.amazonaws.com/





    2. c AWS S3 API , JSON : https://github-notebooks-samples.s3-eu-west-1.amazonaws.com/ntbslist.json





    3. JSON , , : https://github-notebooks-update1.s3-eu-west-1.amazonaws.com/0000036466ae1fe8f89eada0a7e55faa1773e7ed.ipynb





  2. (3 ). Datalore-.












All Articles