Heute sind Datenbanken der Klasse Massive Parallel Processing der Industriestandard für die Speicherung von Big Data und die Lösung verschiedener darauf basierender Analyseprobleme.
Die Anwendungsfälle für MPP-Datenbanken sind vielfältig: Sie können sowohl ein "Arbeitspferd" der Unternehmens-BI als auch ein Tool zur Zentralisierung von Daten aus Hunderten von Quellen in einem DWH sein und sogar für die "heiße" Interaktion mit ML-Modellen verwendet werden, in denen gearbeitet wird eine produktive Umgebung.
Diese Klasse von Technologien ist ein notwendiges Element im Toolkit eines modernen Data Engineer.
In einer Demo-Lektion werden wir detailliert analysieren, was eine MPP-Datenbank ist, welche Lösungen heute auf dem Markt sind, und sogar ein praktisches Beispiel für die Verwendung eines der innovativsten MPP-Systeme von heute untersuchen: ClickHouse.
Wir laden alle ein, an der Demo-Lektion "Einführung in MPP-Datenbanken am Beispiel von ClickHouse" teilzunehmen.
IT- . , , , . , , , , , .
. ( ) , ( ). , , , SQL-, , , — data science , ..
, , , , . , , 20 , . , .
…
, . , !
, - , . Gartner, 2019 66 , 24% — — . Pitchbook, 30 5 8 35 .
, 2015-2020 .
: , , , a16z, , , , . , a16z, : https://a16z.com/investments/.
. , Linkedin 2019 . NewVantage Partners 60% Fortune 1000 , 12% 2012 , McKinsey .
, ( ) - — , .
- , . , , . , .
, : () , () , .
:
Unified Architecture for Data Infrastructure
: (OLTP), SaaS- . , .
:
— , . . - , — .
, .
, AI/ML ?
: - ( ) , ( ).
. (data warehouse). -, SQL ( Python ). (data lake) . , , , . , Java/Scala, Python, R SQL.
, ( ). , , — , , , ACID-, SQL . .
: ? ? , - . , - , .
, , , - , SaaS . , . (, ETL-) .
, . ( ) .
, «» (blueprints) — , , , , .
. -, . , , , . AI ML .
1: -
- - - , , .
. , .
, , SQL ( Python) .
, , . , , data science, / .
2:
, , , Hadoop-
, .
, .
-, , AI/ML, , / , ( , ) (Java/Scala, Python, SQL).
, , , . , - , .
3: .
, , .
, , . , .
, - (. . ), .
, , , / . , , , , - .
. . , -, , , , . , .
, , , , , , , .
- "Data Engineer".
« MPP- ClickHouse».