
Wir haben Habr bereits gesagt, dass es sich bei der neuen SmartData um eine Konferenz zum Thema Data Engineering handelt. Aber was genau bedeutet das in der Praxis, welche Berichte passen zu dieser Definition? Zum Zeitpunkt der Ankündigung konnten wir nur allgemein erklären, aber jetzt ist das Konferenzprogramm fertig - also zeigen wir alle Einzelheiten. Unter dem Schnitt - Beschreibungen aller Berichte.
- -: 1 YouTube , ( asm0dey , olegchir , , ) — , . YouTube-.
Streaming
«Flink + Zeppelin: Streaming data analytics platform», Jeff Zhang
Flink — , . , Flink SQL, Flink . , Apache Zeppelin . , Zeppelin Flink -, HTML/JS- .
, Flink Zeppelin, .
: Zeppelin
: Zeppelin — Exploratory Data Analysis (EDA). , .
: , Zeppelin Flink .
« Kafka NiFi: »,
Apache NiFi Apache Kafka .
: VirtualHealth . , , ?
: , NiFi Kafka.
: VirtualHealth , .
«Advanced usage patterns of Scala UDF in PySpark»,
PySpark UDF, Scala/Java. .
, , Scala/Java UDF PySpark.
, :
- PySpark , UDF;
- pyspark.sql.Column UDF spark.sql(...);
- Singleton Pattern UDF;
- UDF ;
- log4j.
: Spark .
: , Spark, - , Spark (Spark-).
: , , .
«Stateful streaming: , , »,
— , . , . , .
Storage
«Kusto (Azure Data Explorer): Big Data »,
Kusto — Big Data. , Kusto Azure . Kusto security log analytics- : Azure Monitor, Azure Sentinel, Microsoft Defender Advanced Threat Protection . Kusto Azure Data Explorer, e-commerce, gaming, manufacturing, automotive .
, Kusto (Azure Data Explorer) , , - ( ) , , Kusto.
: — .
: . .
: , .
, .
«Kusto (Azure Data Explorer): Architecture and internals»,
Kusto , . , , .
. , , , Azure .
«NeoFS: »,
NeoFS — , . . NeoFS AWS S3, . .
, S3 , . , , , , .
: .
: .
: , , .
« : Business intelligence Clickhouse»,
: , . Data Silo. - , .
Data Silo . DWH Clickhouse, Kafka Spark.
, , - . , DWH Clickhouse, , . , , , Clickhouse DWH .
: DWH DE, , .
: ClickHouse — , BA , .
: , BI.
«The latest and greatest of Delta Lake», Jacek Laskowski
: Spark, « » Apache Spark, Delta Lake, Apache Kafka Kafka Streams.
: , SQL. DeltaLake — , .
: -, DeltaLake.
« . , , »,
: bare metal, Hadoop&CO, Vertica, ClickHouse, ExaSol, GreenPlum (ArenaDataDB), RDBMS, Teradata .
, , . , , .
, , , .
: , , .
: , .
«SQL- Postgres »,
? ? ? - , . , — ? ( ), ?
, PostgreSQL, .
: PG, , .
: , — , .
: , , , .
Tooling
« - Dagster»,
- — , Java/Scala- .
Spark + Scala- Python-? Dagster , - , .
, Dagster .
: 7 , ML DE , .
: -.
: , - .
« »,
Lamoda:
- SVN + Python + Jira + cron Git + Liquibase + Bamboo;
- ;
- .
: , .
: , , . .
«CI/CD Ml- »,
, , DS . , , , DS - ( , ).
— , , . , , .
: MLOps .
: -, ML.
«Scio — data processing at Spotify», Neville Li
Scio — Scala API Apache Beam Google Cloud Dataflow, Spotify , , . Scio .
big data Spotify: Python, Hadoop, Hive, Storm, Scalding . , « », , Discover Weekly, Wrapped, a , .
, Scio Spotify big data- Scala, Algebird, macros, shapeless magnolia. , .
Industry use-cases
« »,
« » — , , , .
, Kafka, Clickhouse Esper , , .
: , stateful- .
«Enterprise data platform: -»,
S7 . , , data governance . , , , .
S7 : Openshift, Minio, Apache Spark, Apache Airflow, Apache Kafka, Python, Scala, Java, Dremio, Alation.
: , , - . , , .
«Predictive Maintenance S7: »,
S7. S7 , , .
S7 : Apache Spark, Apache Airflow, Python, R.
: S7 , .
: , , DE. , , .
«: , ,
, , , , .
, , : , , , , .
: Kafka, Redis, ClickHouse, Quartz, Spring, Flink, ZooKeeper.
. .
: , , -.
Architecture
«Retable DSL: technology-agnostic data pipelines »,
Retable DataFrame DSL — open-source data pipelines DSL. C , data-, Spark DataFrames Python Pandas, — backend-agnostic, data pipelines data warehouses ELT, ETL data lakes, Spark.
Modern Data Stack, (ETL) (ELT) , DSL. , data pipelines, CI/CD-, — Spark, Snowflake Pandas Code.
«Highly Normalized Hybrid Model, », ,
DWH «» «». , , Agile.
, DWH , : Data Vault Anchor modeling — . , , : , .
:
- DV AM: ;
- «» ;
- «» , ;
- , ;
- .
: DWH.
: -, DWH.
« . »,
, DWH, Hadoop.
:
: -, Hadoop, , data engineering.
« »,
, . . DWH, . , , .
:
- ;
- , -;
- .
: Apache Kafka, Apache Flink, AWS, S3, EKS, Compression, Spark, Parquet, JSON.
: : — Joom , .
: DE, .
: .
« -»,
- , . , , MongoDB .
: .
Other
« »,
, , , . , . , — JIT, BLAS .
« NiFi»,
Apache NiFi , , NiFi, . , . , , .
, , .
, . , — . « », . SmartData 9 12 !