Wir laden zukĂŒnftige Studenten des Kurses "Ecosystem Hadoop, Spark, Hive" zum offenen Webinar zum Thema "Spark Streaming" ein . WĂ€hrend des Webinars lernen die Teilnehmer zusammen mit einem Experten Spark Streaming und Structured Streaming kennen, studieren ihre Funktionen und schreiben eine einfache Stream-Verarbeitungsanwendung.
Und jetzt teilen wir Ihnen die traditionelle Ăbersetzung von nĂŒtzlichem Material mit.
Spark-Apps sind einfach zu schreiben und leicht zu verstehen, wenn alles nach Plan verlĂ€uft. Dies wird jedoch sehr schwierig, wenn Spark-Anwendungen langsam gestartet werden oder abstĂŒrzen. Manchmal kann eine gut abgestimmte Anwendung aufgrund von DatenĂ€nderungen oder Ănderungen der Datenzusammensetzung abstĂŒrzen. Manchmal verhĂ€lt sich eine Anwendung, die bisher gut funktioniert hat, aufgrund fehlender Ressourcen schlecht. Die Liste geht weiter und weiter.
Spark, , , , .., , .
, Spark . â .
Spark , (OOM) , . , Spark . OOM:
Spark
(high concurrency)
, Spark . , , OOM, , - OOM. Spark . OOM, .
, . .
Spark â JVM (Java Virtual Machine) , . OutOfMemory
â OOM ( - Spark. Spark â . . , . , .
, OutOfMemory
OOM ( ) , :
rdd.collect()
sparkContext.broadcast
,
Spark.sql.autoBroadcastJoinThreshold
.
Spark . , . .
, . . , , , , .
SQL (Structured Query Language) Spark, OOM - , , ; "spark.sql.autoBroadcastJoinThreshold
" ( ) , .
Spark, . â , . .
, OOM, , Spark .
Spark , . , , , .. map-stage ( SQL), , , .
, ORC (Optimized Row Columnar) 2000 , map-stage 2000 , , . reduce-stage ( Shuffle), Spark "spark.default.parallelism
" RDD (Resilient Distributed Dataset), "spark.sql.shuffle.partitions
" DataSet ( ). , "spark.executor.cores
". , OOM ( ). , , , , OOM.
, (map) SQL HDFS ( Hadoop distributed file system) Parquet/ORC. HDFS Spark 128 . , 10 , 128*10 . , .
Spark Parquet ( ) . , Spark Parquet . Parquet , . . , Spark . , , , , . .
, , . , (broadcast join), (broadcast variables) . , .
Spark's Catalyst , , . , Parquet/ORC. , . , .
. , , . . () , .
Spark. .
. , -. spark.executor.memory
spark.driver.memory
. , . . Unravel (Unravel Data Operations Platform) .
, YARN (Yet Another Resource Negotiator â ), OOM (killed) - YARN. "YARN kill" :
YARN Spark, . â off-heap , JVM , JVM. spark.yarn.executor.memoryOverhead
. 10% .
Spark , Spark. Spark , . , , .
Spark : . , , - , . .
, ( â 300). "spark.memory.fraction
". â 60%. 50% ( "spark.memory.storageFraction
") .
, , , , . , , . , , , , , .
, , "spark.memory.storageFraction
" , .
Spark , , . . () () GC (Garbage Collector), . .
. , , . , . , , .
Spark YARN, NodeManager ( ) , . NodeManager 1 . , , - , NodeManager . NodeManager, .
â1,
Spark â . , Spark . Spark . , . , , .
, Spark. , Unravel , , , . -, Unravel . Spark.
, Spark : , , , , Spark.
« Hadoop, Spark, Hive».
«Spark Streaming».