EPAM arbeitet seit langer Zeit mit Daten. Die ersten großen Kunden mit Big Data-Projekten erschienen bereits 2001. Zu dieser Zeit stellten die bekannten Analyseunternehmen Gartner und Forrester sowie die großen Anbieter Oracle, Microsoft und IBM fest, dass Unternehmen auf Big Data umsteigen sollten, da diese Technologien in allen Bereichen der Verarbeitung großer Datenmengen unverzichtbar sind. Seitdem ist das Expertenteam von EPAM stetig gewachsen, arbeitet an immer komplexeren Projekten und bietet bewährte Lösungen und Qualitätsprodukte für die Arbeit mit Big Data. Heute arbeiten nur in der russischen EPAM mehr als 500 Personen in der Datenpraxis. Wie alles begann, welche Projekte wir getroffen haben, welche Fehler passiert sind, worauf sich Datenspezialisten vorbereiten sollten und welche Art von Datenspezialisten es gibt,Ich habe mit dem Leiter der EPAM Data Practice in Russland gesprochen -Ilya Gerasimov .
Werdegang
Sagen Sie uns, wie Sie zur Datenrichtung gekommen sind
Ich kam 2006 als Junior-Entwickler für .NET und MS SQL Server zu EPAM, bevor ich in einem Produktunternehmen arbeitete und die Position eines Teamleiters innehatte, der Software zur Automatisierung von Hotels und Restaurants entwickelte. Aber bei EPAM habe ich meine Karriere von vorne begonnen. Bis 2013 war ich zu einem Teamleiter herangewachsen und suchte nach neuen Möglichkeiten für meine Entwicklung in EPAM. Zu diesem Zeitpunkt traf ich mich bei der SEC in Minsk mit dem Leiter des Big Data-Kompetenzzentrums, und wir waren uns einig Dieser Bereich sollte in Russland entwickelt werden.
Dann waren wir zwei oder drei. Kollegen aus anderen Ländern halfen uns, gaben uns Kurse und beteiligten uns an verschiedenen Aktivitäten in diesem Bereich. Ich musste viel lernen und dann das gewonnene Wissen verbreiten.
Warum haben Sie so lange für das Unternehmen gearbeitet?
Data , - . , , . - — , .
Data?
— Data, Data. :)
Data-?
Data-: Data Science, Machine Learning, Business Intelligence, Enterprise Search, DevOps in Data, Data Quality, Business Data Analysis. 500 — .
. «» , «» .
Data- Data governance, .. , , , . , , , ..
— .
, , . , — , , , Data Science .
, , ,
2013-2014 , - , , , , Data Science.
, Scala , DevOps, , . , , , .
?
. , . Java, Python, DevOps- .
« », , . , 2012 — , . , , , . , . , , , , -, EPAM.
— Data Analytics, , Data Engineering, Data Science , — EPAM.
, , . — , .
? ?
, - , - , - , . , . , . . Cadence, , , , , , .
, Reinforcement Learning. . 2- , . , . , , Reinforcement Learning. , , , .
« », Data-. . , , «» . , « » — . , , , . , , Theano, TensorFlow, Theano - .
Apache , , — Spark, Cassandra, Elasticsearch .
Yarn, HDFS, MapReduce, Hive, Kafka, ZooKeeper — , . Hadoop , , , , .
— Amazon, Microsoft Azure, GCP — Hadoop, .
, Kerberos, Knox, Ranger.
, NoSQL NewSQL — Cassandra, ( ), Snowflake, Amazon Redshift, HBase, MongoDB, Teradata.
DevOps — Kubernetes, Docker, Jenkins.
: Power BI, Tableau, QlikView.
Data Science , TensorFlow Google BERT ( « », ), PyTorch, Keras.
Streaming. Streaming Data, — Spark Streaming, Kafka Streams, Apache Flink, Apache Storm.
.
SQL ( ), DWH ( — , , Data Vault, ..), ( , , , ), , DWH, Data Mart, Data Lake.
, . , AWS, Azure, GCP.
, ETL ( ) ETL ELT, , , slowly changed dimension. ETL (PL/SQL, T-SQL, pgSQL, Python, Spark), (, Airflow), , , (Talend, Informatica Power Center, Pentaho, etc.).
(Data Analytics and Visualization), 2- (Power BI, Tableau, TIBCO Spotfire, MicroStrategy, Pentaho, ..) (, Storytelling).
- ?
Apache — Spark, NiFi, Elasticsearch . . , , — - Open Source .
, Open Source , , Open Data Analytics Hub (ODAHU) , ML .
?
- , Data — , . (blueprint) . , , . , , , , .
blueprint - , , , , Data Scientists, , ..
?
, , , e-commerce, , , Life Science — , -. , , blueprints , .
, , , . , , .
2020 ?
, , XXI . 2020 , (late majority), , .
, : , ?
, , , . , , , .
, , Data, Java, Scala Python.
- EPAM , Data Engineering, Data Science, BI, Python , .
, Data EPAM?
. , Data — Java, Scala Python (, ), SQL, , , , DevOps- , Machine Learning .