Тренажер Apache Spark для инженеров и аналитиков данных


  • Изучите архитектуру PySpark на практике и поймите, как она вписывается в экосистему Big Data
  • Научитесь работать со внешними источникам данных (на примере Postgres)
  • Разберитесь с особенностями работы с колоночными форматами хранения данных
  • Научитесь методам пакетной обработки данных, напишите свой первый ETL-процесс на PySpark
  • Изучите подходы для потоковой обработки данных через Spark Structured Streaming
Старт:
Декабрь
Решите 100+ задач
Реальные стенды
Пет-проект в портфолио
Упакуйте навыки в CV для международного рынка
Осталось 0 из 0 мест
Мини-группы стартуют каждые 2 недели
Стек, который вы освоите: Apache Spark (PySpark), Kafka, Spark Structured Streaming, Postgres
Вас ждет более 100 задач из разных бизнес-сфер, которые вы возьмете
в портфолио
Участники загрузят и обработают данные о поездках с использованием RDD. Выполнят базовые операции фильтрации, преобразования и агрегации данных для расчёта таких метрик, как общее количество поездок, среднее расстояние поездок, и топ популярных районов для посадки и высадки пассажиров.
Анализ данных NYC Taxi с использованием RDD
Участники создадут DataFrame из данных поездок такси и проведут аналитические запросы, такие как подсчёт средней продолжительности поездок, анализ типов оплаты и чаевых. Используя SparkSQL, они будут выполнять SQL-запросы для извлечения дополнительных метрик, таких как топ маршрутов поездок по количеству пассажиров.

Аналитика на основе DataFrame и Spark SQL
Участники настроят потоковую обработку данных такси, симулируя поступление данных в режиме реального времени. Они разработают систему, которая будет подсчитывать количество поездок, их общую стоимость и динамику в реальном времени. Для визуализации результатов можно использовать инструменты мониторинга.
Потоковая обработка данных (Streaming) с использованием Structured Streaming
Встречайте вашего
персонального помощника ДуДу
ДуДу всегда под рукой – доступен 24/7. Он помогает в обучении, готов ответить на любые вопросы по курсу и провести быстрый Code Review.
Кто это?
Как проходит обучение?
Наш подход к обучению стирает границы между теорией и практикой, предлагая вам немедленное применение знаний в реальных условиях. Забудьте о скучных видеолекциях и бесконечном запоминании правил.
Браузерная IDE для запуска проектов
Геймифицированное теория и задания с подробным описанием и подсказками
Мы подготовили для вас бота с датасетами вашего бизнес-кейса, а также облачную инфраструктуру, чтобы обучение в симуляторе было максимально приближенным к реальности.
Инфраструктура, стенды и боты с подготовленными данными для учебы
Вас ждет закрытый чат с преподавателем и другими участниками курса, где можно смело задавать вопросы и быстро получать на них ответы.
Поддержка на всем
пути обучения
Бессрочный доступ к
постоянно обновляемым материалам
Каждые 3 месяца мы обновляем наш тренажер, поэтому вы будете возвращаться к нему снова и снова.
Октябрь 2024
  • Разработка курса
  • Ожидается набор в фокус-группу
Автор курса
Ростислав Гезалянц

Big Data Engineer, TeamLeader

Ex-Senior Data Engineer в Raiffeisen Bank, X5 Retail Group и MTS

Специализируется на оптимизации задач в Spark и построении эффективных, масштабируемых конвейеров обработки данных

программа

Остались вопросы или хотите пройти обучение от компании? Напишите нам в поддержку
Ответы
на вопросы
Хотите пройти обучение у нас от вашей компании?
Сообщение об успешной отправке!