Курс по Data Engineering

Тип курса: Онлайн

Уровень: Средний Начальный

Срок обучения: 12 недель

Тестирование:

Сертификат об окончании: Да

Язык: Русский

Описание и программа курса

Научитесь строить пайплайны данных в реальном времени

В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer - это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.

Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.

Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.

Программа курса

Введение, практический linux
Кто такой Data Engineer и зачем ему Linux?

Модуль 1
Современные хранилища данных

Разнообразие баз данных и их особенности
Модуль 2
Экосистема Hadoop
Что такое Hadoop, что он умеет и как им пользоваться

Модуль 3
Источники данных и работа с ними
Файлы как источники данных, JDBC - структурированные данные, SQL для выгрузки данных

Модуль 4
Apache Spark и обработка данных
Зачем нужен Apache Spark и как с ним работать

Модуль 5
Hadoop как хранилище данных
Особенности и нюансы hdfs

Модуль 6
Apache Airflow для оркестрации конвейеров
Настройка data pipelines

Модуль 7
Обзор облачных хранилищ
Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure

Фотографии