Data Engineer

Требуется на работу data engineer.

Должностные обязанности:
Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности.
Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде.
Мы делаем приложения на базе Единого Хранилища Данных
Основной функционал: Монетизация данных- сбор данных из разных источников, в первую очередь из "озера данных" и Единого Хранилища данных- анализ и поиск закономерностей в разнообразных данных- построение моделей, основанных на данных- автоматизация работы.

Обязанности:

• консультирование заказчика с целью выбора инструментария Big Data экосистемы;
• администрирование инструментария Big Data экосистемы;
• внедрение ML-моделей в рамках MLOps;
• оптимизация ETL-процедур обработки информационных массивов;
• миграция ETL-процедур обработки информационных массивов и соответствующих моделей машинного обучения на целевые инструменты Big Data экосистемы;
• доработка/написание CI/CD-пайплайнов;
• участие в развитие Big Data экосистемы;

Требования:

• высшее техническое образование
• знания по проектированию Хранилища данных
• современные тенденции и технологии Big Data
• знания и практические навыки написания SQL запросов, опыт оптимизации запросов
• опыт работы с одной из аналитических или реляционных СУБД Oracle, Greenplum, Clickhouse, PostgreSQL, Postgres Pro или опыт работы со стеком Big Data (Hadoop/spark/hive) от 3-х лет;

• опыт работы с элементами современной Big Data экосистемы в качестве администратора, аналитика данных или специалиста по исследованию данных;

• навык работы со средствами версионного контроля;
• знание процесса непрерывного развертывания и опыт установки изменений в рамках конвейера CI/CD;

Наш стек:

• Кластеризация: Apache Hadoop (HDP, CDP)
• Контейнеризация: Docker Swarm, Kubernetes
• CI/CD: Ansible, Jenkins, Gitlab
• Технологии распределенных вычислений: Apache Spark, Apache Hive, Cloudera Impala
• IDE: Apache Zeppelin, JupyterLab., IntelliJ IDEA, VSCode
• ETL: IPC, Airflow
• Языки программирования: Python, Scala.

Компенсация релокации

Гибридный график: 50% - офис, 50% - удаленный режим

Условия:
Полный рабочий день