Город: Москва
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет
Направление работы:
Мы — ML команда финансовых продуктов Wildberries, одного из крупнейших маркетплейсов Европы с более чем 30 млн активных пользователей. Создаем масштабные end-to-end ML решения и развиваем высоконагруженную ML-инфраструктуру для ежедневного и онлайн инференса по базе свыше 100 млн клиентов.
Мы ищем Senior Data Engineer в нашу команду. Если тебе интересно решать сложные задачи на стыке Big Data и ML, влиять на архитектуру масштабных систем и работать бок о бок с сильной командой DS/ML/MLOps — присоединяйся к нам и давай строить это вместе!
Стань частью команды!
Вам предстоит:
- Проектировать и сопровождать ETL/ELTпайплайны для построения Feature Store и витрин данных под задачи MLплатформы (Airflow, Spark, S3, Iceberg, ClickHouse).
-
Настраивать и развивать мониторинг качества данных и качества инференса моделей (data quality, model performance) с системой сбора метрик и алертинга.
-
Обеспечивать интеграцию batch и onlineinference сервисов с клиентскими приложениями и DWH с использованием брокеров сообщений.
-
Взаимодействовать с DS и MLинженерами для продакшенизации моделей (от подготовки фич до запуска инференса и переобучения по расписанию).
-
Разрабатывать и поддерживать сервисы для оффлайн (batch) инференса и переобучения MLмоделей.
Формат работы - гибридный/удаленный по договоренности с руководителем.
Вы нам подходите, если :
-
Ваш опыт работы в Data Engineering/MLOps не менее 5 лет;
-
Уверенно владеете Python, SQL;
-
Понимаете основные DWHконцепции: слойность (staging/ODS/DWH/DM), медленно меняющиеся измерения (SCD), звездчатая/снежинка схема, методологии моделирования DWH (Kimball, Data Vault, Anchor Modeling), консолидация и очистка данных;
-
Понимаете архитектуру Data Lakehouse и одного из форматов Iceberg / Delta Lake / Hudi;
-
Имеете опыт с оркестраторами (Airflow, DagsterKubeflow), системами распределенной обработки данных (Spark, Hadoop, Trino/Presto или аналогами), брокерами сообщений (Kafka, RabbitMQ), MPP-системами (ClickHouse, Greenplum);
-
Имеет опыт работы с контейнерами (Docker, Kubernetes), CI/CD, мониторингом (Prometheus, Grafana).
Возможности развития:
-
Возможность исследовать новые технологии, делать прототипы и доводить успешные решения до продакшена;
-
Возможность участвовать в проектировании единого продуктового Feature Store;
-
Возможность получить опыт работы с onlineinferenceсервисами;
-
Возможность получить практический опыт работы с GenAI в offline и online сценариях.
Стек, с которым мы работаем:
-
Apache Airflow, Spark, S3 Minio, Trino, Clickhouse, Jupyter,;
-
Kubernetes;
-
Kafka;
-
HashiCorp Vault;
-
GitLab;
-
Prometheus/Grafana;
-
Ansible / Terraform / Helm;
-
ClearML.
Похожие вакансии