Просмотр вакансии

Сегодня 03-07-2026 06:48
01.07.2026, 12:50

Middle/Senior Data Engineer

Работодатель: СБЕР

СБЕР

Город: Москва
Занятость: Полная
Опыт работы: От 3 до 6 лет

Создаем поисковый сервис для ответов на запросы пользователей на естественном языке. Предоставляем GigaChat и другим LLM доступ к актуальной информации из интернета, чтобы пользователи получали точные и свежие ответы на разные вопросы.

Предстоит развивать пайплайны наполнения хранилища мультимодальными данными, строить контур подготовки данных для векторного и полнотекстового поиска, работать с большими объемами данных и высоконагруженной архитектурой. Задача технически сложная и интересная: важны надежность, масштабируемость, качество данных, свежесть индекса и производительность. Ценим проактивность, инженерное мышление и желание развиваться.

Обязанности

  • проектировать и развивать end-to-end пайплайны данных для поисковой платформы: ingest, batch/micro-batch обработка, нормализация, дедупликация, лемматизация, обогащение и подготовка данных к индексации
  • интегрировать новые источники и мультимодальные данные, обеспечивая корректность, полноту и воспроизводимость загрузки
  • развивать S3 Data LakeHouse и хранилища данных для задач векторного, полнотекстового и гибридного поиска
  • оптимизировать Spark-процессы на Kubernetes, в частности производительность, стоимость хранения, потребление ресурсов и стабильность выполнения
  • обеспечивать надежность пайплайнов (мониторинг, качество данных, диагностика инцидентов, контроль SLA)
  • внедрять CI/CD, тестирование и observability для data pipelines.
  • работать вместе с ML-инженерами, backend-разработчиками и аналитиками над улучшением качества поиска.

Требования

  • 3+ лет опыта в роли Data Engineer / ML Engineer / Data Platform Engineer.
  • продвинутый Python и SQL
  • практический опыт с Airflow и Spark/PySpark в production
  • опыт разработки и оптимизации batch или streaming/micro-batch пайплайнов для больших объемов данных: от 100 TB до PB+
  • уверенное понимание принципов распределенного хранения данных и распределенных вычислений
  • опыт анализа производительности Spark jobs: shuffle, skew, partitioning, memory, resource usage
  • опыт построения или развития высоконагруженных платформ обработки данных
  • умение проектировать Data LakeHouse / Data Management Platform
  • опыт работы с Kubernetes и S3-compatible storage
  • понимание Apache Iceberg и современных форматов данных: Parquet, partitioning, schema evolution, compaction
  • опыт построения мониторинга, алертов и CI/CD для пайплайнов данных.

Будет плюсом

  • опыт работы с поисковыми движками: ElasticSearch, OpenSearch, Vespa
  • опыт работы с Cassandra или другими distributed NoSQL-хранилищами
  • опыт работы с Kafka или другими брокерами событий
  • понимание задач vector search, embeddings, ANN/HNSW, hybrid search
  • опыт работы с GPU-инференсом моделей, PyTorch
  • опыт работы с облачными платформами: AWS, Yandex Cloud, SberCloud
  • опыт с observability stack: Prometheus, Grafana.

Условия

  • стабильный оклад и премии по результатам работы, ежегодный пересмотр зарплаты
  • комфортный современный офис рядом с м.Кутузовская
  • гибридный формат работы: встречаемся очно в офисе 1 раз в неделю
  • корпоративный спортзал и зоны отдыха
  • уникальная система обучения Сбера для профессионального и карьерного развития
  • программа адаптации и помощь руководителя на старте
  • расширенный ДМС и льготное страхование семьи
  • гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
  • бесплатная подписка СберПрайм, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера
  • корпоративная пенсионная программа

 

Откликнуться на вакансию

Дата
05.07 06.07
USD
2.9062 2.905
EUR
3.3096 3.3156
RUB
3.731 3.7314
CNY
4.2833 4.2863
CHF
3.5857 3.6082
GBP
3.85 3.8754
PLN
7.7059 7.724
Минск
Ночью: °C
Утром: °C
Днем: °C
Вечером: °C

Сейчас: Скорость ветра: 5-7 м/c Атм. давление: 758 мм.рт.ст Влажность: 90%

Спецпредложения