Просмотр вакансии

Программист, разработчик

Сегодня 03-07-2026 06:48

01.07.2026, 12:50

Middle/Senior Data Engineer

Работодатель: СБЕР

Город: Москва
Занятость: Полная
Опыт работы: От 3 до 6 лет

Создаем поисковый сервис для ответов на запросы пользователей на естественном языке. Предоставляем GigaChat и другим LLM доступ к актуальной информации из интернета, чтобы пользователи получали точные и свежие ответы на разные вопросы.

Предстоит развивать пайплайны наполнения хранилища мультимодальными данными, строить контур подготовки данных для векторного и полнотекстового поиска, работать с большими объемами данных и высоконагруженной архитектурой. Задача технически сложная и интересная: важны надежность, масштабируемость, качество данных, свежесть индекса и производительность. Ценим проактивность, инженерное мышление и желание развиваться.

Обязанности

проектировать и развивать end-to-end пайплайны данных для поисковой платформы: ingest, batch/micro-batch обработка, нормализация, дедупликация, лемматизация, обогащение и подготовка данных к индексации
интегрировать новые источники и мультимодальные данные, обеспечивая корректность, полноту и воспроизводимость загрузки
развивать S3 Data LakeHouse и хранилища данных для задач векторного, полнотекстового и гибридного поиска
оптимизировать Spark-процессы на Kubernetes, в частности производительность, стоимость хранения, потребление ресурсов и стабильность выполнения
обеспечивать надежность пайплайнов (мониторинг, качество данных, диагностика инцидентов, контроль SLA)
внедрять CI/CD, тестирование и observability для data pipelines.
работать вместе с ML-инженерами, backend-разработчиками и аналитиками над улучшением качества поиска.

Требования

3+ лет опыта в роли Data Engineer / ML Engineer / Data Platform Engineer.
продвинутый Python и SQL
практический опыт с Airflow и Spark/PySpark в production
опыт разработки и оптимизации batch или streaming/micro-batch пайплайнов для больших объемов данных: от 100 TB до PB+
уверенное понимание принципов распределенного хранения данных и распределенных вычислений
опыт анализа производительности Spark jobs: shuffle, skew, partitioning, memory, resource usage
опыт построения или развития высоконагруженных платформ обработки данных
умение проектировать Data LakeHouse / Data Management Platform
опыт работы с Kubernetes и S3-compatible storage
понимание Apache Iceberg и современных форматов данных: Parquet, partitioning, schema evolution, compaction
опыт построения мониторинга, алертов и CI/CD для пайплайнов данных.

Будет плюсом

опыт работы с поисковыми движками: ElasticSearch, OpenSearch, Vespa
опыт работы с Cassandra или другими distributed NoSQL-хранилищами
опыт работы с Kafka или другими брокерами событий
понимание задач vector search, embeddings, ANN/HNSW, hybrid search
опыт работы с GPU-инференсом моделей, PyTorch
опыт работы с облачными платформами: AWS, Yandex Cloud, SberCloud
опыт с observability stack: Prometheus, Grafana.

Условия

стабильный оклад и премии по результатам работы, ежегодный пересмотр зарплаты
комфортный современный офис рядом с м.Кутузовская
гибридный формат работы: встречаемся очно в офисе 1 раз в неделю
корпоративный спортзал и зоны отдыха
уникальная система обучения Сбера для профессионального и карьерного развития
программа адаптации и помощь руководителя на старте
расширенный ДМС и льготное страхование семьи
гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
бесплатная подписка СберПрайм, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера
корпоративная пенсионная программа

Откликнуться на вакансию

Спецпредложения

1

Philips HP 8233 Купить87.15р.
5

Dada Paradiso Group Carmelo (3 в 1) Купитьот 1132.95р.

Ночью:	°C
Утром:	°C
Днем:	°C
Вечером:	°C