Просмотр вакансии

Сегодня 04-07-2026 05:30
03.07.2026, 16:32

Старший инженер по оценке качества LLM (Evals)

Работодатель: Медийные Технологии

Город: Москва
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет

Рувики - новая интернет-энциклопедия.

Наш продукт – Онлайн-энциклопедия, предоставляющая доступ к миллионам статей, изображений и видеороликов по самым различным темам - от истории и науки до искусства и технологий.

Мы ищем инженера, который сможет определить, что такое «хорошая модель» для наших продуктов, и разработать инструменты для объективного измерения этого качества. У нас уже есть работающий фреймворк оценки (на базе DeepEval, с несколькими тематическими наборами проверок, LLM-судьями и эталонными датасетами) — вы его возглавите, углубите и масштабируете на новые пайплайны, а не начнёте с чистого листа.

Ваша работа напрямую влияет на каждый продукт, который мы выпускаем: именно ваши метрики и проверки решают, стал ли новый промпт или модель лучше или мы вносим регресс. Специфика домена — фактчекинг и работа с фактологией, которая дрейфует во времени, поэтому «эталонный ответ» протухает; устойчивая к этому методология оценки — одна из центральных инженерных задач роли.

Обязанности:

  • Развитие фреймворка оценки. Расширять и систематизировать существующий фреймворк оценки на новые сценарии и агентов; поддерживать единый формат датасетов, метрик и критериев.
  • Проектирование метрик и LLM-судей (LLM-as-a-Judge). Проектировать критерии оценки (в стиле G-Eval), метрики faithfulness / grounding / hallucination / citation precision/recall, а также детерминированные классификационные метрики (precision / recall / F1 / accuracy / точное совпадение). Калибровать LLM-судью по человеческой разметке и версионировать критерии по результатам калибровки.
  • Построение и стратификация датасетов. Выгружать реальные трассы из продакшена через системы трассировки (LangSmith / LangFuse), обезличивать и очищать данные, стратифицировать выборку (тематика, длина, ветвления путей пайплайна) и собирать эталонные датасеты. Где нужен детерминизм — строить «кассеты» внешней среды с записью и воспроизведением (record/replay для веб-поиска и сбора данных), чтобы регрессия ловила изменение агента, а не изменение интернета.
  • Ручная оценка и работа с редакторами (human-in-the-loop). Писать инструкции для разметки и шкалы оценки, готовить наборы для разметки, разбирать расхождения с разметчиками, переводить ручную разметку в машинные датасеты (напр. Google Sheets JSONL).
  • Регрессия и блокирующие проверки в CI. Встраивать проверки-оценки в CI как блокирующие пороговые проверки на изменение промптов/моделей; вести эталонные артефакты (baseline); в сотрудничестве с MLOps-инженерами интегрировать оценку в мониторинг продакшена.
  • Эффективность пайплайнов. Ввести в оценку стоимость и задержку прогонов (агенты ходят в веб-поиск и собирают данные — цена прогона реальна): ловить регресс не только по качеству, но и по стоимости/времени, опираясь на данные трассировки.
  • Устойчивость к дрейфу эталона (ground truth) и стохастике. Разрабатывать методологию для «протухающей» фактологии (неизменные во времени эталоны, живой источник истины как образец, окна свежести) и для недетерминизма LLM: несколько прогонов, согласованность между прогонами (pass^k — доля прогонов, где проходят все k; не путать с pass@k), доверительные интервалы и пороги по нижней границе CI, калибровка уверенности (Brier / ECE).
  • Анализ и исследования. Находить слабые места и «слепые зоны» пайплайнов, выявлять дрейф; изучать и внедрять передовые методы оценки LLM / RAG / агентов (faithfulness, citation, самосогласованность, калибровка судей и т.д.).
Требования:
  • От 4 лет в прикладном ML / NLP / AI, из них от 2 лет — в оценке качества LLM/ML-систем (evaluation) или в роли специалиста по качеству данных (Data Quality).
  • Практический опыт построения оценки для LLM-приложений / RAG / агентных пайплайнов, а не только офлайн-бенчмарков готовых моделей.

Технический стек:

  • Языки: уверенное владение Python; обработка данных и прикладная статистика.
  • Инструменты оценки LLM: практический опыт хотя бы с одним из — DeepEval, Ragas, promptfoo, OpenAI Evals (у нас основной — DeepEval).
  • Трассировка и наблюдаемость: LangSmith, LangFuse или аналоги — выгрузка и анализ трасс из продакшена для построения датасетов.
  • LLM-оркестрация: понимание устройства агентных / RAG-пайплайнов; знакомство с LangChain / LangGraph — плюс.
  • MLOps: понимание CI/CD, уверенная работа с Git; Docker — плюс.

Навыки и знания:

  • Проектирование LLM-as-a-Judge с доказательством валидности: умение не просто собрать судью, а обосновать его калибровкой по человеческой разметке — согласованность, разбор расхождений, версионирование критериев.
  • Понимание, что делает эталонный датасет валидным: стратификация, предотвращение утечки данных (data leakage), репрезентативность выборки.
  • Метрики генеративных / RAG-систем: faithfulness, grounding, citation precision/recall, hallucination — и классические классификационные метрики (F1, precision/recall, accuracy, матрица ошибок).
  • Статистическое и аналитическое мышление: понимание, почему абсолютные пороги хрупки и когда нужно сравнение с замороженным эталоном, а не с фиксированным порогом; умение чётко доносить сложные идеи до команды.
  • Рабочий русский язык: домен, критерии и разметка — на русском, плотное взаимодействие с русскоязычными редакторами.
  • Английский: уверенное чтение технической и академической литературы (статьи по оценке, документация инструментов — на английском).

Будет плюсом:

  • Опыт A/B-тестирования и статистики сравнения вариантов.
  • Опыт с русскоязычным NLP.
  • Насмотренность по академической литературе об оценке LLM (FreshQA, ALCE, SelfCheckGPT и т.п.).
  • Знакомство с классическими корпусными метриками (BLEU, ROUGE, METEOR) — как дополнением, а не основой (у нас оценка построена на LLM-судьях и детерминированной разметке).
Условия:
  • Уровень дохода обсуждается с финальным кандидатом по итогам собеседования.
  • Интересные задачи, крутые кейсы, возможность выйти на новый профессиональный уровень.

  • 100% «белая» заработная плата, официальное трудоустройство по ТК РФ с первого дня.

  • Полная занятость, удаленный формат работы.

  • Пятидневная рабочая неделя, с пн-пт.

  • Дружный и неравнодушный коллектив профессионалов.

  • Программа ДМС после успешного прохождения испытательного срока.

Адрес: Москва, Ленинградский проспект, 15с14

 

Откликнуться на вакансию

Дата
05.07 06.07
USD
2.9062 2.905
EUR
3.3096 3.3156
RUB
3.731 3.7314
CNY
4.2833 4.2863
CHF
3.5857 3.6082
GBP
3.85 3.8754
PLN
7.7059 7.724
Минск
Ночью: °C
Утром: °C
Днем: °C
Вечером: °C

Сейчас: Скорость ветра: 5-7 м/c Атм. давление: 758 мм.рт.ст Влажность: 90%

Спецпредложения