Просмотр вакансии

Сегодня 28-06-2026 18:39
26.06.2026, 11:12

Senior NLP Engineer

Работодатель: Виктори-Технолоджи

Виктори-Технолоджи

Город: Астана
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет

NLP Engineer будет разрабатывать и внедрять решения на основе обработки естественного языка, обработки речи и мультимодального машинного обучения для автоматизации обработки структурированных диалогов, валидации формируемых документов на соответствие нормативным требованиям и формирования аналитических выводов для конечного пользователя - с обеспечением точности, объяснимости и контролируемого уровня галлюцинаций моделей.

Обязанности:

  • Разработка и развитие LLM-пайплайна Stage 1: cleanup транскриптов после диаризации (Sortformer + Whisper Large V3), автоматическое определение ролей спикеров и флагирование значимых событий в диалоге;
  • Разработка и развитие LLM-пайплайна Stage 2: автогенерация структурированных документов в форматах DOCX/XML для backend-системы редактирования и многоступенчатая compliance-проверка по доменным правилам (~30+ нормативных требований);
  • Файнтюнинг и prompt-инженерия LLM (gpt-class и open-weight моделей) под доменную задачу на казахском и русском языках; снижение hallucination rate и стабилизация выводов между запусками;
  • NER в доменных текстах: участники диалога, действия, временные и пространственные метки, нормативные ссылки;
  • Семантическая сегментация транскриптов: разбиение на смысловые эпизоды и выделение ключевых моментов (формальные процедуры, ходатайства, паузы, вопрос–ответ);
  • Разработка eval-методик и regression-тестов LLM-выводов; ведение бенчмарков моделей (accuracy по доменным правилам, false-positive / false-negative, стабильность между запусками);
  • Создание LLM-агента, который интерпретирует поведенческие и эмоциональные сигналы от CV- и Audio-модулей и формирует связный текст аналитического характера для конечного пользователя;
  • Работа с юридическими онтологиями и нормативными источниками: УПК РК (в т.ч. статьи 68, 77, 115), УК РК, Конституция РК; поддержка актуальности базы знаний при изменениях законодательства;
  • Дообучение и оптимизация ASR-моделей (Whisper Large V3, Sortformer V4 для диаризации) на казахском и русском языках с адаптацией под акустику целевого помещения, фоновые шумы, региональные акценты и доменную лексику; экспорт ONNX/TensorRT и развёртывание на Jetson;
  • Разработка пайплайна извлечения аудио-просодических признаков (F0/pitch, jitter, shimmer, intensity, speech rate, паузы, voice quality, eGeMAPS) и моделирование на их основе психоэмоциональных маркеров (стресс, неуверенность, эмоциональное напряжение);
  • Разработка финального мультимодального fusion-слоя: интеграция текстовых эмбеддингов (NLP), аудио-просодических признаков и визуальных сигналов от CV-модуля (мимика, микродвижения, поза) в единую интерпретацию психоэмоционального состояния спикера;
  • Формирование итоговых аналитических выводов для конечного пользователя в виде структурированных мультимодальных аннотаций: фрагмент диалога с просодическим контекстом и поведенческими маркерами, ранжирование моментов по уровню значимости с указанием уровня уверенности модели.
Требования:
  • 3+ года в NLP/LLM; опыт production-проектов с end-to-end LLM-пайплайнами;

  • Глубокое знание архитектур трансформеров и LLM; опыт файнтюнинга (LoRA / QLoRA / SFT) и instruction tuning под доменные задачи;

  • Уверенное владение HuggingFace Transformers, vLLM, llama.cpp; опыт inference-оптимизации (квантование, batching, KV-cache); работа с локально развёрнутыми моделями;

  • Глубокие навыки построения RAG: chunking-стратегии, векторные БД (pgvector / FAISS / Pinecone), reranking, мультиязычные embeddings (включая казахский);

  • Опыт минимизации галлюцинаций: structured outputs, guardrails, constrained decoding; ведение LLM-eval (ragas, LangSmith и аналоги);

  • Опыт промышленной разработки на Python (FastAPI / Flask, Docker, Git); понимание юридического домена и работы с KZ/RU языками;

  • Опыт дообучения ASR-моделей (Whisper / wav2vec2 / Sortformer) на доменных данных; работа с диаризацией спикеров, спикер-эмбеддингами и шумоподавлением;

  • Практический опыт извлечения и моделирования аудио-просодических и paralinguistic-признаков (librosa, openSMILE, parselmouth / Praat, eGeMAPS); понимание акустических коррелятов эмоций и стресса;

  • Опыт мультимодального fusion (early / late / hybrid fusion, cross-modal attention); работа с Audio Transformers (AST, HuBERT, wav2vec2) и multimodal LLM.

Условия:
  • Проекты в области LegalTech и цифровизации;
  • Живые задачи, быстрые решения и пространство для инициативы;
  • Оформление в штат, испытательный срок 3 месяца;
  • График: 5/2, 9:00–18:00.

Адрес: Астана, улица Жошы хана, 27

 

Откликнуться на вакансию

Дата
28.06 29.06
USD
2.8228 2.8858
EUR
3.2072 3.292
RUB
3.77 3.7443
CNY
4.1492 4.2289
CHF
3.4781 3.5704
GBP
3.722 3.8149
PLN
7.4788 7.6833
Минск
Ночью: °C
Утром: °C
Днем: °C
Вечером: °C

Сейчас: Скорость ветра: 5-7 м/c Атм. давление: 758 мм.рт.ст Влажность: 90%

Спецпредложения