Город: Астана
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет
NLP Engineer будет разрабатывать и внедрять решения на основе обработки естественного языка, обработки речи и мультимодального машинного обучения для автоматизации обработки структурированных диалогов, валидации формируемых документов на соответствие нормативным требованиям и формирования аналитических выводов для конечного пользователя - с обеспечением точности, объяснимости и контролируемого уровня галлюцинаций моделей.
Обязанности:
- Разработка и развитие LLM-пайплайна Stage 1: cleanup транскриптов после диаризации (Sortformer + Whisper Large V3), автоматическое определение ролей спикеров и флагирование значимых событий в диалоге;
- Разработка и развитие LLM-пайплайна Stage 2: автогенерация структурированных документов в форматах DOCX/XML для backend-системы редактирования и многоступенчатая compliance-проверка по доменным правилам (~30+ нормативных требований);
- Файнтюнинг и prompt-инженерия LLM (gpt-class и open-weight моделей) под доменную задачу на казахском и русском языках; снижение hallucination rate и стабилизация выводов между запусками;
- NER в доменных текстах: участники диалога, действия, временные и пространственные метки, нормативные ссылки;
- Семантическая сегментация транскриптов: разбиение на смысловые эпизоды и выделение ключевых моментов (формальные процедуры, ходатайства, паузы, вопрос–ответ);
- Разработка eval-методик и regression-тестов LLM-выводов; ведение бенчмарков моделей (accuracy по доменным правилам, false-positive / false-negative, стабильность между запусками);
- Создание LLM-агента, который интерпретирует поведенческие и эмоциональные сигналы от CV- и Audio-модулей и формирует связный текст аналитического характера для конечного пользователя;
- Работа с юридическими онтологиями и нормативными источниками: УПК РК (в т.ч. статьи 68, 77, 115), УК РК, Конституция РК; поддержка актуальности базы знаний при изменениях законодательства;
- Дообучение и оптимизация ASR-моделей (Whisper Large V3, Sortformer V4 для диаризации) на казахском и русском языках с адаптацией под акустику целевого помещения, фоновые шумы, региональные акценты и доменную лексику; экспорт ONNX/TensorRT и развёртывание на Jetson;
- Разработка пайплайна извлечения аудио-просодических признаков (F0/pitch, jitter, shimmer, intensity, speech rate, паузы, voice quality, eGeMAPS) и моделирование на их основе психоэмоциональных маркеров (стресс, неуверенность, эмоциональное напряжение);
- Разработка финального мультимодального fusion-слоя: интеграция текстовых эмбеддингов (NLP), аудио-просодических признаков и визуальных сигналов от CV-модуля (мимика, микродвижения, поза) в единую интерпретацию психоэмоционального состояния спикера;
- Формирование итоговых аналитических выводов для конечного пользователя в виде структурированных мультимодальных аннотаций: фрагмент диалога с просодическим контекстом и поведенческими маркерами, ранжирование моментов по уровню значимости с указанием уровня уверенности модели.
-
3+ года в NLP/LLM; опыт production-проектов с end-to-end LLM-пайплайнами;
-
Глубокое знание архитектур трансформеров и LLM; опыт файнтюнинга (LoRA / QLoRA / SFT) и instruction tuning под доменные задачи;
-
Уверенное владение HuggingFace Transformers, vLLM, llama.cpp; опыт inference-оптимизации (квантование, batching, KV-cache); работа с локально развёрнутыми моделями;
-
Глубокие навыки построения RAG: chunking-стратегии, векторные БД (pgvector / FAISS / Pinecone), reranking, мультиязычные embeddings (включая казахский);
-
Опыт минимизации галлюцинаций: structured outputs, guardrails, constrained decoding; ведение LLM-eval (ragas, LangSmith и аналоги);
-
Опыт промышленной разработки на Python (FastAPI / Flask, Docker, Git); понимание юридического домена и работы с KZ/RU языками;
-
Опыт дообучения ASR-моделей (Whisper / wav2vec2 / Sortformer) на доменных данных; работа с диаризацией спикеров, спикер-эмбеддингами и шумоподавлением;
-
Практический опыт извлечения и моделирования аудио-просодических и paralinguistic-признаков (librosa, openSMILE, parselmouth / Praat, eGeMAPS); понимание акустических коррелятов эмоций и стресса;
-
Опыт мультимодального fusion (early / late / hybrid fusion, cross-modal attention); работа с Audio Transformers (AST, HuBERT, wav2vec2) и multimodal LLM.
- Проекты в области LegalTech и цифровизации;
- Живые задачи, быстрые решения и пространство для инициативы;
- Оформление в штат, испытательный срок 3 месяца;
- График: 5/2, 9:00–18:00.
Адрес: Астана, улица Жошы хана, 27
Похожие вакансии