AI Evaluation & Pipeline Engineer

Делаешь AI-pipeline измеряемым: настраиваешь evals и autoresearch-цикл — чтобы агенты улучшали промпты по метрикам, а не на ощупь.

Мы строим AI‑продукт: pipeline агентов, который генерирует сегменты клиентов, графы работ (AJTBD), критические цепочки и бизнес‑модели. Главная проблема — мы не умеем измерять качество выхода каждого этапа pipeline. Без метрик невозможно ни улучшать промпты, ни прикрутить автоматическую оптимизацию (autoresearch‑подход Карпати).

Нам нужен человек, который построит систему оценки (evals), настроит autoresearch‑цикл и будет итеративно улучшать качество генерации.

Основные задачи

Проектировать evals: рубрики для LLM‑as‑Judge, структурные проверки, композитные метрики для каждого этапа pipeline
Создавать и поддерживать gold standard: вместе с Ваней [доменный эксперт AJTBD] создавать эталонные выходы для тестовых продуктов
Строить eval pipeline: автоматический прогон промптов по тест‑кейсам, скоринг, логирование, дашборд результатов
Оптимизировать промпты: ручной и автоматический [autoresearch] prompt engineering
Строить agent orchestration: multi‑step pipeline, передача контекста между этапами, обработка ошибок
Мониторить качество: observability, логирование, алерты при деградации метрик

Кого ищем

Опыт с LLM в production — не pet projects, а реальные pipeline
Python на уровне построения data/ML pipelines
Понимание eval‑методологий: LLM‑as‑Judge, rubric‑based scoring, inter‑annotator agreement, A/B тестирование промптов
Системный prompt engineering: metric‑driven, не vibe‑based
Structured output: JSON schema, Pydantic, validation
Английский B2+: документация, промпты, LLM‑коммуникация
Активно используешь AI и вайбкодинг — AI‑инструменты ускоряют твою работу каждый день

Будет плюсом

Опыт с autoresearch / automated prompt optimization [DSPy, ADAS, TextGrad]
Знание фреймворков: LangChain, LangSmith, Weave, Braintrust, Promptfoo
Опыт с multi‑agent systems [CrewAI, AutoGen, Claude Agent SDK]
Знание продуктовых методологий [JTBD, Lean, Design Thinking] — поможет понять домен
Опыт работы с observability [трейсинг LLM‑вызовов, стоимость, латентность]

Кто точно не подходит

Человек, который «немного баловался с ChatGPT» — нам нужен инженер, не энтузиаст
Data Scientist без опыта LLM pipelines — другая специализация
Backend‑разработчик без опыта работы с LLM — нужен именно AI engineering
Человек, который ждёт детальных ТЗ — у нас исследовательская работа, нужна инициатива

Как мы работаем

Полная удалёнка, асинхронно. Пересечение с Москвой [UTC+3] минимум 4 часа
Нам важен результат, а не количество рабочих часов
Постоянно используем инструменты и подходы, которым Ваня Замесин учит на курсах, и регулярно прокачиваем навыки
AI не ради тренда — строим AI‑продукт нового типа с autoresearch‑оптимизацией и agent pipelines

Что мы предлагаем

150–200 к/мес, part‑time [20 часов/неделю] с переходом в full‑time по результатам
Работаешь с Ваней Замесиным, учишься думать продуктом
Строишь AI‑продукт нового типа на острие технологий
Причастность к международному масштабированию AURA/JTBD
Бесплатное обучение «Как делать продукт»
Оплачиваем необходимые для работы подписки на AI-инструменты

Как мы знакомимся

1. Откликнись на вакансию [займёт ~20 минут]
2. Подходящих кандидатов пригласим на первичное интервью [до ~30 минут]
3. Тестовое задание: напиши рубрику оценки, реализуй LLM‑as‑Judge, покажи улучшение метрики
4. Финальное интервью с Ваней Замесиным [до ~30 минут]

Остались вопросы? Напиши в @teamzamesin

AI Evaluation & Pipeline Engineer

Основные задачи

Проектировать evals: рубрики для LLM‑as‑Judge, структурные проверки, композитные метрики для каждого этапа pipeline

Создавать и поддерживать gold standard: вместе с Ваней [доменный эксперт AJTBD] создавать эталонные выходы для тестовых продуктов

Строить eval pipeline: автоматический прогон промптов по тест‑кейсам, скоринг, логирование, дашборд результатов

Оптимизировать промпты: ручной и автоматический [autoresearch] prompt engineering

Строить agent orchestration: multi‑step pipeline, передача контекста между этапами, обработка ошибок

Мониторить качество: observability, логирование, алерты при деградации метрик

Кого ищем

Опыт с LLM в production — не pet projects, а реальные pipeline

Python на уровне построения data/ML pipelines

Понимание eval‑методологий: LLM‑as‑Judge, rubric‑based scoring, inter‑annotator agreement, A/B тестирование промптов

Системный prompt engineering: metric‑driven, не vibe‑based

Structured output: JSON schema, Pydantic, validation

Английский B2+: документация, промпты, LLM‑коммуникация

Активно используешь AI и вайбкодинг — AI‑инструменты ускоряют твою работу каждый день

Будет плюсом

Опыт с autoresearch / automated prompt optimization [DSPy, ADAS, TextGrad]

Знание фреймворков: LangChain, LangSmith, Weave, Braintrust, Promptfoo

Опыт с multi‑agent systems [CrewAI, AutoGen, Claude Agent SDK]

Знание продуктовых методологий [JTBD, Lean, Design Thinking] — поможет понять домен

Опыт работы с observability [трейсинг LLM‑вызовов, стоимость, латентность]

Кто точно не подходит

Человек, который «немного баловался с ChatGPT» — нам нужен инженер, не энтузиаст

Data Scientist без опыта LLM pipelines — другая специализация

Backend‑разработчик без опыта работы с LLM — нужен именно AI engineering

Человек, который ждёт детальных ТЗ — у нас исследовательская работа, нужна инициатива

Как мы работаем

Полная удалёнка, асинхронно. Пересечение с Москвой [UTC+3] минимум 4 часа

Нам важен результат, а не количество рабочих часов

Постоянно используем инструменты и подходы, которым Ваня Замесин учит на курсах, и регулярно прокачиваем навыки

AI не ради тренда — строим AI‑продукт нового типа с autoresearch‑оптимизацией и agent pipelines

Что мы предлагаем

150–200 к/мес, part‑time [20 часов/неделю] с переходом в full‑time по результатам

Работаешь с Ваней Замесиным, учишься думать продуктом

Строишь AI‑продукт нового типа на острие технологий

Причастность к международному масштабированию AURA/JTBD

Бесплатное обучение «Как делать продукт»

Оплачиваем необходимые для работы подписки на AI-инструменты

Как мы знакомимся

1. Откликнись на вакансию [займёт ~20 минут]

2. Подходящих кандидатов пригласим на первичное интервью [до ~30 минут]

3. Тестовое задание: напиши рубрику оценки, реализуй LLM‑as‑Judge, покажи улучшение метрики

4. Финальное интервью с Ваней Замесиным [до ~30 минут]