
AI Evaluation & Pipeline Engineer
Делаешь AI-pipeline измеряемым: настраиваешь evals и autoresearch-цикл — чтобы агенты улучшали промпты по метрикам, а не на ощупь.
Мы строим AI‑продукт: pipeline агентов, который генерирует сегменты клиентов, графы работ (AJTBD), критические цепочки и бизнес‑модели. Главная проблема — мы не умеем измерять качество выхода каждого этапа pipeline. Без метрик невозможно ни улучшать промпты, ни прикрутить автоматическую оптимизацию (autoresearch‑подход Карпати).
Нам нужен человек, который построит систему оценки (evals), настроит autoresearch‑цикл и будет итеративно улучшать качество генерации.

Основные задачи
- Проектировать evals: рубрики для LLM‑as‑Judge, структурные проверки, композитные метрики для каждого этапа pipeline
- Создавать и поддерживать gold standard: вместе с Ваней [доменный эксперт AJTBD] создавать эталонные выходы для тестовых продуктов
- Строить eval pipeline: автоматический прогон промптов по тест‑кейсам, скоринг, логирование, дашборд результатов
- Оптимизировать промпты: ручной и автоматический [autoresearch] prompt engineering
- Строить agent orchestration: multi‑step pipeline, передача контекста между этапами, обработка ошибок
- Мониторить качество: observability, логирование, алерты при деградации метрик
Кого ищем
- Опыт с LLM в production — не pet projects, а реальные pipeline
- Python на уровне построения data/ML pipelines
- Понимание eval‑методологий: LLM‑as‑Judge, rubric‑based scoring, inter‑annotator agreement, A/B тестирование промптов
- Системный prompt engineering: metric‑driven, не vibe‑based
- Structured output: JSON schema, Pydantic, validation
- Английский B2+: документация, промпты, LLM‑коммуникация
- Активно используешь AI и вайбкодинг — AI‑инструменты ускоряют твою работу каждый день
Будет плюсом
- Опыт с autoresearch / automated prompt optimization [DSPy, ADAS, TextGrad]
- Знание фреймворков: LangChain, LangSmith, Weave, Braintrust, Promptfoo
- Опыт с multi‑agent systems [CrewAI, AutoGen, Claude Agent SDK]
- Знание продуктовых методологий [JTBD, Lean, Design Thinking] — поможет понять домен
- Опыт работы с observability [трейсинг LLM‑вызовов, стоимость, латентность]
Кто точно не подходит
- Человек, который «немного баловался с ChatGPT» — нам нужен инженер, не энтузиаст
- Data Scientist без опыта LLM pipelines — другая специализация
- Backend‑разработчик без опыта работы с LLM — нужен именно AI engineering
- Человек, который ждёт детальных ТЗ — у нас исследовательская работа, нужна инициатива
Как мы работаем
- Полная удалёнка, асинхронно. Пересечение с Москвой [UTC+3] минимум 4 часа
- Нам важен результат, а не количество рабочих часов
- Постоянно используем инструменты и подходы, которым Ваня Замесин учит на курсах, и регулярно прокачиваем навыки
- AI не ради тренда — строим AI‑продукт нового типа с autoresearch‑оптимизацией и agent pipelines
Что мы предлагаем
- 150–200 к/мес, part‑time [20 часов/неделю] с переходом в full‑time по результатам
- Работаешь с Ваней Замесиным, учишься думать продуктом
- Строишь AI‑продукт нового типа на острие технологий
- Причастность к международному масштабированию AURA/JTBD
- Бесплатное обучение «Как делать продукт»
- Оплачиваем необходимые для работы подписки на AI-инструменты
Как мы знакомимся
- 1. Откликнись на вакансию [займёт ~20 минут]
- 2. Подходящих кандидатов пригласим на первичное интервью [до ~30 минут]
- 3. Тестовое задание: напиши рубрику оценки, реализуй LLM‑as‑Judge, покажи улучшение метрики
- 4. Финальное интервью с Ваней Замесиным [до ~30 минут]
Остались вопросы? Напиши в @teamzamesin