
AI Evaluation & Pipeline Engineer
Построишь систему оценки качества LLM-ответов и цикл оптимизации промптов. С нуля, своим стеком, со своими метриками.
Мы делаем AURA — AI-инструмент, который помогает фаундерам и продактам разобраться, что именно делать с продуктом. Какой сегмент брать, какие гипотезы проверять, куда двигаться. Пока весь рынок автоматизирует «как делать» через Claude Code, Codex и подобные инструменты, мы работаем над «что делать».
AURA строится на продуктовой экспертизе Вани Замесина — автора методологии AJTBD/AURA, через тренинг которого прошли 12 000+ продактов. Уже работаем в закрытой бете, около 500 пользователей.

Что ты будешь делать
- Посмотреть на 50–100 реальных сессий AURA и понять, по каким параметрам ответы различаются в качестве — соответствие методологии, применимость совета, конкретика. Сформулировать 2–3 метрики, которые можно измерять автоматически, и замерить baseline.
- Собрать автоматический eval-пайплайн: прогон, скоринг через LLM-as-Judge и структурные проверки, логирование, дашборд. Чтобы команда принимала продуктовые решения по данным, а не по интуиции.
- Запустить цикл оптимизации промптов — ручной и через autoresearch. Чтобы метрика росла от релиза к релизу и мы это видели.
- Связать eval с реальной продуктовой ценностью: принимают ли фаундеры решения по совету AURA, доходят ли до результата.
- Защитить систему от регрессии — observability, алерты, чтобы случайно не ухудшить качество новой версией промпта.
- Выбрать и внедрить стек. Сейчас под капотом голый OpenRouter без фреймворков — если считаешь, что нужен LangChain, DSPy, LangSmith или что-то ещё, обосновываешь и ставишь сам. Полная свобода.
Что нам точно нужно
- Production-опыт с LLM-системами — не пет-проекты, а живые продукты с пользователями.
- Знание eval-методологий: LLM-as-Judge, rubric-based scoring, inter-annotator agreement.
- Системный prompt engineering с метриками, а не «покрутил промпт, вроде лучше».
- AI-инструменты в ежедневной работе. Не эпизодически, а как дефолт.
Будет плюсом
- Опыт с autoresearch и автоматической оптимизацией — DSPy, ADAS, TextGrad.
- LangChain, LangSmith, Weave, Braintrust, Promptfoo.
- Multi-agent системы — CrewAI, AutoGen, Claude Agent SDK.
- Знание AJTBD
- Observability-инструменты для LLM.
С нами не сработаемся, если
- Ты не используешь AI в работе.
- Ты Data Scientist без LLM-опыта.
- Ты бэкендер, который хочет «войти в AI».
- Тебе нужны детальные ТЗ и пошаговые инструкции. Это research-роль, половина задачи — понять, что вообще измерять.
Как мы работаем
- Асинхронно, удалённо. Минимум 4 часа пересечения с Москвой (UTC+3) — на созвоны и быструю синхронизацию.
- У нас все на «ты», дружелюбно, без формальностей.
- Part-time, 20 часов в неделю. Ставка 150–200 тыс. ₽/мес. Переход на full-time — когда заработает eval-пайплайн с baseline и первая итерация оптимизации.
- Нам важен результат, а не количество рабочих часов.
Что получишь взамен
- Полная свобода — eval и системы улучшения качества. Что измерять, как измерять, как строить цикл оптимизации — всё на тебе.
- Работа над продуктом, построенным на методологии Вани Замесина. Такого уровня продуктовой экспертизы в AI-продукте не найдёшь в другом месте.
- Видимый результат: твои метрики реально используются для решений, а не лежат в дашборде для галочки.
- LLM-eval сейчас горячая тема — хороший материал для личного бренда, публикаций и выступлений.
Как будем знакомиться
- Заявка — минут на 20. Ответы на вопросы, пара примеров твоих прошлых eval-систем: код, публикация, open-source.
- Созвон на 30 минут — знакомимся, обсуждаем мотивацию и опыт, смотрим, совпадаем ли по вайбу.
- Техническое интервью — 30 минут. Говорим про твой опыт: какие LLM-системы ты строил, как оценивал качество, где ломалось, что делал дальше. Без живого кодинга, без кейса — просто разбираемся, чем ты реально занимался.
- Тестовое задание — 1–3 часа. Небольшой кусок на нашем материале, чтобы посмотреть, как ты думаешь и пишешь код. Детали пришлём после интервью.
- Финал с Ваней — 45 минут. Стратегия, культура, твои вопросы нам.
- Обещаем не тянуть: от заявки до оффера — пара недель, если активно общаемся.
Остались вопросы? Напиши в @teamzamesin
*Meta Platforms Inc. признана экстремистской организацией; её деятельность запрещена на территории Российской Федерации