Вместе с Timeweb мы уже написали Чат-руководство, задали стиль общения с клиентами, обновили систему оценки качества и внедрили двух умных ботов на основе нейросети. Команда увидела эффект от обновленного чек-листа и автоматизации поддержки — и захотела автоматизировать и контроль качества.
Разбор одного диалога занимал 8-10 минут, но в сложных кейсах – до получаса. Эксперты не успевали охватить всё. При этом в Timeweb хотели не просто сохранить качество, но и использовать работу с диалогами стратегически: находить инсайты о клиентском опыте и зоны роста.
Чтобы двигаться в эту сторону, нужно было либо наращивать штат экспертов, либо забирать часть рутинной проверки у людей. Команда выбрала второе — и по словам Даши Вороновой, руководителя информационной поддержки Timeweb, они пришли к нам за понятным осязаемым результатом, который сразу можно применять на практике. Прошлый бэкграунд тоже был плюсом — мы уже были погружены в продукт и не нужен был этап онбординга в процессы ребят.
Кто делал проект?

Даша Воронова

Паша Ширяев

Анастасия Тригуб

Артем Симаков
Как работал контроль качества на старте
В Timeweb видели, как подробный фидбэк улучшает стиль общения и снижает число ошибок. Но при объёме в тысячи обращений в месяц вручную поддерживать такой уровень становилось всё сложнее. В среднем удавалось охватить 11% ответов.
Каждое обращение проверяется по чек-листу из 70 пунктов: от грамотности и эмпатии до корректности технических ответов. После оценки специалист дает развернутый фидбэк — с примерами, рекомендациями и разъяснениями.20-30 минут уходило на написание одного фидбэка по объемному ответу
Для меня полноценный фидбэк — это не только указать на ошибку. Мне важно научить саппорта, объяснить ему на примере ошибки, как поступить в следующий раз. Если это возможно, отметить сильные стороны. Хоть на все подробности порой уходит много времени, зато так выше вероятность, что фидбэк не обидит саппорта и принесёт реальную пользу.
Ещё одной сложностью оказались инструменты. Часть работы команда делала в Google-таблицах, часть — во внутреннем модуле контроля качества. Это старая разработка: когда-то команда написала свой сервисдеск и добавила к нему модуль контроля. С тех пор его не меняли, функционал остался базовый: выборка случайных диалогов и передача фидбэка. Хотя потенциал у модуля большой — можно было бы автоматизировать проверку, накапливать данные, видеть динамику сотрудников.
Команда проверяла кейс в админке, а чек-лист заполняли в google-таблицах:

Чтобы оценить один диалог, приходилось переходить между окнами: в одном месте — таблица для фиксации оценки, в другом — поле для фидбэка.
Статистика тоже хранилась в нескольких местах. Чтобы собрать данные по количеству и качеству проверок, приходилось использовать сразу два инструмента.

В итоге у контроля качества оставалось не так много времени на внутренние аудиты, открытые разборы с саппортами и обновление методик. Команде было сложно двигаться дальше — в масштабах и в глубину.
Цели проекта
Timeweb попросили помочь с конкретным решением: создать внутренний инструмент на базе нейросети. Он должен взять на себя часть работы: оценивать диалоги по стандартам, ускорить проверки и снизить нагрузку на людей.
Какие задачи предстояло решить помощнику:
- Автоматизировать рутину: оценки, комментарии, подсказки.
- Ускорить разбор обращений.
- Помогать проверять больше, но без потери качества.
Как мы построили работу: от идей к рабочей системе
Так выглядел процесс нашей работы:
- Начали с главного — отобрали критерии, которые реально можно автоматизировать без потери качества.
- Создали промпты, по которым будет работать нейросеть.
- Всё проверяли на реальных диалогах. Калибровались с командой, разбирали расхождения, дорабатывали. Добились точности автоскоринга — 89%, это на уровне опытного специалиста.
- Обучили команду работать с промптами и тестировать результат с помощью no-code решения.
- Перенесли инструмент во внутреннюю систему, чтобы всё работало в рамках интерфейса.
89% точность автоскоринга, которой нам удалось добитьсяРассказываем, как мы прошли этот путь с командой Timeweb.
Первым шагом или нашим «нулевым» этапом стал MVP. Он занял месяц и позволил понять, насколько мы можем решить этот запрос.
Мы проверяли, может ли нейросеть качественно оценивать диалоги по тем же критериям, что и человек.

Для этого провели аудит. Погрузились в процессы контроля качества: провели интервью, изучили регламенты, операционные метрики и чек-листы.
Вместе с командой выбрали 26 критериев оценки, которые без интеграций можно доверить нейросети. По 19 из них (это 23% от чек-листа) она стабильно давала точную оценку.
В отбор попали критерии, которые можно проверить без знания продукта — например, «Поздороваться с клиентом», «Избегать обвинений», «Писать “вы” со строчной», «Объяснить причину отказа». Они опираются на текст и тон, а не на специфику тарифа или историю обращений.
Для каждого написали отдельный промпт с описанием цели, ошибок и допустимой вариативности. Не просто «оцени», а с полным контекстом: кто проверяет, что считается ошибкой, где допустима вариативность.
Например, в критерии про эмпатию мы просили нейросеть оценивать ответы строго по тону клиента: не требовать участия, если сообщение нейтральное, и наоборот — мягко подсказывать, где не хватило вовлечённости.
После этого собрали тестовую инфраструктуру на базе N8N, no-code платформе для автоматизации, чтобы быстро запускать проверки на большом объеме диалогов. Без кода, без сложной разработки — чтобы команда могла запускать и корректировать скоринг сама.
В параллель мы добавили ещё одну функцию — генерацию обратной связи. По каждому диалогу помощник теперь пишет развёрнутый фидбэк: указывает сильные стороны, объясняет, где и почему есть ошибки, предлагает, как сформулировать иначе. Итоговая точность этих тестов уже достигла 93%. 93% точность генерации обратной связи от нейросети
Формат обратной связи от нейросети:
Ты дал четкий и понятный прямой ответ клиенту, сразу обозначив ключевую информацию. Это очень важное качество, ведь прозрачная и логичная коммуникация позволяет клиентам лучше понимать процессы. Продолжай в том же духе — такие ответы повышают доверие к нашей компании.
Теперь разберем моменты, которые стоит улучшить:
— Не обвинять пользователя: в твоем ответе фраза «Мы не можем указывать то, чего нет в системе» звучит как перекладывание ответственности на клиента. Это может оставлять неприятное впечатление. Лучше сформулировать мягче, например, «К сожалению, в нашей системе эти документы фиксируются раздельно».
— Эмпатия: твой ответ фактически хороший, но в нем не хватает вовлеченности. Например, клиент обозначил проблему, и ему важно услышать не только факт, но и вариант решения. Постарайся больше проявлять участие, это поможет наладить контакт и быстрее решить вопросы.
— Общаться без сложных слов и конструкций: фраза «мы не можем указывать то, чего нет в системе» немного канцеляритная — перегружена официальной формулировкой. Пример проще: «Мы указываем только те данные, которые есть в системе». Так легче понять мысль.
Все остальные критерии выполнены на отлично: грамотность на высоте, ты корректно поздоровался и не использовал сложные термины. Продолжай работать над эмпатией, следи за формулировками. Удачи ✨
На следующем этапе к работе над созданием помощника начали активно привлекать команду, чтобы менеджеры могли управлять процессом сами.
Объяснили, как работает автоскоринг, провели две лекции о нейросетях и промптинге, а потом воркшоп: на нём сотрудники сами учились писать промпты под выбранные критерии. Нам было важно, чтобы команда не просто использовала созданный нами инструмент, а понимала, как работать с нейросетью.
Мне всегда казалось, что работа с промптами — это что-то уровня базового поиска в гугле, где достаточно запроса без большого контекста. Как же я тогда ошибался! Лекции и воркшоп расставили все точки над i, мы погрузились в написание промптов под критерии — это было непросто, на моменте тестирования приходилось много раз переписывать информацию, чтобы не было ошибок у бота. Это было интересно, сложно, но с работой справились.
Одновременно продолжали тесты, и добились роста качества оценок от нейросети. Это подтвердило, что модель можно постепенно начинать использовать.
Тестовое внедрение и методички
Следующим шагом стал пользовательский интерфейс для проверки: мы вместе с командой создали тестовый модуль, в который встроили автоскоринг. Он доказал, что важно работать в одном окне. Разработку нового модуля начали в более срочном приоритете.

Работа над критериями не останавливалась, и к этому моменту мы смогли автоматизировать ещё 6% чек-листа. Промпты по четырем новым критериям написали уже сами менеджеры — от черновика до финального теста.
Так получили результат – 29% от чек-листа теперь проверяет нейросеть, результат на 89% совпадал с оценками специалистов.29% от чек-листа теперь проверяет нейросеть В отдельных критериях оценка искусственного интеллекта была даже строже, чем у людей. Например, нейросеть эффективнее следит за критерием «не обвинять пользователя» и лучше находит его нарушения саппортами.
Вишенка на торте — аналитика и прогнозирование
Когда основная задача была решена — автоскоринг стабильно проверял часть чек-листа и ставил точные оценки — мы начали тестировать проактивный сценарий.
Проактивный анализ — это подход, при котором нейросеть не просто оценивает диалоги, а помогает заранее выявлять риски: падение CSI, высокий CES, негатив клиента, повторные обращения или возможный отток. Это позволяет находить слабые места до того, как проблема станет критичной. Например, если клиенты просят помощи с каким-то действием в личном кабинете, мы можем увидеть, что проблема шире — в запутанном интерфейсе.
Пока это тестируется: мы ещё не встроили его в процессы полностью, но команда уже думает, как развернуть решение дальше.
Мы уже упоминали работу над ботами. Во время проекта с автоскорингом выяснилось, что команда поддержки стала амбассадором ИИ внутри компании.
Для компании актуально развивать работу с ИИ во всех проявлениях. Мы сделали один большой и очень полезный проект, показали результаты — теперь в команде есть люди, которые могут делать проекты с нейросетями. И это ценно. Поэтому нас считают экспертами в том, как сделать с помощью нейросети полезные фичи. Не просто «что-то прикольное с ИИ», а то, что помогает в работе, оптимизирует ресурсы и процессы.
Что дальше
Автоскоринг заработал, но проект не завершён, команда развивает инструмент внутри.
Следующий этап — доработка нового модуля контроля качества. Он позволит объединить автоскоринг и чек-лист оценки саппорта, чтобы проверки шли в едином интерфейсе, без Google-таблиц и перескоков.
Это ещё больше сэкономит время проверки каждого кейса, а также развяжет команде руки в продолжении работы над автоматизацией критериев.
Как я себя чувствую в финале проекта: мне точно нужно еще некоторое время, чтобы все осознать и отрефлексировать и поверить, что я все это могу теперь сама. Но по ощущениям, я за последние два месяца выросла больше, чем за год! Потому что из девочки, которая в ChatGPT выбирала себе тушь для ресниц и понятия не имела, что такое промпт вообще, я превратилась в человека, который (предположительно, это я еще отрефлексирую) может писать сложные многосоставные промпты, отслеживать баги в них. И вообще, ChatGPT теперь составляет мне капсульный гардероб.
Точно могу сказать, что теперь я знаю сильно больше, чем на старте проекта, мне очень понравилось. Мои запросы в ChatGPT получили мощный буст, теперь они комплексные и я могу понять, что в промпте предположительно лишнее, чтобы исправить. Это круто! Сам проект дальше будет совершенствоваться, ждем полного внедрения в рабочие инструменты, чтобы продолжить автоматизацию.
Как запускать автоскоринг: инструкция Supprt.Science
- Определите цель
- Проведите аудит
- Начинайте с простых критериев
- Ищите точки роста
- Автоматизируйте поэтапно
Проект должен решать конкретную задачу. Например, сократить время проверки, повысить качество обратной связи или найти слабые места в продукте. Без цели можно проделать много лишней работы.
Прежде чем автоматизировать, нужно изучить процессы и выявить реальные боли. Возможно, достаточно упростить чек-лист, пересмотреть формат оценки, убрать лишние этапы и можно достичь целей без автоматизации.
Не пытайтесь сразу охватить всё качество общения. Начинайте работу с нейросетью с простого: оценки тональности, грамотности, эмпатии. Эти критерии помогут сформировать промпты и постепенно усложнить задачу.
Скоринг — не только про контроль и выставление баллов, он помогает находить паттерны ошибок, улучшать процессы и развивать команду с опорой на понимание слабых мест.
Лучше стабильно покрыть 20% рутинных задач, чем пытаться автоматизировать все сразу и увеличить риск ошибок. Надёжная итерация сильнее одного большого запуска.
Illustration and design by Tatiana Kochetkova