Автоскоринг для поддержки: как Timeweb доверил оценку диалогов нейросети — и выиграл

Рассказываем, как мы научили нейросеть оценивать качество ответов поддержки, и теперь она помогает проверить почти треть чек-листа ОКК, а эксперты – валидируют результат.
Рассказывает

Вместе с Timeweb мы уже написали Чат-руководство, задали стиль общения с клиентами, обновили систему оценки качества и внедрили двух умных ботов на основе нейросети. Команда увидела эффект от обновленного чек-листа и автоматизации поддержки — и захотела автоматизировать и контроль качества.

Разбор одного диалога занимал 8-10 минут, но в сложных кейсах – до получаса. Эксперты не успевали охватить всё. При этом в Timeweb хотели не просто сохранить качество, но и использовать работу с диалогами стратегически: находить инсайты о клиентском опыте и зоны роста.

Чтобы двигаться в эту сторону, нужно было либо наращивать штат экспертов, либо забирать часть рутинной проверки у людей. Команда выбрала второе — и по словам Даши Вороновой, руководителя информационной поддержки Timeweb, они пришли к нам за понятным осязаемым результатом, который сразу можно применять на практике. Прошлый бэкграунд тоже был плюсом — мы уже были погружены в продукт и не нужен был этап онбординга в процессы ребят.

Кто делал проект?

Даша Воронова

Паша Ширяев

Анастасия Тригуб

Артем Симаков

Как работал контроль качества на старте

В Timeweb видели, как подробный фидбэк улучшает стиль общения и снижает число ошибок. Но при объёме в тысячи обращений в месяц вручную поддерживать такой уровень становилось всё сложнее. В среднем удавалось охватить 11% ответов.
Каждое обращение проверяется по чек-листу из 70 пунктов: от грамотности и эмпатии до корректности технических ответов. После оценки специалист дает развернутый фидбэк — с примерами, рекомендациями и разъяснениями.20-30 минут уходило на написание одного фидбэка по объемному ответу

Егор

Старший специалист контроля качества Timeweb

Для меня полноценный фидбэк — это не только указать на ошибку. Мне важно научить саппорта, объяснить ему на примере ошибки, как поступить в следующий раз. Если это возможно, отметить сильные стороны. Хоть на все подробности порой уходит много времени, зато так выше вероятность, что фидбэк не обидит саппорта и принесёт реальную пользу.

Ещё одной сложностью оказались инструменты. Часть работы команда делала в Google-таблицах, часть — во внутреннем модуле контроля качества. Это старая разработка: когда-то команда написала свой сервисдеск и добавила к нему модуль контроля. С тех пор его не меняли, функционал остался базовый: выборка случайных диалогов и передача фидбэка. Хотя потенциал у модуля большой — можно было бы автоматизировать проверку, накапливать данные, видеть динамику сотрудников.

Команда проверяла кейс в админке, а чек-лист заполняли в google-таблицах:

Чтобы оценить один диалог, приходилось переходить между окнами: в одном месте — таблица для фиксации оценки, в другом — поле для фидбэка.

Статистика тоже хранилась в нескольких местах. Чтобы собрать данные по количеству и качеству проверок, приходилось использовать сразу два инструмента. 

В итоге у контроля качества оставалось не так много времени на внутренние аудиты, открытые разборы с саппортами и обновление методик. Команде было сложно двигаться дальше — в масштабах и в глубину.

Цели проекта

Timeweb попросили помочь с конкретным решением: создать внутренний инструмент на базе нейросети. Он должен взять на себя часть работы: оценивать диалоги по стандартам, ускорить проверки и снизить нагрузку на людей.

Какие задачи предстояло решить помощнику:

  • Автоматизировать рутину: оценки, комментарии, подсказки.
  • Ускорить разбор обращений.
  • Помогать проверять больше, но без потери качества.

Как мы построили работу: от идей к рабочей системе

Так выглядел процесс нашей работы:


  1. Начали с главного — отобрали критерии, которые реально можно автоматизировать без потери качества.
  2. Создали промпты, по которым будет работать нейросеть.
  3. Всё проверяли на реальных диалогах. Калибровались с командой, разбирали расхождения, дорабатывали. Добились точности автоскоринга — 89%, это на уровне опытного специалиста.
  4. Обучили команду работать с промптами и тестировать результат с помощью no-code решения.
  5. Перенесли инструмент во внутреннюю систему, чтобы всё работало в рамках интерфейса.

89% точность автоскоринга, которой нам удалось добитьсяРассказываем, как мы прошли этот путь с командой Timeweb.

Первым шагом или нашим «нулевым» этапом стал MVP. Он занял месяц и позволил понять, насколько мы можем решить этот запрос.

Мы проверяли, может ли нейросеть качественно оценивать диалоги по тем же критериям, что и человек.

Для этого провели аудит. Погрузились в процессы контроля качества: провели интервью, изучили регламенты, операционные метрики и чек-листы. 

Вместе с командой выбрали 26 критериев оценки, которые без интеграций можно доверить нейросети. По 19 из них (это 23% от чек-листа) она стабильно давала точную оценку. 

В отбор попали критерии, которые можно проверить без знания продукта — например, «Поздороваться с клиентом», «Избегать обвинений», «Писать “вы” со строчной», «Объяснить причину отказа». Они опираются на текст и тон, а не на специфику тарифа или историю обращений. 

Для каждого написали отдельный промпт с описанием цели, ошибок и допустимой вариативности. Не просто «оцени», а с полным контекстом: кто проверяет, что считается ошибкой, где допустима вариативность. 

Например, в критерии про эмпатию мы просили нейросеть оценивать ответы строго по тону клиента: не требовать участия, если сообщение нейтральное, и наоборот — мягко подсказывать, где не хватило вовлечённости. 

После этого собрали тестовую инфраструктуру на базе N8N, no-code платформе для автоматизации, чтобы быстро запускать проверки на большом объеме диалогов. Без кода, без сложной разработки — чтобы команда могла запускать и корректировать скоринг сама. 

В параллель мы добавили ещё одну функцию — генерацию обратной связи. По каждому диалогу помощник теперь пишет развёрнутый фидбэк: указывает сильные стороны, объясняет, где и почему есть ошибки, предлагает, как сформулировать иначе. Итоговая точность этих тестов уже достигла 93%. 93% точность генерации обратной связи от нейросети

Формат обратной связи от нейросети:


    Ты дал четкий и понятный прямой ответ клиенту, сразу обозначив ключевую информацию. Это очень важное качество, ведь прозрачная и логичная коммуникация позволяет клиентам лучше понимать процессы. Продолжай в том же духе — такие ответы повышают доверие к нашей компании.

    Теперь разберем моменты, которые стоит улучшить:

    — Не обвинять пользователя: в твоем ответе фраза «Мы не можем указывать то, чего нет в системе» звучит как перекладывание ответственности на клиента. Это может оставлять неприятное впечатление. Лучше сформулировать мягче, например, «К сожалению, в нашей системе эти документы фиксируются раздельно».

    — Эмпатия: твой ответ фактически хороший, но в нем не хватает вовлеченности. Например, клиент обозначил проблему, и ему важно услышать не только факт, но и вариант решения. Постарайся больше проявлять участие, это поможет наладить контакт и быстрее решить вопросы.

    — Общаться без сложных слов и конструкций: фраза «мы не можем указывать то, чего нет в системе» немного канцеляритная — перегружена официальной формулировкой. Пример проще: «Мы указываем только те данные, которые есть в системе». Так легче понять мысль.

    Все остальные критерии выполнены на отлично: грамотность на высоте, ты корректно поздоровался и не использовал сложные термины. Продолжай работать над эмпатией, следи за формулировками. Удачи ✨

На следующем этапе к работе над созданием помощника начали активно привлекать команду, чтобы менеджеры могли управлять процессом сами. 

Объяснили, как работает автоскоринг, провели две лекции о нейросетях и промптинге, а потом воркшоп: на нём сотрудники сами учились писать промпты под выбранные критерии. Нам было важно, чтобы команда не просто использовала созданный нами инструмент, а понимала, как работать с нейросетью.

Артем

Хранитель базы знаний Timeweb

Мне всегда казалось, что работа с промптами — это что-то уровня базового поиска в гугле, где достаточно запроса без большого контекста. Как же я тогда ошибался! Лекции и воркшоп расставили все точки над i, мы погрузились в написание промптов под критерии — это было непросто, на моменте тестирования приходилось много раз переписывать информацию, чтобы не было ошибок у бота. Это было интересно, сложно, но с работой справились.

Одновременно продолжали тесты, и добились роста качества оценок от нейросети. Это подтвердило, что модель можно постепенно начинать использовать.

Тестовое внедрение и методички

Следующим шагом стал пользовательский интерфейс для проверки: мы вместе с командой создали тестовый модуль, в который встроили автоскоринг. Он доказал, что важно работать в одном окне. Разработку нового модуля начали в более срочном приоритете.

Так выглядит модуль, который сейчас помогает проверять ответы. Достаточно взять диалог саппорта с клиентом, указать дату и выбрать нужный критерий или общую обратную связь по всем — результат после правок добавляют к ревью саппорту по кейсу.

Работа над критериями не останавливалась, и к этому моменту мы смогли автоматизировать ещё 6% чек-листа. Промпты по четырем новым критериям написали уже сами менеджеры — от черновика до финального теста. 

Так получили результат – 29% от чек-листа теперь проверяет нейросеть, результат на 89% совпадал с оценками специалистов.29% от чек-листа теперь проверяет нейросеть В отдельных критериях оценка искусственного интеллекта была даже строже, чем у людей. Например, нейросеть эффективнее следит за критерием «не обвинять пользователя» и лучше находит его нарушения саппортами.

Вишенка на торте — аналитика и прогнозирование

Когда основная задача была решена — автоскоринг стабильно проверял часть чек-листа и ставил точные оценки — мы начали тестировать проактивный сценарий.

Проактивный анализ — это подход, при котором нейросеть не просто оценивает диалоги, а помогает заранее выявлять риски: падение CSI, высокий CES, негатив клиента, повторные обращения или возможный отток. Это позволяет находить слабые места до того, как проблема станет критичной. Например, если клиенты просят помощи с каким-то действием в личном кабинете, мы можем увидеть, что проблема шире —  в запутанном интерфейсе.

Пока это тестируется: мы ещё не встроили его в процессы полностью, но команда уже думает, как развернуть решение дальше.

Мы уже упоминали работу над ботами. Во время проекта с автоскорингом выяснилось, что команда поддержки стала амбассадором ИИ внутри компании.

Дарья

Руководитель информационной поддержки Timeweb

Для компании актуально развивать работу с ИИ во всех проявлениях. Мы сделали один большой и очень полезный проект, показали результаты — теперь в команде есть люди, которые могут делать проекты с нейросетями. И это ценно. Поэтому нас считают экспертами в том, как сделать с помощью нейросети полезные фичи. Не просто «что-то прикольное с ИИ», а то, что помогает в работе, оптимизирует ресурсы и процессы.

Что дальше

Автоскоринг заработал, но проект не завершён, команда развивает инструмент внутри.
Следующий этап — доработка нового модуля контроля качества. Он позволит объединить автоскоринг и чек-лист оценки саппорта, чтобы проверки шли в едином интерфейсе, без Google-таблиц и перескоков.
Это ещё больше сэкономит время проверки каждого кейса, а также развяжет команде руки в продолжении работы над автоматизацией критериев.

Анастасия

Руководитель контроля качества Timeweb

Как я себя чувствую в финале проекта: мне точно нужно еще некоторое время, чтобы все осознать и отрефлексировать и поверить, что я все это могу теперь сама. Но по ощущениям, я за последние два месяца выросла больше, чем за год! Потому что из девочки, которая в ChatGPT выбирала себе тушь для ресниц и понятия не имела, что такое промпт вообще, я превратилась в человека, который (предположительно, это я еще отрефлексирую) может писать сложные многосоставные промпты, отслеживать баги в них. И вообще, ChatGPT теперь составляет мне капсульный гардероб.


Артем

Хранитель базы знаний Timeweb

Точно могу сказать, что теперь я знаю сильно больше, чем на старте проекта, мне очень понравилось. Мои запросы в ChatGPT получили мощный буст, теперь они комплексные и я могу понять, что в промпте предположительно лишнее, чтобы исправить. Это круто! Сам проект дальше будет совершенствоваться, ждем полного внедрения в рабочие инструменты, чтобы продолжить автоматизацию.

Как запускать автоскоринг: инструкция Supprt.Science

  1. Определите цель
  2. Проект должен решать конкретную задачу. Например, сократить время проверки, повысить качество обратной связи или найти слабые места в продукте. Без цели можно проделать много лишней работы.

  3. Проведите аудит
  4. Прежде чем автоматизировать, нужно изучить процессы и выявить реальные боли. Возможно, достаточно упростить чек-лист, пересмотреть формат оценки, убрать лишние этапы и можно достичь целей без автоматизации.

  5. Начинайте с простых критериев
  6. Не пытайтесь сразу охватить всё качество общения. Начинайте работу с нейросетью с простого: оценки тональности, грамотности, эмпатии. Эти критерии помогут сформировать промпты и постепенно усложнить задачу.

  7. Ищите точки роста
  8. Скоринг — не только про контроль и выставление баллов, он помогает находить паттерны ошибок, улучшать процессы и развивать команду с опорой на понимание слабых мест.

  9. Автоматизируйте поэтапно
  10. Лучше стабильно покрыть 20% рутинных задач, чем пытаться автоматизировать все сразу и увеличить риск ошибок. Надёжная итерация сильнее одного большого запуска.

Нужна наша помощь? С радостью обсудим ваш проект. Заполните форму, мы свяжемся с вами в течение суток. Подпишем NDA, если понадобится
Нажимая на кнопку вы соглашаетесь с нашей политикой конфиденциальности




    Illustration and design by Tatiana Kochetkova

    Поделиться
    Отправить
    Отправить

    01.07.2025 , , ,

    Читайте далее