Досягнення точності понад 95% в автоматичній оцінці розмов із складними питаннями вимагає додаткових налаштувань і дотримання структурованих вказівок. Нижче наведено найкращі практики, які допоможуть забезпечити точне та надійне оцінювання.
Є три основні дії для підвищення точності:
Виключення деяких розмов із процесу оцінювання (наприклад, не стосується цієї розмови / не потрібно в даному випадку / тощо).
Покращення пунктів Scorecard та їх описів, щоб надати більше інструкцій роботі.
Людина в циклі (Human in the loop) – ручна перевірка випадкового невеликого відсотка автоматичних оцінок (підтвердження або коригування).
Процес налаштування
1. Вибір розмов для оцінювання (Маршрутизація Conversation ➡️ Scorecard)
Штучний інтелект (AI) не розуміє, чи є якийсь пункт оцінювання релевантним, і надає відповіді на всі запитання. Якщо ви бачите, що деякі пункти або вся оцінка в певних розмовах не повинні застосовуватися (не потрібна), ви можете налаштувати це за допомогою Фільтрів.
🚫 Типові помилки:
• Надсилати всі розмови на автооцінювання
• Надсилати різні типи обговорень на автооцінювання одним універсальним Scorecard (щоб робот «вгадав», що застосовувати)
Надсилайте тільки ті розмови, які відповідають таким критеріям:
✅ Повна розмова – розмова має логічний початок і кінець.
✅ Відповідна тема – тема розмови має збігатися з тією, для якої застосовується Scorecard. Необхідно явно додати відповідні теми та виключити теми, які не повинні оцінюватися.
✅ Вірний напрям розмови – переконайтеся, що вхідний / вихідний напрям відповідає Scorecard. Якщо вимоги до дій Агента відрізняються залежно від напрямку дзвінка, варто створити різні Scorecard для різних напрямків.
Наприклад, під час вихідного дзвінка агент має повідомити мету дзвінка, назвати свій код чи виконати інші дії, які будуть недоречні у вхідному дзвінку.
✅ Правильна вибірка команди – використовуйте коректну прив’язку команди до Scorecard, якщо на одній темі працюють кілька команд.
✅ Правильна вибірка черги – якщо в компанії використовуються черги в телефонії для конкретних процесів, при налаштуванні автооцінювання враховуйте фільтрацію за чергами.
🚨 Важливі виключення:
Для неформатних розмов (неповні, перервані тощо) або інших тем, які не охоплюються Scorecard, потрібно:
Вирішити, чи є оцінка доцільною
Розробити відповідні Scorecard
🔴 Розмови, в яких тема чи зміст не дають змоги провести повну оцінку (наприклад, клієнт просить перевести на іншу лінію), не повинні оцінюватися.
🔴 Неповні розмови (наприклад, клієнт кидає слухавку) не повинні оцінюватися.
🔴 Розмови, позначені як “Переключення на іншу лінію”, не повинні оцінюватися Scorecard, призначеним для інших тем.
2. Назви пунктів Scorecard та описи
🚫 Типові помилки:
Питання, на які неможливо відповісти “Так/Ні”
Інверсія позитивної та негативної оцінки
Додавання «якщо застосовно» до питання
Питання про коректність наданої інформації
Питання про дії у сторонніх системах
Нечіткі та суб’єктивні формулювання (коли кілька людей можуть по-різному оцінити відповідь)
Відсутність налаштування запитань під корпоративний тон
✅ Формулювання пунктів Scorecard та описів мають бути зрозумілими й однозначними:
✅ “Yes” = Позитивна оцінка, “No” = Негативна оцінка – формулювання пунктів і їх описи мають бути такими, щоб відповідь “Yes” означала позитивну дію агента, а “No” – негативну.
✅ Пункт і опис повинні дозволяти однозначну відповідь “Так/Ні”
✅ Надавайте чіткі приклади очікуваної поведінки
🚫 Приклади типових помилок та їх виправлень:
Інверсія позитивної та негативної оцінки:
❌ Некоректно: «Агент змушує клієнта підписати контракт».
✅ Правильно: «Агент не змушував клієнта підписати контракт» – відповідь “Yes” (не змушував) позитивно оцінює дії агента, а “No” (навпаки, змушував) – негативно.
Питання, на які неможливо відповісти “Так/Ні”:
❌ Некоректно: «Настрій розмови (conversation sentiment)»
✅ Правильно: «Настрій розмови був позитивним» – відповідь “Yes” означає позитивний настрій, а “No” – протилежне.
Додавання “якщо застосовно” до питання:
❌ Некоректно: «Агент озвучив мету розмови, якщо це застосовно»
✅ Правильно: Використовуйте маршрутизацію та фільтри (з розділу 'Вибір і Маршрутизація розмов для АвтоОцінки').
Суб’єктивні питання для оцінювання (коли кілька людей можуть по-різному вирішити):
❌ Некоректно: «Агент звучить професійно»
✅ Правильно: «Агент зберігає спокій і ввічливо поводиться у спірних або складних ситуаціях».
Питання щодо коректності наданої інформації:
❌ Некоректно: «Агент правильно відповів на запитання»
✅ Правильно: «Агент повідомив, де знайти статтю з рішенням, що дало відповідь на запит клієнта» АБО «Агент зазначив, що кредитна картка буде видана за три дні».
Питання про дії у сторонніх системах:
❌ Некоректно: «Агент вніс правильні та повні дані в CRM»
✅ Правильно: Інтегруйте CRM з Ender Turing для порівняння даних.
Відсутність налаштування на корпоративний тон:
❌ Некоректно: «Агент має привітатися» → «Хей, як справи?» буде оцінено позитивно
✅ Правильно: «Агент має привітатися з клієнтом ввічливо та офіційно (наприклад: “Доброго дня”, “Вітаю” або подібне)».
Процес калібрування
Перш ніж використовувати автоматичні оцінювання як основне джерело зворотного зв’язку для Агентів, виконайте калібрування.
Калібрування зазвичай складається з тих самих трьох дій, згаданих вище:
Виключення деяких розмов із процесу оцінювання (наприклад, не стосується цієї розмови / не потрібно в даному випадку / тощо).
Покращення пунктів Scorecard та їх описів, щоб надати більше інструкцій роботі.
Людина в циклі (Human in the loop) – ручна перевірка випадкового невеликого відсотка автоматичних оцінок (підтвердження або коригування).
Кроки калібрування та налаштування точності автоматичної оцінки:
1️⃣ Виберіть / знайдіть щонайменше 20 автоматично оцінених розмов, які відповідають таким критеріям:
Та сама Scorecard – розмови були оцінені однією й тією самою Scorecard, і формулювання Scorecard не змінювалося в період, коли ці дзвінки відбулися.
Повні діалоги (розмова з логічним початком і кінцем).
Вірна тема / відповідність Scorecard.
Вірна команда / відповідність Scorecard.
Вірна черга / відповідність Scorecard.
Усі інші критерії, що унеможливлюють помилки маршрутизації (ви оцінюєте тільки реальні помилки AutoQA в пунктах Scorecard, які мали застосовуватися).
2️⃣ Перевірте / перегляньте автоматично виставлені оцінки Ender Turing. За потреби вручну виправте помилки.
3️⃣ Перейдіть до розділу конфігурації Scorecard і перевірте показники точності.
4️⃣ Для пунктів Scorecard, де точність <95%:
Виключіть з оцінювання розмови (не застосовно / не потрібно) – за допомогою Умов у Enders. Дотримуйтесь порад із розділу 'Вибір і Маршрутизація розмов для АвтоОцінки'.
Покращте формулювання пунктів Scorecard та описи, щоб надати більше інструкцій роботі. Дотримуйтесь порад із розділу 'Назви пунктів Scorecard та описи'.
5️⃣ Повторіть калібрування через кілька днів після внесення змін.
Надсилання відгуку команді підтримки Ender Turing
Якщо після правильного налаштування всієї конфігурації помилки все ще залишаються, зберіть відгук:
1️⃣ Зберіть розмови, в яких ви не здійснювали ручне коригування оцінок.
2️⃣ Використайте шаблон відгуку та надайте:
5 прикладів, де система неправильно завищила оцінку агента
5 прикладів, де система неправильно знизила оцінку агента
10 прикладів коректних оцінювань
3️⃣ Відправте цей файл вашому Customer Success Manager або на електронну адресу [email protected].
Дотримуючись цих кроків, ви зможете систематично покращити точність AutoQA та забезпечити надійні автоматичні оцінювання. 🚀