Автоматическая категоризация текстовых обращений с использованием дообученных языковых моделей

А Н Исенбаев; И М Янников

doi:10.22213/2410-9304-2026-1-13-25

Авторы

А. Н. Исенбаев ИжГТУ имени М. Т. Калашникова
И. М. Янников ИжГТУ имени М. Т. Калашникова

DOI:

https://doi.org/10.22213/2410-9304-2026-1-13-25

Ключевые слова:

кластеризация текстов, АВТОМАТИЧЕСКАЯ КАТЕГОРИЗАЦИЯ, SBert, контрастивное обучение, служба поддержки, обработка естественного языка

Аннотация

Службы поддержки различных организаций ежедневно получают сотни и тысячи обращений от пользователей. Ручная сортировка этих заявок занимает значительное время и часто приводит к ошибкам маршрутизации, что снижает скорость и качество обслуживания клиентов. Автоматизация процесса категоризации обращений является актуальной задачей для компаний любого профиля: IT-поддержка, медицинские учреждения, банки, государственные службы, интернет-магазины. В данной работе предложен универсальный метод автоматической сортировки текстовых обращений по категориям с использованием дообученной нейросетевой модели Sentence-BERT (SBERT). Исследована проблема низкой эффективности предобученных языковых моделей при работе с текстами узкоспециализированных предметных областей. Для решения этой проблемы применено контрастивное дообучение модели на предметно-ориентированных данных, что позволило существенно улучшить качество векторных представлений текстов. Проведено систематическое сравнение четырех подходов: базовая модель без дообучения, контрастивное обучение без учителя на неразмеченных данных, дообучение с учителем с использованием критерия Cosine Similarity Loss и дообучение с критерием Multiple Negatives Ranking Loss (MNRL). Эксперименты проведены на наборе из 6500 обращений на русском языке, из которых 1119 были размечены по 16 категориям. Для оценки качества кластеризации использованы как внутренние метрики (Silhouette Score, Davies-Bouldin Index), так и внешние (Purity, NMI, ARI). Лучший результат показал метод MNRL: качество кластеризации по метрике Purity выросло на 123 %, по NMI - на 233 %, по ARI - на 658 % по сравнению с базовой моделью. Предложен механизм оценки уверенности классификации на основе индивидуального Silhouette Score для каждого обращения, позволяющий направлять неуверенные случаи на ручную обработку. Разработанный подход универсален и может быть адаптирован для автоматизации обработки обращений в любой предметной области при наличии 10-20 % размеченных данных.

Биографии авторов

А. Н. Исенбаев, ИжГТУ имени М. Т. Калашникова

аспирант

И. М. Янников, ИжГТУ имени М. Т. Калашникова

доктор технических наук

Библиографические ссылки

Мансур А. М. Алгоритм на основе трансформеров для классификации длинных текстов // Известия ЮФУ. Технические науки. 2024. № 3 (239). С. 187-196.

Воронцов К. В. Машинное обучение: курс лекций. Московский физико-технический институт, 2024. URL: http://www.machinelearning.ru/wiki.

Куратов Ю., Архипов М. Адаптация глубоких двунаправленных многоязычных трансформеров для русского языка // Вычислительная лингвистика и интеллектуальные технологии : труды Международной конференции «Диалог 2019». 2019. С. 333-340.

Колесникова А.Rubert-tiny2: компактная русскоязычная модель BERT // Hugging Face Model Hub. 2022. URL: https://huggingface.co/cointegrated/rubert-tiny2.

Гареев Р. М., Майоров В. Д. Автоматическая классификация обращений в техническую поддержку на основе методов машинного обучения // Информационные процессы и математическое моделирование : труды конференции ИПМТ-2022. Уфа, 2022. С. 112-118.

Решения Cleverics для автоматизации Service Desk: AID+ - система интеллектуальной маршрутизации // Официальный сайт Cleverics. 2023. URL: https://cleverics.ru.

Ивахин Д. Е., Андиева Е. Ю. Автоматический анализ текста для выявления профессиональных навыков: гибридный подход на основе TF-IDF и нейросетевых эмбеддингов // Вестник науки. 2025. № 4 (85).

Давлетов А. Р. Современные методы машинного обучения и технология OCR для автоматизации обработки документов // Вестник науки. 2023. № 10 (67). С. 676-698.

Рави Дж., Кулкарни С. Методы встраивания текста для эффективной кластеризации данных из Твиттера // Эволюционный интеллект. 2023. Т. 7.

Ли Ч., Чжан С., Чжан И., Лонг Д., Се П., Чжан М. К созданию общих текстовых вложений с помощью многоэтапного контрастивного обучения // Препринт arXiv:2308.03281. 2023.

Простая структура для контрастивного обучения визуальных представлений / Т. Чен, С. Корнблит, М. Норузи, Г. Хинтон // Труды 37-й Международной конференции по машинному обучению (ICML). PMLR, 2020.

Гао Т., Яо С., Чен Д. SimCSE: простое контрастивное обучение вложению предложений // Труды EMNLP. 2021.

Руссеу П. Дж. Силуэты: графическое средство для интерпретации и проверки кластерного анализа // Журнал вычислительной и прикладной математики. 1987. Т. 20. С. 53-65.

Дэвис Д. Л., Боулдин Д. В. Мера разделения кластеров // Труды IEEE по анализу образов и машинному интеллекту. 1979. Т. PAMI-1, № 2. С. 224-227.

Хуберт Л., Араби П. Сравнение разбиений // Журнал классификации. 1985. Т. 2. С. 193-218.

Штрель А., Гош Дж. Кластерные ансамбли - структура повторного использования знаний для объединения нескольких разделов // Журнал исследований в области машинного обучения. 2002. Т. 3. С. 583-617.

Автоматизация обработки заявок: взгляд на современные исследования с применением к сценариям многоуровневой классификации / Ф. Коккорас и др. // Экспертные системы с приложениями. 2023.

Длодло Н., Сибанда К. Подход машинного обучения к автоматической категоризации запросов на ИТ-услуги // Труды Южноафриканской конференции по телекоммуникационным сетям и приложениям. 2020. С. 1-6.

Гао Т., Яо С., Чен Д. SimCSE: простое контрастное обучение вложению предложений // Труды EMNLP. 2021.

Внимание - это все, что вам нужно / А. Васвани, Н. Шазир, Н. Пармар, Дж. Ушкорейт, Л.Джонс, А. Н. Гомес, Л. Кайзер, И. Полосухин // Достижения в области нейронных систем обработки информации. 2017.