Автоматическая категоризация текстовых обращений с использованием дообученных языковых моделей

A N Isenbaev; I M Yannikov

doi:10.22213/2410-9304-2026-1-13-25

Authors

A. N. Isenbaev Kalashnikov Izhevsk State Technical University
I. M. Yannikov Kalashnikov Izhevsk State Technical University

DOI:

https://doi.org/10.22213/2410-9304-2026-1-13-25

Keywords:

text clustering, automatic categorization, SBert, contrastive learning, help desk, natural language processing

Abstract

Help desks at various organizations receive hundreds and thousands of requests from users daily. Manually sorting these requests takes considerable time and often leads to routing errors, reducing the speed and quality of customer service. Automating the request categorization process is a pressing issue for companies of all types, including IT support, medical institutions, banks, government agencies, and online stores. This paper proposes a universal method for automatically sorting text requests into categories using a pre-trained Sentence-BERT (SBERT) neural network model. The low efficiency of pre-trained language models when working with texts from highly specialized subject areas is investigated. To address this issue, contrastive retraining of the model on domain-specific data was applied, significantly improving the quality of vector text representations. A systematic comparison of four approaches was conducted: a baseline model without retraining, unsupervised contrastive learning on unlabeled data, supervised retraining using the CosineSimilarityLoss criterion, and retraining using the Multiple Negatives Ranking Loss (MNRL) criterion. Experiments were conducted on a dataset of 6,500 Russian-language queries, of which 1,119 were labeled into 16 categories. Both internal metrics (Silhouette Score, Davies-Bouldin Index) and external ones (Purity, NMI, ARI) were used to assess clustering quality. The MNRL method demonstrated the best results: clustering quality increased by 123% for Purity, 233% for NMI, and 658% for ARI compared to the baseline model. A mechanism for assessing classification confidence based on an individual Silhouette Score for each query is proposed, allowing uncertain cases to be redirected for manual processing. The developed approach is universal and can be adapted to automate the processing of requests in any subject area with 10-20% of labeled data.

Author Biographies

A. N. Isenbaev, Kalashnikov Izhevsk State Technical University

graduate student

I. M. Yannikov, Kalashnikov Izhevsk State Technical University

Doctor of Engineering Sciences, Professor

References

Мансур А. М. Алгоритм на основе трансформеров для классификации длинных текстов // Известия ЮФУ. Технические науки. 2024. № 3 (239). С. 187-196.

Воронцов К. В. Машинное обучение: курс лекций. Московский физико-технический институт, 2024. URL: http://www.machinelearning.ru/wiki.

Куратов Ю., Архипов М. Адаптация глубоких двунаправленных многоязычных трансформеров для русского языка // Вычислительная лингвистика и интеллектуальные технологии : труды Международной конференции «Диалог 2019». 2019. С. 333-340.

Колесникова А.Rubert-tiny2: компактная русскоязычная модель BERT // Hugging Face Model Hub. 2022. URL: https://huggingface.co/cointegrated/rubert-tiny2.

Гареев Р. М., Майоров В. Д. Автоматическая классификация обращений в техническую поддержку на основе методов машинного обучения // Информационные процессы и математическое моделирование : труды конференции ИПМТ-2022. Уфа, 2022. С. 112-118.

Решения Cleverics для автоматизации Service Desk: AID+ - система интеллектуальной маршрутизации // Официальный сайт Cleverics. 2023. URL: https://cleverics.ru.

Ивахин Д. Е., Андиева Е. Ю. Автоматический анализ текста для выявления профессиональных навыков: гибридный подход на основе TF-IDF и нейросетевых эмбеддингов // Вестник науки. 2025. № 4 (85).

Давлетов А. Р. Современные методы машинного обучения и технология OCR для автоматизации обработки документов // Вестник науки. 2023. № 10 (67). С. 676-698.

Рави Дж., Кулкарни С. Методы встраивания текста для эффективной кластеризации данных из Твиттера // Эволюционный интеллект. 2023. Т. 7.

Ли Ч., Чжан С., Чжан И., Лонг Д., Се П., Чжан М. К созданию общих текстовых вложений с помощью многоэтапного контрастивного обучения // Препринт arXiv:2308.03281. 2023.

Простая структура для контрастивного обучения визуальных представлений / Т. Чен, С. Корнблит, М. Норузи, Г. Хинтон // Труды 37-й Международной конференции по машинному обучению (ICML). PMLR, 2020.

Гао Т., Яо С., Чен Д. SimCSE: простое контрастивное обучение вложению предложений // Труды EMNLP. 2021.

Руссеу П. Дж. Силуэты: графическое средство для интерпретации и проверки кластерного анализа // Журнал вычислительной и прикладной математики. 1987. Т. 20. С. 53-65.

Дэвис Д. Л., Боулдин Д. В. Мера разделения кластеров // Труды IEEE по анализу образов и машинному интеллекту. 1979. Т. PAMI-1, № 2. С. 224-227.

Хуберт Л., Араби П. Сравнение разбиений // Журнал классификации. 1985. Т. 2. С. 193-218.

Штрель А., Гош Дж. Кластерные ансамбли - структура повторного использования знаний для объединения нескольких разделов // Журнал исследований в области машинного обучения. 2002. Т. 3. С. 583-617.

Автоматизация обработки заявок: взгляд на современные исследования с применением к сценариям многоуровневой классификации / Ф. Коккорас и др. // Экспертные системы с приложениями. 2023.

Длодло Н., Сибанда К. Подход машинного обучения к автоматической категоризации запросов на ИТ-услуги // Труды Южноафриканской конференции по телекоммуникационным сетям и приложениям. 2020. С. 1-6.

Гао Т., Яо С., Чен Д. SimCSE: простое контрастное обучение вложению предложений // Труды EMNLP. 2021.

Внимание - это все, что вам нужно / А. Васвани, Н. Шазир, Н. Пармар, Дж. Ушкорейт, Л.Джонс, А. Н. Гомес, Л. Кайзер, И. Полосухин // Достижения в области нейронных систем обработки информации. 2017.