Emostemmer: эффективная программа для определения эмоций в русском языке с использованием N-грамм (эмоциограммы)

Мохсин Маншад Аббаси; Анатолий Петрович Бельтюков

doi:10.22213/2410-9304-2021-4-148-157

Авторы

М. М. Аббаси Удмуртский государственный университет
А. П. Бельтюков Удмуртский государственный университет

DOI:

https://doi.org/10.22213/2410-9304-2021-4-148-157

Ключевые слова:

текст, эмоции, блог, общение, стемминг, анализ, матрица ошибок

Аннотация

Эмоции и анализ их выражения в текстах - тема растущего интереса в последние годы. Исследователи пытаются создать интеллектуальную машину, которая может не просто читать текст, но и определять его эмоциональный настрой. Полученные результаты могут быть использованы для подготовки машины к будущим предсказаниям эмоциональной ориентации текстов, их авторов и читателей. Данный анализ текста также может быть использован для получения обратной связи от людей о продукте или услуге, реакции на событие или на политику правительства и т. д. Он включает в себя синтаксический, а также семантический анализ текста. Синтаксический анализ состоит из определения слов, представляющих эмоции в тексте. Для его идентификации важную роль играет стеммер - основа или корень слова. Во многих языках романо-германской группы идентификация слов, представляющих эмоции, намного проще, чем в русском, поскольку одно слово представляет эмоцию независимо от грамматических форм и родов. В то время как для такого языка, как русский, где окончание слова, несущего эмоции, меняется в зависимости от рода, вида и др., анализ становится более сложным. Существуют разные методы определения эмоций в тексте. В данной работе основное внимание уделяется выявлению эмоций из текста при ограничении сложности алгоритма требованием минимального объема памяти и времени. Нами была создана программа Emostemmer, которая представляет собой N-граммовый стеммер (в котором буквы из слов сгруппированы в последовательности из 2 букв, 3 букв… ..N букв, называемых N-граммами) для идентификации слов, которые представляют эмоции в тексте. Эффективность Emostemmer по сравнению с RuSentiLex определялась с помощью обучения и тестирования классификатора машины опорных векторов с обоими алгоритмами.

Биографии авторов

М. М. Аббаси, Удмуртский государственный университет

аспирант

А. П. Бельтюков, Удмуртский государственный университет

доктор физико-математических наук, профессор, заведующий кафедрой теоретических основ информатики

Библиографические ссылки

Rijsbergen J., Robertson C. J., Stephen E., (1946) & Porter, Martin F. (1980). New models in probabilistic information retrieval // British Library Research and Development Dept., [London]. No. 5587.

Porter M.F. An algorithm for suffix stripping (1980). Emerald Publishing, Program 1 14 (3), 130-137.

Krovetz R (2000). Viewing morphology as an inference process // Artificial Intelligence Journal, Q1 SJR 1.01. 118(1), 277-294.

Paice C. D (1990). Another Stemmer // ACM SIGIR Forum, 24(3), 56-61.

William B. Frakes , Christopher J (2003). Fox. Strength and similarity of affix removal stemming algorithms // ACM SIGIR Forum, 37(1), 26-30.

Bacchin M., Ferro N., Lucci M (2005). A probabilistic model for stemmer generation // Information Processing and Management 41(1), 121-137.

Wiebe, J., Wilson T., Cardie C (2005). Annotating expressions of opinions and emotions in language // Language Resources and Evaluation 39 (2), 165-210.

Peng, F., Ahmed, N., Li, X., Lu, Y (2007). Context sensitive stemming for web search // Proc. of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp. 639-646.

Majumder P., Mitra M., Swapan K., Kole P G., Mitra P., Datta K (2007). “YASS: Yet another suffix stripper” // ACM Transactions on Information Systems. 25 (4) 18.

Adam G., Asimakis K., Bouras C., Poulopoulos V (2010). An efficient mechanism for stemming and tagging: the case of Greek language // In the Proc. of the 14th International Conference on Knowledge-based and Intelligent Information and Engineering Systems: Part III, pp 389-397.

Feinerer I (2010). Analysis and Algorithms for Stemming Inversion. In: Cheng PJ., Kan MY., Lam W., Nakov P. (eds) // Information Retrieval Technology. AIRS 2010 // Lecture Notes in Computer Science vol. 6458. Springer, Berlin, Heidelberg.

Jiaul H. P., Mitra M., Swapan K. P., Järvelin K (2011). GRAS: An effective and efficient stemming algorithm for information retrieval // ACM Transactions on Information Systems, 29 (4), 1-24.

Fernández A., Díaz J., Gutiérrez Y., Muñoz R (2011). An Unsupervised Method to Improve Spanish Stemmer. In: Muñoz R., Montoyo A., Métais E. (eds) // Natural Language Processing and Information Systems // Lecture Notes in Computer Science. Vol. 6716. Springer, Berlin, Heidelberg.

Madani A., M. Kissi M (2014). Building a syntactic rules-based stemmer to improve search effectiveness for Arabic language // 9th International Conference on Intelligent Systems: Theories and Applications (SITA-14), pp. 1-6.

Danilova V., Alexandrov M., Blanco X (2014). A Survey of Multilingual Event Extraction from Text. // In: Métais E., Roche M., Teisseire M. (eds) Natural Language Processing and Information Systems // Lecture Notes in Computer Science, Vol. 8455. Springer, Cham.

Moral C., de Antonio A., Imbert R., Ramírez J (2014). A survey of stemming algorithms in information retrieval // Information Research 19(1), 605.

Loukachevitch, N V., Chetviorkin, I (2014). Open evaluation of sentiment-analysis systems based on the material of the Russian language // Scientific and Technical Information Processing, 41(6), 370-76.

Gadri S., A Moussaoui A. (2015). Information retrieval: A new multilingual stemmer based on a statistical approach // 3rd International Conference on Control, Engineering & Information Technology, Tlemcen, Algeria, pp.1-6.

Brychcín T., Konopík M. (2015). HPS: High precision stemmer // Information Processing and Management, 51 (1), 68-91.

Singh J., Gupta V (2016). Text Stemming: Approaches, Applications, and Challenges // ACM Computing Surveys (CSUR), 49 (3), Article 45.

Beltiukov A.P., Abbasi M.M (2019). Logical analysis of emotions in text from natural language // Vestnik Udmurtskogo Universiteta Matematika Mekhanika Komp'yuternye Nauki, 29 (1), 106-116.

Bölücü N., Burcu C (2019). Unsupervised Joint POS Tagging and Stemming for Agglutinative Languages // ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP), 18 (3), Article 25.

Porter M.F (2001). Snowball: A language for stemming algorithms // Published online, (October 2001) Accessed 8.11.2021, 15.00h. http://snowball.tartarus.org/texts/introduction.html

Лукашевич Н. В., Левчик А. В. Создание лексикона оценочных слов русского языка РуСентилекс // Труды конференции OSTIS-2016. 2016. С. 377-382.

Loukachevitch N., Levchik A (2016). Creating a General Russian Sentiment Lexicon. // In the Proc. of Language Resources and Evaluation Conference LREC-2016.

Список чувств и эмоций : блог психолога Петра Зарубина из г. Новосибирска. URL: https://peter-zarubin.ru/spisok-chuvstv-i-emotsij.