Methods and Algorithms for Searching Similarities between Texts

Authors

  • I. M. Yannikov Kalashnikov Izhevsk State Technical University
  • M. V. Ershova Kalashnikov Izhevsk State Technical University
  • A. N. Isenbaev Kalashnikov Izhevsk State Technical University

DOI:

https://doi.org/10.22213/2410-9304-2024-2-103-113

Keywords:

shingle algorithm, artificial intelligence, neural networks, uniqueness comparison, text comparison, text processing, similarity search algorithms

Abstract

The review of the analytical article is a comprehensive study of text analysis modern methods in order to identify and measure the degree of their similarity, which itself is a very important and relevant task, since it examines and analyzes the tools used to solve it. The introduction discusses the purpose of this work, the relevance of the problem, and the importance of developing effective methods for comparing texts. The main part of the article examines and analyzes such methods as “jaccard similarity”, “shingle algorithm”, “levenshtein distance”, “tf-idf” and “bm25”, “bert” and the use of neural networksseparately. The application of a particular method is illustrated by examples presented in tabular form and illustrations. When considering and analyzing the “jaccard similarity”, the methods of its application and limitations are considered. When analyzing the “shingles algorithm”, the advantages of the method in the context of similarity search are revealed. The publication discusses methods based on line spacingin detail, including levenshtein distance. In this case, special attention is paid to the scope of its application and its advantages over other methods. By reviewing statistical methods such as "tf-idf" and "bm25", theanalysis of their application and effectiveness in text similaritysearching is given. The article is not limited by analyzing only traditional methods, but it also covers modern ones, including "bert" and the use of neural networks. These methods are compared with each other, their advantages and disadvantages of use are identified. The conclusion section provides a comparative analysis of all presented methods based on the principle of objectivity, highlighting their characteristics and areas of application. The importance of choosing the most appropriate method for text similaritysearching is noted, depending on the specific search goals, tasks and requirements, and a conclusion is given about the most used, vast and productive method i.e. The use of neural networks. The conclusions emphasize that the article, devoted to a comparative analysis of various methods for similarity searching between texts, has the main goal of developing recommendations to choose the optimal method.

Author Biographies

I. M. Yannikov, Kalashnikov Izhevsk State Technical University

DSc in Engineering, Associate Professor

M. V. Ershova, Kalashnikov Izhevsk State Technical University

PhD in Engineering, Associate Professor

A. N. Isenbaev, Kalashnikov Izhevsk State Technical University

Postgraduate

References

Салып Б. Ю., Смирнов А. А., Ничушкина Т. Н. Анализ модели BERT как инструмента определения меры смысловой близости предложений естественного языка // StudNet: научно-образовательный журнал для студентов и преподавателей. 2022. № 5. С. 3509-3518.

Частикова В. А., Гуляй В. Г., Жерлицын С. А. Подход к решению проблемы контроля качества в сфере услуг на основе построения системы интеллектуального анализа данных // Вестник "АГУ". 2022. Вып. 4 (311). С. 81-90.

Чару Аггарвал. Нейронные сети и глубокое обучение: учебный курс. М.: Диалектика-Вильямс, 2020, 752 с.

Математическая составляющая / ред.-сост. Н. Н.Андреев, С. П. Коновалов, Н. М. Панюнин. М.: Математические этюды, 2019. 367 с.

Нужный А. С., Сорокин Д. И. Создание программы интеллектуального анализа текстовой документации по вопросам захоронения РАО // Труды МФТИ. 2020. Т. 12, № 1 (45). С. 104-111.

Городецкий В. И., Тушканова О. Н. Семантические технологии для семантических приложений. Ч. 2. Модели сравнительной семантики текстов // Искусственный интеллект и принятие решений. 2019. № 1. С. 49-61.

Bashir Alam An Easy Introduction To Artificial Neural Networks // hands-on.cloud, 14.02.2023. URL: https://hands-on.cloud/introduction-to-artificial-neural-networks.

Рафаева А. В. Автоматизированный поиск цвета в русских сказках // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2015. № 3. С. 45-54.

Кравченко В. Алгоритм OkapiBM25 - модификация формулы TF-IDF ранжирования документов. URL: https://weblinepromo.ru/blog/algoritm-okapi-bm25-modifikaciya-formuly-tf-idf-ranzhirovaniya-dokumentov.

Ананьев А. В. Кузнецов И. А., Доброскок В. В. Комбинированная методика определения качества машинного перевода // Успехи в химии и химической технологии. 2021. Т. 35, № 11. С. 37-39.

Мясоедова В. А., Голубничий А. А. Обзор пакета STRINGDIST языка программирования R для алгоритма "расстояние Левенштейна". URL: https://cyberleninka.ru/article/n/obzor-paketa-stringdist-yazyka-programmirovaniya-r-dlya-algoritma-rasstoyanielevenshteyna.

Краснов Ф. В., Смазневич И. С. Фактор объяснимости алгоритма в задачах поиска схожести текстовых документов // Вычислительные технологии. 2020. Т. 25, № 5. С. 107-123.

Сорокин Д. И., Нужный А. С., Савельева Е. А. Иерархическая рубрикация текстовых документов // Труды Института системного программирования РАН. 2020. Т. 23, вып. 6. С. 127-138.

Лыченко Н. М., Сороковая А. В. Сравнение эффективности методов векторного представления слов для определения тональности текстов // Математические структуры и моделирование. 2019. № 4 (52). С. 97-110.

Семантический анализ научных текстов: опыт создания корпуса и построения языковых моделей / Т. В. Батура, Е. П. Бручес, А. Е. Паульс, В. В. Исаченко, Д. Р. Щербатов // Программные продукты и системы. 2021. № 1. С. 132-144.

Рафаева А. В. Компьютер - Слово - Фольклор. М., 2014. 280 с.

Алгоритм поиска схожих публикаций средств массовой информации / А. Ю. Бородащенко, А. В. Потемкин, Е. А. Сазонова, С. В. Шекшуев // Науковедение. 2015. Т. 7, № 4. URL: http://naukovedenie.ru.

Установление сходства текстовых документов / А. А. Хорошилов, А. В. Кан, Е. А. Евдокимова, С. Г. Пицхелаури // Моделирование и анализ данных. 2023. Т. 13, № 4. C. 45-58. URL: https://doi.org/10.17759/mda.2023130403.

Published

08.07.2024

How to Cite

Yannikov И. М., Ershova М. В., & Isenbaev А. Н. (2024). Methods and Algorithms for Searching Similarities between Texts. Intellekt. Sist. Proizv., 22(2), 103–113. https://doi.org/10.22213/2410-9304-2024-2-103-113

Issue

Section

Articles