Методы и алгоритмы для поиска сходства между текстам

Авторы

  • И. М. Янников ИжГТУ имени М. Т. Калашникова
  • М. В. Ершова ИжГТУ имени М. Т. Калашникова
  • А. Н. Исенбаев ИжГТУ имени М. Т. Калашникова

DOI:

https://doi.org/10.22213/2410-9304-2024-2-103-113

Ключевые слова:

алгоритм шинглов, искусственный интеллект, нейронные сети, сравнение уникальности, сравнение текстов, обработка текстов, алгоритмы поиска сходства

Аннотация

Обзорная аналитическая статья представляет собой комплексное исследование современных методов анализа текстов с целью выявления и измерения степени их сходства, что само по себе является весьма важной и актуальной задачей, поскольку рассматривает и анализирует инструментарий, применяемый для ее решения. Во введении рассматриваются цель данной работы, актуальность проблемы и важность разработки эффективных методов для сравнения текстов. В основной части статьи отдельно рассматриваются и анализируются такие методы, как сходство Жаккара, алгоритм шинглов, расстояние Левенштейна, TF-IDF и BM25, BERT и использование нейросетей. Применение того или иного метода проиллюстрировано примерами, представленными в табличной форме и в виде иллюстраций. При рассмотрении и анализе сходства Жаккара отражаются способы его применения и ограничений. При анализе алгоритма шинглов выявляются преимущества метода в контексте поиска сходства. В публикации подробно рассматриваются методы, основанные на расстоянии между строками, включая расстояние Левенштейна. При этом особое внимание уделяется области его применения и имеющимся преимуществам по сравнению с другими методами. При рассмотрении статистических методов, таких как TF-IDF и BM25, дается анализ их применения и эффективности в поиске сходства текстов. Статья не ограничивается анализом только традиционных методов, но и охватывает современные, включая BERT и использование нейросетей. Производится сравнение данных категорий методов между собой, выявляются их преимущества и недостатки использования. В разделе выводов проводится сравнительный анализ всех представленных методов по принципу объективности, выделяя их характеристики и области применения. Отмечается важность выбора наиболее подходящего метода поиска сходства текстов в зависимости от конкретных целей поиска, поставленных задач и требований, а также дается заключение о наиболее применяемом, широком и продуктивном методе - использовании нейросетей. В выводах подчеркивается, что статья, посвященная сравнительному анализу различных методов поиска сходства между текстами, преследует главную цель - разработку рекомендаций по выбору оптимального способа.

Биографии авторов

И. М. Янников, ИжГТУ имени М. Т. Калашникова

доктор технических наук, доцент

М. В. Ершова, ИжГТУ имени М. Т. Калашникова

кандидат технических наук

А. Н. Исенбаев, ИжГТУ имени М. Т. Калашникова

аспирант

Библиографические ссылки

Салып Б. Ю., Смирнов А. А., Ничушкина Т. Н. Анализ модели BERT как инструмента определения меры смысловой близости предложений естественного языка // StudNet: научно-образовательный журнал для студентов и преподавателей. 2022. № 5. С. 3509-3518.

Частикова В. А., Гуляй В. Г., Жерлицын С. А. Подход к решению проблемы контроля качества в сфере услуг на основе построения системы интеллектуального анализа данных // Вестник "АГУ". 2022. Вып. 4 (311). С. 81-90.

Чару Аггарвал. Нейронные сети и глубокое обучение: учебный курс. М.: Диалектика-Вильямс, 2020, 752 с.

Математическая составляющая / ред.-сост. Н. Н.Андреев, С. П. Коновалов, Н. М. Панюнин. М.: Математические этюды, 2019. 367 с.

Нужный А. С., Сорокин Д. И. Создание программы интеллектуального анализа текстовой документации по вопросам захоронения РАО // Труды МФТИ. 2020. Т. 12, № 1 (45). С. 104-111.

Городецкий В. И., Тушканова О. Н. Семантические технологии для семантических приложений. Ч. 2. Модели сравнительной семантики текстов // Искусственный интеллект и принятие решений. 2019. № 1. С. 49-61.

Bashir Alam An Easy Introduction To Artificial Neural Networks // hands-on.cloud, 14.02.2023. URL: https://hands-on.cloud/introduction-to-artificial-neural-networks.

Рафаева А. В. Автоматизированный поиск цвета в русских сказках // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2015. № 3. С. 45-54.

Кравченко В. Алгоритм OkapiBM25 - модификация формулы TF-IDF ранжирования документов. URL: https://weblinepromo.ru/blog/algoritm-okapi-bm25-modifikaciya-formuly-tf-idf-ranzhirovaniya-dokumentov.

Ананьев А. В. Кузнецов И. А., Доброскок В. В. Комбинированная методика определения качества машинного перевода // Успехи в химии и химической технологии. 2021. Т. 35, № 11. С. 37-39.

Мясоедова В. А., Голубничий А. А. Обзор пакета STRINGDIST языка программирования R для алгоритма "расстояние Левенштейна". URL: https://cyberleninka.ru/article/n/obzor-paketa-stringdist-yazyka-programmirovaniya-r-dlya-algoritma-rasstoyanielevenshteyna.

Краснов Ф. В., Смазневич И. С. Фактор объяснимости алгоритма в задачах поиска схожести текстовых документов // Вычислительные технологии. 2020. Т. 25, № 5. С. 107-123.

Сорокин Д. И., Нужный А. С., Савельева Е. А. Иерархическая рубрикация текстовых документов // Труды Института системного программирования РАН. 2020. Т. 23, вып. 6. С. 127-138.

Лыченко Н. М., Сороковая А. В. Сравнение эффективности методов векторного представления слов для определения тональности текстов // Математические структуры и моделирование. 2019. № 4 (52). С. 97-110.

Семантический анализ научных текстов: опыт создания корпуса и построения языковых моделей / Т. В. Батура, Е. П. Бручес, А. Е. Паульс, В. В. Исаченко, Д. Р. Щербатов // Программные продукты и системы. 2021. № 1. С. 132-144.

Рафаева А. В. Компьютер - Слово - Фольклор. М., 2014. 280 с.

Алгоритм поиска схожих публикаций средств массовой информации / А. Ю. Бородащенко, А. В. Потемкин, Е. А. Сазонова, С. В. Шекшуев // Науковедение. 2015. Т. 7, № 4. URL: http://naukovedenie.ru.

Установление сходства текстовых документов / А. А. Хорошилов, А. В. Кан, Е. А. Евдокимова, С. Г. Пицхелаури // Моделирование и анализ данных. 2023. Т. 13, № 4. C. 45-58. URL: https://doi.org/10.17759/mda.2023130403.

Загрузки

Опубликован

08.07.2024

Как цитировать

Янников, И. М., Ершова, М. В., & Исенбаев, А. Н. (2024). Методы и алгоритмы для поиска сходства между текстам. Интеллектуальные системы в производстве, 22(2), 103–113. https://doi.org/10.22213/2410-9304-2024-2-103-113

Выпуск

Раздел

Статьи