Методы и алгоритмы для поиска сходства между текстам
DOI:
https://doi.org/10.22213/2410-9304-2024-2-103-113Ключевые слова:
алгоритм шинглов, искусственный интеллект, нейронные сети, сравнение уникальности, сравнение текстов, обработка текстов, алгоритмы поиска сходстваАннотация
Обзорная аналитическая статья представляет собой комплексное исследование современных методов анализа текстов с целью выявления и измерения степени их сходства, что само по себе является весьма важной и актуальной задачей, поскольку рассматривает и анализирует инструментарий, применяемый для ее решения. Во введении рассматриваются цель данной работы, актуальность проблемы и важность разработки эффективных методов для сравнения текстов. В основной части статьи отдельно рассматриваются и анализируются такие методы, как сходство Жаккара, алгоритм шинглов, расстояние Левенштейна, TF-IDF и BM25, BERT и использование нейросетей. Применение того или иного метода проиллюстрировано примерами, представленными в табличной форме и в виде иллюстраций. При рассмотрении и анализе сходства Жаккара отражаются способы его применения и ограничений. При анализе алгоритма шинглов выявляются преимущества метода в контексте поиска сходства. В публикации подробно рассматриваются методы, основанные на расстоянии между строками, включая расстояние Левенштейна. При этом особое внимание уделяется области его применения и имеющимся преимуществам по сравнению с другими методами. При рассмотрении статистических методов, таких как TF-IDF и BM25, дается анализ их применения и эффективности в поиске сходства текстов. Статья не ограничивается анализом только традиционных методов, но и охватывает современные, включая BERT и использование нейросетей. Производится сравнение данных категорий методов между собой, выявляются их преимущества и недостатки использования. В разделе выводов проводится сравнительный анализ всех представленных методов по принципу объективности, выделяя их характеристики и области применения. Отмечается важность выбора наиболее подходящего метода поиска сходства текстов в зависимости от конкретных целей поиска, поставленных задач и требований, а также дается заключение о наиболее применяемом, широком и продуктивном методе - использовании нейросетей. В выводах подчеркивается, что статья, посвященная сравнительному анализу различных методов поиска сходства между текстами, преследует главную цель - разработку рекомендаций по выбору оптимального способа.Библиографические ссылки
Салып Б. Ю., Смирнов А. А., Ничушкина Т. Н. Анализ модели BERT как инструмента определения меры смысловой близости предложений естественного языка // StudNet: научно-образовательный журнал для студентов и преподавателей. 2022. № 5. С. 3509-3518.
Частикова В. А., Гуляй В. Г., Жерлицын С. А. Подход к решению проблемы контроля качества в сфере услуг на основе построения системы интеллектуального анализа данных // Вестник "АГУ". 2022. Вып. 4 (311). С. 81-90.
Чару Аггарвал. Нейронные сети и глубокое обучение: учебный курс. М.: Диалектика-Вильямс, 2020, 752 с.
Математическая составляющая / ред.-сост. Н. Н.Андреев, С. П. Коновалов, Н. М. Панюнин. М.: Математические этюды, 2019. 367 с.
Нужный А. С., Сорокин Д. И. Создание программы интеллектуального анализа текстовой документации по вопросам захоронения РАО // Труды МФТИ. 2020. Т. 12, № 1 (45). С. 104-111.
Городецкий В. И., Тушканова О. Н. Семантические технологии для семантических приложений. Ч. 2. Модели сравнительной семантики текстов // Искусственный интеллект и принятие решений. 2019. № 1. С. 49-61.
Bashir Alam An Easy Introduction To Artificial Neural Networks // hands-on.cloud, 14.02.2023. URL: https://hands-on.cloud/introduction-to-artificial-neural-networks.
Рафаева А. В. Автоматизированный поиск цвета в русских сказках // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2015. № 3. С. 45-54.
Кравченко В. Алгоритм OkapiBM25 - модификация формулы TF-IDF ранжирования документов. URL: https://weblinepromo.ru/blog/algoritm-okapi-bm25-modifikaciya-formuly-tf-idf-ranzhirovaniya-dokumentov.
Ананьев А. В. Кузнецов И. А., Доброскок В. В. Комбинированная методика определения качества машинного перевода // Успехи в химии и химической технологии. 2021. Т. 35, № 11. С. 37-39.
Мясоедова В. А., Голубничий А. А. Обзор пакета STRINGDIST языка программирования R для алгоритма "расстояние Левенштейна". URL: https://cyberleninka.ru/article/n/obzor-paketa-stringdist-yazyka-programmirovaniya-r-dlya-algoritma-rasstoyanielevenshteyna.
Краснов Ф. В., Смазневич И. С. Фактор объяснимости алгоритма в задачах поиска схожести текстовых документов // Вычислительные технологии. 2020. Т. 25, № 5. С. 107-123.
Сорокин Д. И., Нужный А. С., Савельева Е. А. Иерархическая рубрикация текстовых документов // Труды Института системного программирования РАН. 2020. Т. 23, вып. 6. С. 127-138.
Лыченко Н. М., Сороковая А. В. Сравнение эффективности методов векторного представления слов для определения тональности текстов // Математические структуры и моделирование. 2019. № 4 (52). С. 97-110.
Семантический анализ научных текстов: опыт создания корпуса и построения языковых моделей / Т. В. Батура, Е. П. Бручес, А. Е. Паульс, В. В. Исаченко, Д. Р. Щербатов // Программные продукты и системы. 2021. № 1. С. 132-144.
Рафаева А. В. Компьютер - Слово - Фольклор. М., 2014. 280 с.
Алгоритм поиска схожих публикаций средств массовой информации / А. Ю. Бородащенко, А. В. Потемкин, Е. А. Сазонова, С. В. Шекшуев // Науковедение. 2015. Т. 7, № 4. URL: http://naukovedenie.ru.
Установление сходства текстовых документов / А. А. Хорошилов, А. В. Кан, Е. А. Евдокимова, С. Г. Пицхелаури // Моделирование и анализ данных. 2023. Т. 13, № 4. C. 45-58. URL: https://doi.org/10.17759/mda.2023130403.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2024 Игорь Михайлович Янников, Марианна Викторовна Ершова, Алексей Николаевич Исенбаев
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.