Сокращение объема текстового документа на основе анализа его корреляционных зависимостей
DOI:
https://doi.org/10.22213/2410-9304-2020-1-72-82Ключевые слова:
анализ текстовой информации, многократные слова, однократные слова, корреляционные зависимости, приоритетное предложение, смысловое содержаниеАннотация
В статье рассматриваются вопросы анализа текстовой информации с целью сокращения ее объема и представления содержания текста произвольных размеров в виде реферата. Текст рассматривается как генеральная совокупность предложений. В качестве основы для проведения анализа текста используются частотные (весовые) характеристики слов, в частности, существительных, используемых автором при построении предложений. Определена роль отдельных категорий слов. На основе весовых характеристик все слова разделяются на многократно и однократно используемые. Сформулированы рекомендации по применению слов-фильтров для извлечения из текста определенных предложений или группы предложений и представления их пользователю. Разработана методика анализа текстового документа. Анализируемый текст разбивается на группы предложений. Многократные слова используются в качестве базовых слов при определении корреляционных зависимостей между предложениями текста. На основе корреляционных зависимостей по каждой группе определяется одно приоритетное предложение, отражающее смысловую составляющую участка текста, задаваемого группой. За счет разбиения на группы достигается сокращение объема текста. Общее число приоритетных предложений соответствует числу групп. Эти предложения могут быть использованы для формирования реферата и предоставляют исследователю (пользователю) адекватную и сжатую информацию о содержании анализируемого документа. В статье приводятся примеры анализа, определяются направления дальнейших исследований.Библиографические ссылки
Артюхин В. В., Чяснавичюс Ю. К. Планирование аналитического исследования при помощи методов анализа качественных данных // Прикладная информатика. 2014. № 2. С 23–48.
Волкова Е. С., Моченов С. В., Шаронов М. А. Проблема информационного поиска в педагогической практике // Вестник Ижевского государственно-го технического университета. 2014. № 4. С. 180-182.
Rankel P., Conroy J., Dang H., Nenkova A. A Decade of Automatic Content Evaluation of News Summaries: Reassessing the State of the Art // Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013. pp. 131-136.
Герте Н. А., Нестерова Н. М. Реферирование как способ извлечения и представления основного содержания текста // Вестник Пермского университета. Российская и зарубежная филология. 2013. №4/24. С. 127–132.
Курушин Д. С., Нестерова Н. М., Овчинникова И. Г. О возможном подходе к созданию системы автоматического реферирования // Вопросы психолингвистики. 2014. № 2 (20). С. 123–128.
K. Hong and A. Nenkova. "Improving the Estimation of Word Importance for News Multi-Document Summarization," in EACL, 2014, pp. 712-721. URL: https://repository.upenn.edu/cgi/viewcontent.cgi?article=2036&context=cis_reports (дата обращения: 29.01.2020).
Моченов С. В., Бледнов А. М., Луговских Ю. А. Векторная модель представления текстовой информации // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам : материалы Междунар. науч. конф. (Ижевск, 13–17 июля 2006 г.) / отв. ред. В. А. Баранов. Ижевск : Изд-во ИжГТУ, 2006. С. 131–139.
[Abstracts - The Writing Center] [Электронный ресурс]. URL: http://writingcenter.unc.edu/handouts/ abstracts/ (дата обращения 03.02.2020).
Och F.J., Tillmann C., Ney H. Improved Alignment Models for Statistical Machine Translation. URL: https://www.researchgate.net/publication/2282249_Improved Alignment Models for Statistical Machine Translation (дата обращения 04.02.2020).
Харламов А. А., Ермоленко Т. В., Дорохина Г. В. Сравнительный анализ организации систем синтаксических парсеров // Инженерный вестник Дона : электронный научный журнал. 2013. № 4. URL: http://ivdon.ru/ru/magazine/archive/n4y2013/2015 (дата обращения: 04.02.2020).
Luhn H.P. The automatic creation of literature abstracts // IBM Journal of Research and Development. 1958. Vol. 2, № 2. P. 159–165. URL: https://www.google.com/search?q=H.+P.+Luhn.+1958.+The+automatic+creation+of+literature+abstracts.+IBM+Journal+of+Research+and+Development (дата обращения: 29.01 2020).
Втюрин М. В., Ястребов А. И., Моченов С. В. Разработка информационной системы для уменьшения объема текстовой информации в процессе информационного поиска // Интеллектуальные системы в производстве. 2017. Т. 15. № 3. С. 94–99.
Втюрин М. В., Моченов С. В. Применение статистических характеристик для сокращения объема текстовой информации при сохранении ее информативности // Вестник ИжГТУ имени М.Т. Ка-лашникова. 2018. Т. 21. № 2. С. 173–179.
Моченов С. В., Ахметгалеев Р. Р. Об одном подходе к построению информационной системы обработки текстовой информации на основе смысловых групп // Интеллектуальные системы в производстве. 2019. Т. 17. № 2. С. 58–64.
Моченов С. В., Бледнов А. М., Луговских Ю. А. Использование статистических методов для семантического анализа текста // Технологии информатизации профессиональной деятельности (в науке, образовании и промышленности) : сб. тр. науч.-техн. конф.и с междунар. участием в рамках форума «Высокие технологии – 2004». Ижевск : Регулярная и хаотическая динамика, 2005. С. 360–365.