Применение статистических характеристик для сокращения объема текстовой информации при сохранении ее информативности
DOI:
https://doi.org/10.22213/2413-1172-2018-2-173-179Ключевые слова:
анализ текстов, информационная система, текстовая информация, сокращение объема текста, информационный поискАннотация
Рассматривается возможность применения исследователями специализированных алгоритмов для информационной системы, обеспечивающей сокращение объема анализируемой текстовой информации в процессе информационного поиска. Актуальность работы обосновывается сложностью информационного поиска, связанного с решением пользователем конкретной задачи и необходимостью переработки больших объемов текстовых данных. Целью является сокращение объема анализируемой текстовой информации русскоязычных текстов при сохранении их смысловой составляющей. Приведено описание ранее разработанной информационной системы для сокращения объема текстовой информации в процессе информационного поиска. Представлено описание двух различных подходов к анализу текста, что позволяет осуществить сравнительный анализ получаемых результатов. Выполнена реализация данных подходов на базе ранее разработанной информационной системы, в структурную схему и алгоритм функционирования которой внесены соответствующие изменения. Приведены результаты проведенного экспериментального исследования. Из результатов применения описываемых подходов следует, что основная доля предложений, соответствующих запросу пользователя по выбранному тексту, представлена в заключительной части текста, что позволяет исследователю обратить внимание именно на эту часть анализируемого документа. Получены результаты, которые могут быть использованы для составления рефератов и аннотаций анализируемых документов. В дальнейшем предполагается формировать авторские смысловые группы слов, которые могут быть использованы исследователем для синтеза новых знаний.Библиографические ссылки
Алексеев А. А. Тематическое представление новостного кластера как основа для автоматического аннотирования // Труды 15-й Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL)». 2013. С. 359-369.
Бледнов А. М., Моченов С. В., Луговских Ю. А. Об одном методе статистической фильтрации текстовой информации // Материалы междунар. науч. конф. «Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам (Ижевск, 13-17 июля 2006 г.). Ижевск : Изд-во ИжГТУ, 2006. С. 126-130.
Герте Н. А., Курушин Д. С., Нестерова Н. М. Моделирование понимания текста как основа автоматизированного реферирования // Материалы VII Междунар. науч. конф. «Индустрия перевода» (1-3 июня 2015 г.). Пермь : Изд-во Пермского нац. иссл. политех. ун-та, 2015. С. 81-84.
Герте Н. А. Методика денотативного анализа текста как возможный инструмент для автоматического реферирования // Вестник Российского нового университета. Серия «Человек в современном мире». 2015. Вып. 3. С. 35-38.
Hong K. and Nenkova A. Improving the Estimation of Word Importance for News Multi-Document Summarization // EACL. 2014. Pp. 712-721. URL: https://repository.upenn.edu/cgi/viewcontent.cgi?article=2036&context=cis_reports (дата обращения: 14.03.2018).
Rankel P., Dang H., Conroy J., Nenkova A. A Decade of Automatic Content Evaluation of News Summaries: Reassessing the State of the Art // 51st Annual Meeting of the Association for Computational Linguistics. 2013. Pp. 131-136. URL: http://newdesign. aclweb.org/anthology/P/P13/P13-2024.pdf (дата обращения: 14.03.2018).
Luhn H. P. The automatic creation of literature abstracts // IBM Journal of Research and Development. 1958. Vol. 2, no. 2, pp. 159-165. URL: https://text-analysis.googlecode.com/files/luhn58.pdf (дата обращения: 14.03.2018).
Втюрин М. В., Ястребов А. И., Моченов С. В. Разработка информационной системы для уменьшения объема текстовой информации в процессе информационного поиска // Интеллектуальные системы в производстве. 2017. Т. 15, № 3. С. 94-99.
Выдрин Д., Громов С., Поляков В. Метод сравнения библиографических описаний, представленных в различных форматах // Обработка текста и когнитивные технологии № 9 : VII Междунар. конф. Варна ; М. : Учеба, 2004. С. 166-172.
Выдрин Д., Поляков В. Реализация электронного словаря на основе н-грамм // Труды III Междунар. науч.-практ. конф. «Искусственный интеллект - 2002» / Ин-т проблем искусственного интеллекта, 2002. Т. 2. С. 79-84.