The Use of Statistical Characteristics to Reduce the Volume of Textual Information while Preserving Its Informativeness

Authors

  • M. V. Vtyurin Kalashnikov ISTU
  • S. V. Mochenov Kalashnikov ISTU

DOI:

https://doi.org/10.22213/2413-1172-2018-2-173-179

Keywords:

text analysis, information system, text information, reduction of the volume of the text, information search

Abstract

The paper examines the possibility of researchers using specialized algorithms for an information system that provides a reduction in the volume of the analyzed text information in the process of information retrieval. The relevance of the work is justified by the complexity of information retrieval associated with the user’s solution of a particular task and by the need to process large amounts of text data. The goal is to reduce the volume of the analyzed text information of Russian-language texts, while preserving their semantic component. The description of the previously developed information system for reducing the volume of textual information in the process of information retrieval is given. A description of two different approaches to text analysis is presented, which allows for a comparative analysis of the results obtained. These approaches were implemented based on the previously developed information system. Corresponding changes were made in the structural scheme and algorithm of the information system functioning. The results of the experimental study are presented. It follows from the results of the application of this approach that the main part of the proposals corresponding to the user's request for the selected text is shown in the final part of the text, which allows the researcher to pay attention to this part of the analyzed document. Results that can be used to compose abstracts and annotations of analyzed documents are obtained. In the future it is supposed to form author's semantic groups of words that can be used by the researcher to synthesize new knowledge.

Author Biographies

M. V. Vtyurin, Kalashnikov ISTU

Post-graduate

S. V. Mochenov, Kalashnikov ISTU

PhD in Engineering

References

Алексеев А. А. Тематическое представление новостного кластера как основа для автоматического аннотирования // Труды 15-й Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL)». 2013. С. 359-369.

Бледнов А. М., Моченов С. В., Луговских Ю. А. Об одном методе статистической фильтрации текстовой информации // Материалы междунар. науч. конф. «Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам (Ижевск, 13-17 июля 2006 г.). Ижевск : Изд-во ИжГТУ, 2006. С. 126-130.

Герте Н. А., Курушин Д. С., Нестерова Н. М. Моделирование понимания текста как основа автоматизированного реферирования // Материалы VII Междунар. науч. конф. «Индустрия перевода» (1-3 июня 2015 г.). Пермь : Изд-во Пермского нац. иссл. политех. ун-та, 2015. С. 81-84.

Герте Н. А. Методика денотативного анализа текста как возможный инструмент для автоматического реферирования // Вестник Российского нового университета. Серия «Человек в современном мире». 2015. Вып. 3. С. 35-38.

Hong K. and Nenkova A. Improving the Estimation of Word Importance for News Multi-Document Summarization // EACL. 2014. Pp. 712-721. URL: https://repository.upenn.edu/cgi/viewcontent.cgi?article=2036&context=cis_reports (дата обращения: 14.03.2018).

Rankel P., Dang H., Conroy J., Nenkova A. A Decade of Automatic Content Evaluation of News Summaries: Reassessing the State of the Art // 51st Annual Meeting of the Association for Computational Linguistics. 2013. Pp. 131-136. URL: http://newdesign. aclweb.org/anthology/P/P13/P13-2024.pdf (дата обращения: 14.03.2018).

Luhn H. P. The automatic creation of literature abstracts // IBM Journal of Research and Development. 1958. Vol. 2, no. 2, pp. 159-165. URL: https://text-analysis.googlecode.com/files/luhn58.pdf (дата обращения: 14.03.2018).

Втюрин М. В., Ястребов А. И., Моченов С. В. Разработка информационной системы для уменьшения объема текстовой информации в процессе информационного поиска // Интеллектуальные системы в производстве. 2017. Т. 15, № 3. С. 94-99.

Выдрин Д., Громов С., Поляков В. Метод сравнения библиографических описаний, представленных в различных форматах // Обработка текста и когнитивные технологии № 9 : VII Междунар. конф. Варна ; М. : Учеба, 2004. С. 166-172.

Выдрин Д., Поляков В. Реализация электронного словаря на основе н-грамм // Труды III Междунар. науч.-практ. конф. «Искусственный интеллект - 2002» / Ин-т проблем искусственного интеллекта, 2002. Т. 2. С. 79-84.

Published

02.07.2018

How to Cite

Vtyurin М. В., & Mochenov С. В. (2018). The Use of Statistical Characteristics to Reduce the Volume of Textual Information while Preserving Its Informativeness. Vestnik IzhGTU Imeni M.T. Kalashnikova, 21(2), 173–179. https://doi.org/10.22213/2413-1172-2018-2-173-179

Issue

Section

Articles