Reducing the Text Document Volume Based on Analysis of Its Correlation Dependencies

Authors

  • S. V. Mochenov
  • R. R. Ahmetgaleev
  • S. A. Lazarev

DOI:

https://doi.org/10.22213/2410-9304-2020-1-72-82

Keywords:

analysis of textual information, multiple words, single words, correlation dependencies, priority sentence, semantic content

Abstract

The paper deals with the analysis of textual information with the aim of reducing its volume and presenting the content of text of arbitrary sizes in the form of an abstract. The text is considered as a totality of sentences. As a basis for text analysis, the frequency (weight) characteristics of words are used, in particular, nouns used by the author in constructing sentences. The role of certain categories of words is determined. Based on weight characteristics, all words are divided into repeatedly and once used. Recommendations are formulated on the use of filter words to extract certain sentences from a text or a group of sentences and present them to the user. A technique for analyzing a text document has been developed. The analyzed text is divided into groups of sentences. Multiple words are used as base words in determining correlation dependencies between sentences in a text. Based on the correlation dependencies for each group, one priority proposal is determined, which reflects the semantic component of the text section specified by the group. By splitting into groups, a reduction in text volume is achieved. The total number of priority proposals corresponds to the number of groups. These proposals can be used to form an abstract and provide the researcher (user) with adequate and concise information about the content of the analyzed document. The paper provides examples of analysis and identifies the areas for further research.

References

Артюхин В. В., Чяснавичюс Ю. К. Планирование аналитического исследования при помощи методов анализа качественных данных // Прикладная информатика. 2014. № 2. С 23–48.

Волкова Е. С., Моченов С. В., Шаронов М. А. Проблема информационного поиска в педагогической практике // Вестник Ижевского государственно-го технического университета. 2014. № 4. С. 180-182.

Rankel P., Conroy J., Dang H., Nenkova A. A Decade of Automatic Content Evaluation of News Summaries: Reassessing the State of the Art // Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013. pp. 131-136.

Герте Н. А., Нестерова Н. М. Реферирование как способ извлечения и представления основного содержания текста // Вестник Пермского университета. Российская и зарубежная филология. 2013. №4/24. С. 127–132.

Курушин Д. С., Нестерова Н. М., Овчинникова И. Г. О возможном подходе к созданию системы автоматического реферирования // Вопросы психолингвистики. 2014. № 2 (20). С. 123–128.

K. Hong and A. Nenkova. "Improving the Estimation of Word Importance for News Multi-Document Summarization," in EACL, 2014, pp. 712-721. URL: https://repository.upenn.edu/cgi/viewcontent.cgi?article=2036&context=cis_reports (дата обращения: 29.01.2020).

Моченов С. В., Бледнов А. М., Луговских Ю. А. Векторная модель представления текстовой информации // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам : материалы Междунар. науч. конф. (Ижевск, 13–17 июля 2006 г.) / отв. ред. В. А. Баранов. Ижевск : Изд-во ИжГТУ, 2006. С. 131–139.

[Abstracts - The Writing Center] [Электронный ресурс]. URL: http://writingcenter.unc.edu/handouts/ abstracts/ (дата обращения 03.02.2020).

Och F.J., Tillmann C., Ney H. Improved Alignment Models for Statistical Machine Translation. URL: https://www.researchgate.net/publication/2282249_Improved Alignment Models for Statistical Machine Translation (дата обращения 04.02.2020).

Харламов А. А., Ермоленко Т. В., Дорохина Г. В. Сравнительный анализ организации систем синтаксических парсеров // Инженерный вестник Дона : электронный научный журнал. 2013. № 4. URL: http://ivdon.ru/ru/magazine/archive/n4y2013/2015 (дата обращения: 04.02.2020).

Luhn H.P. The automatic creation of literature abstracts // IBM Journal of Research and Development. 1958. Vol. 2, № 2. P. 159–165. URL: https://www.google.com/search?q=H.+P.+Luhn.+1958.+The+automatic+creation+of+literature+abstracts.+IBM+Journal+of+Research+and+Development (дата обращения: 29.01 2020).

Втюрин М. В., Ястребов А. И., Моченов С. В. Разработка информационной системы для уменьшения объема текстовой информации в процессе информационного поиска // Интеллектуальные системы в производстве. 2017. Т. 15. № 3. С. 94–99.

Втюрин М. В., Моченов С. В. Применение статистических характеристик для сокращения объема текстовой информации при сохранении ее информативности // Вестник ИжГТУ имени М.Т. Ка-лашникова. 2018. Т. 21. № 2. С. 173–179.

Моченов С. В., Ахметгалеев Р. Р. Об одном подходе к построению информационной системы обработки текстовой информации на основе смысловых групп // Интеллектуальные системы в производстве. 2019. Т. 17. № 2. С. 58–64.

Моченов С. В., Бледнов А. М., Луговских Ю. А. Использование статистических методов для семантического анализа текста // Технологии информатизации профессиональной деятельности (в науке, образовании и промышленности) : сб. тр. науч.-техн. конф.и с междунар. участием в рамках форума «Высокие технологии – 2004». Ижевск : Регулярная и хаотическая динамика, 2005. С. 360–365.

Published

18.06.2020

How to Cite

Mochenov С. В., Ahmetgaleev Р. Р., & Lazarev С. А. (2020). Reducing the Text Document Volume Based on Analysis of Its Correlation Dependencies. Intellekt. Sist. Proizv., 18(1), 72–82. https://doi.org/10.22213/2410-9304-2020-1-72-82

Issue

Section

Articles