Computer-aided system of natural-language texts normalization

Authors

  • M. N. Mokrousov Kalashnikov ISTU

Keywords:

natural language processing, text segmentation, stemming, text normalization, regular expressions

Abstract

The article represents the computer-aided system of text normalization that divides the text into words, sentences and paragraphs and extracts the personal names, abbreviations and alphanumeric sequences of the symbols in the text. The structure of the system, the key points of its work and the results of experiments are described.

Author Biography

M. N. Mokrousov, Kalashnikov ISTU

PhD in Engineering, Associate Professor

References

Мокроусов М. Н. Интеллектуальный поиск в задаче извлечения знаний из естественно-языковых текстов // Всероссийская конференция с элементами научной школы для молодежи «Проведение научных исследований в области обработки, хранения, передачи и защиты информации». - В 4 т. Т. 2. - Ульяновск : УлГТУ, 2009. - С. 347-355.

Сокирко А. В. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ) : дис.. канд. техн. наук. - М., 2001. - 100 с.

Гойвертс Я., Левитан С. Регулярные выражения. Сборник рецептов. - СПб. : Символ-Плюс, 2010.

Published

20.01.2016

How to Cite

Mokrousov М. Н. (2016). Computer-aided system of natural-language texts normalization. Intellekt. Sist. Proizv., 13(3), 93–96. Retrieved from https://izdat.istu.ru/index.php/ISM/article/view/3109

Issue

Section

Computer linguistics (only archive)