Computer-aided system of natural-language texts normalization

Mokrousov M.N.

Abstract


The article represents the computer-aided system of text normalization that divides the text into words, sentences and paragraphs and extracts the personal names, abbreviations and alphanumeric sequences of the symbols in the text. The structure of the system, the key points of its work and the results of experiments are described.

Keywords


natural language processing, text segmentation, stemming, text normalization, regular expressions

References References

Мокроусов М. Н. Интеллектуальный поиск в задаче извлечения знаний из естественно-языковых текстов // Всероссийская конференция с элементами научной школы для молодежи «Проведение научных исследований в области обработки, хранения, передачи и защиты информации». - В 4 т. Т. 2. - Ульяновск : УлГТУ, 2009. - С. 347-355.

Сокирко А. В. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ) : дис.. канд. техн. наук. - М., 2001. - 100 с.

Гойвертс Я., Левитан С. Регулярные выражения. Сборник рецептов. - СПб. : Символ-Плюс, 2010.


Article Metrics

Metrics Loading ...

Metrics powered by PLOS ALM

Refbacks

  • There are currently no refbacks.


Copyright (c) 2016 Максим Николаевич Мокроусов

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

ISSN 1813-7911