Извлечение данных из коммерческих веб-форумов

М. Н. Мокроусов; Н. Н. Чиркова

Авторы

М. Н. Мокроусов
Н. Н. Чиркова

Ключевые слова:

автоматическая обработка текста, извлечение данных, регулярные выражения, информационный поиск

Аннотация

В статье описываются существующие подходы поиска данных в тексте и предлагается способ извлечения данных с коммерческих веб-форумов на основе регулярных выражений, словарей и анализе соседствующих атрибутов. Приводятся структура и примеры хранения регулярных выражений и правил поиска атрибутов, описание эксперимента в разработанной программной системе поиска и результаты эффективности извлечения данных.

Библиографические ссылки

Feldman R., Sanger J. The Text Mining Handbook. Advanced Approaches in Analyzing Unstructured Data. - Cambridge University Press, 2007. - 424 p.

Ландо Т. Извлечение объектов и фактов из текстов [Электронный ресурс] // Хабрахабр [Сайт] (дата публикации: 07.12.2013). - URL: http://habrahabr.ru/company/ yandex/blog/205198 (дата обращения: 10.02.2016).

Jeffrey E. F. Friedl. Mastering regular expressions. Understand Your Data and Be More Productive. 3rd Edition. - O'Reilly Media, 2006. - 544 p.

Кормалев Д. А. Приложения методов машинного обучения в задачах анализа текста // Программные системы: теория и приложения : труды Международной конференции, Переславль-Залесский. - М. : Физматлит, 2004. - Т. 2. - С. 35-48.

Matthieu C., Padraig C., Delany S. J. Supervised Learning / Machine Learning Techniques for Multimedia Case Studies on Organization and Retrieval Editors: Matthieu Cord, Padraig Cunningham. - Springer-Verlag Berlin Heidelberg 2008. - P. 21-50.

Мокроусов М. Н., Кучуганов В. Н. Прагматическая компонента текста и человеко-машинный словарь. Труды Конгресса по интеллектуальным системам и информационным технологиям «IS&IT’15». - В 3 т. - Таганрог : Изд-во ЮФУ, 2015. - Т. 1. С. 222-227.

Извлечение данных из коммерческих веб-форумов

Авторы

Ключевые слова:

Аннотация

Библиографические ссылки

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

crossref

Подписка

Информация

Отправить материал