Извлечение данных из коммерческих веб-форумов

Авторы

  • М. Н. Мокроусов
  • Н. Н. Чиркова

Ключевые слова:

автоматическая обработка текста, извлечение данных, регулярные выражения, информационный поиск

Аннотация

В статье описываются существующие подходы поиска данных в тексте и предлагается способ извлечения данных с коммерческих веб-форумов на основе регулярных выражений, словарей и анализе соседствующих атрибутов. Приводятся структура и примеры хранения регулярных выражений и правил поиска атрибутов, описание эксперимента в разработанной программной системе поиска и результаты эффективности извлечения данных.

Библиографические ссылки

Feldman R., Sanger J. The Text Mining Handbook. Advanced Approaches in Analyzing Unstructured Data. - Cambridge University Press, 2007. - 424 p.

Ландо Т. Извлечение объектов и фактов из текстов [Электронный ресурс] // Хабрахабр [Сайт] (дата публикации: 07.12.2013). - URL: http://habrahabr.ru/company/ yandex/blog/205198 (дата обращения: 10.02.2016).

Jeffrey E. F. Friedl. Mastering regular expressions. Understand Your Data and Be More Productive. 3rd Edition. - O'Reilly Media, 2006. - 544 p.

Кормалев Д. А. Приложения методов машинного обучения в задачах анализа текста // Программные системы: теория и приложения : труды Международной конференции, Переславль-Залесский. - М. : Физматлит, 2004. - Т. 2. - С. 35-48.

Matthieu C., Padraig C., Delany S. J. Supervised Learning / Machine Learning Techniques for Multimedia Case Studies on Organization and Retrieval Editors: Matthieu Cord, Padraig Cunningham. - Springer-Verlag Berlin Heidelberg 2008. - P. 21-50.

Мокроусов М. Н., Кучуганов В. Н. Прагматическая компонента текста и человеко-машинный словарь. Труды Конгресса по интеллектуальным системам и информационным технологиям «IS&IT’15». - В 3 т. - Таганрог : Изд-во ЮФУ, 2015. - Т. 1. С. 222-227.

Загрузки

Опубликован

04.05.2016

Как цитировать

Мокроусов, М. Н., & Чиркова, Н. Н. (2016). Извлечение данных из коммерческих веб-форумов. Интеллектуальные системы в производстве, 14(1), 69–74. извлечено от https://izdat.istu.ru/index.php/ISM/article/view/3203

Выпуск

Раздел

Компьютерная лингвистика (архив)