Извлечение данных из коммерческих веб-форумов
Ключевые слова:
автоматическая обработка текста, извлечение данных, регулярные выражения, информационный поискАннотация
В статье описываются существующие подходы поиска данных в тексте и предлагается способ извлечения данных с коммерческих веб-форумов на основе регулярных выражений, словарей и анализе соседствующих атрибутов. Приводятся структура и примеры хранения регулярных выражений и правил поиска атрибутов, описание эксперимента в разработанной программной системе поиска и результаты эффективности извлечения данных.Библиографические ссылки
Feldman R., Sanger J. The Text Mining Handbook. Advanced Approaches in Analyzing Unstructured Data. - Cambridge University Press, 2007. - 424 p.
Ландо Т. Извлечение объектов и фактов из текстов [Электронный ресурс] // Хабрахабр [Сайт] (дата публикации: 07.12.2013). - URL: http://habrahabr.ru/company/ yandex/blog/205198 (дата обращения: 10.02.2016).
Jeffrey E. F. Friedl. Mastering regular expressions. Understand Your Data and Be More Productive. 3rd Edition. - O'Reilly Media, 2006. - 544 p.
Кормалев Д. А. Приложения методов машинного обучения в задачах анализа текста // Программные системы: теория и приложения : труды Международной конференции, Переславль-Залесский. - М. : Физматлит, 2004. - Т. 2. - С. 35-48.
Matthieu C., Padraig C., Delany S. J. Supervised Learning / Machine Learning Techniques for Multimedia Case Studies on Organization and Retrieval Editors: Matthieu Cord, Padraig Cunningham. - Springer-Verlag Berlin Heidelberg 2008. - P. 21-50.
Мокроусов М. Н., Кучуганов В. Н. Прагматическая компонента текста и человеко-машинный словарь. Труды Конгресса по интеллектуальным системам и информационным технологиям «IS&IT’15». - В 3 т. - Таганрог : Изд-во ЮФУ, 2015. - Т. 1. С. 222-227.