Опыт создания модуля n-грамм системы «манускрипт» и оценки эффективности его использования для поиска коллокаций в корпусе М. В. Ломоносова

Авторы

  • В. А. Баранов

DOI:

https://doi.org/10.22213/2410-9304-2016-4-124-131

Ключевые слова:

исторический корпус, корпус Ломоносова, статистические методы, n-граммы, меры ассоциации, коллокации

Аннотация

В статье описаны функции и параметры модуля n-грамм информационно-аналитической системы (корпуса) «Манускрипт» и итоги эксперимента по применению нескольких статистических методов в корпусе текстов М. В. Ломоносова. Показано, что количественные и статистические методы оценки биграмм применимы к авторскому историческому корпусу и позволяют выявлять устойчивые сочетания.

Библиографические ссылки

Национальный корпус русского языка [Электронный ресурс]. - URL: www.ruscorpora.ru (дата обращения: 12.09.2016).

Савчук С. О., Сичинава Д. В., Гарипов И. И. Подкорпус текстов XVIII века в составе Национального корпуса русского языка: из опыта работы [Электронный ресурс]. - URL: http://fccl.ksu.ru/issue_spec/docs/Savchuk_Sichinava_ Garipov.doc (дата обращения: 18.09.2016).

Соловьев В. Д., Ахтямов Р. Б. Корпус русского языка XVIII века: текущее состояние // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам: материалы Междунар. науч. конф., Ижевск, 13-17 июля 2006 г. - Ижевск, 2006. - С. 156-160.

Savchuk, Svetlana. Corpus-based Investigation of Language Change: the Case of RNC // Proceedings of the Corpus Linguistics Conference CL2007 University of Birmingham, UK, 27-30 July 2007 / Matthew Davies, Paul Rayson, Susan Hunston, Pernilla Danielsson (eds.). - URL: http://ucrel.lancs.ac.uk/publications/CL2007/final/181/181_ Paper.pdf (дата обращения: 12.09.2015).

Баранов В. А., Аникина Р. А., Кокорина Т. В., Ощепков С. В., Соколова А. А. Метаинформация в коллекции М. В. Ломоносова на портале «Манускрипт: Славянское письменное наследие» // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам: материалы междунар. науч. конф. (Казань, 26-30 августа 2008 г.) / отв. ред. В. А. Баранов, В. Д. Соловьев. - Казань : Изд-во КГУ, 2008. - С 23-27.

Савчук С. О. Корпус текстов XVIII века в составе Национального корпуса русского языка: проблемы и перспективы // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам: материалы Междунар. науч. конф. (Казань, 26-30 августа 2008 г.) / отв. ред. В. Д. Соловьев, В. А. Баранов. - Казань : Изд-во Казан. гос. ун-та, 2008. С. 241-244.

Савчук С. О, Сичинава Д. В. Корпус русских текстов XVIII века в составе НКРЯ: проблемы и перспективы // Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы. - СПб. : Нестор-История, 2009. - С. 52-70. - URL: http://ruscorpora.ru/sbornik2008/04.pdf (дата обращения: 12.09.2016).

Баранов В. А. Полное собрание сочинений М. В. Ломоносова в интернете: подготовка электронной коллекции и функциональные возможности модулей корпуса // Уч. зап. Казанского ун-та. Серия: Гуманитарные науки. - Т. 152. - Вып. 6. - 2010. - С. 223-234.

Баранов В. А. Корпус языка М. В. Ломоносова // Русский язык: функционирование и развитие (к 85-летию со дня рождения заслуженного деятеля науки Российской Федерации профессора Виталия Михайловича Маркова) : материалы Междунар. науч. конф. (Казань, 18-21 апреля 2012 г.) / Казан. ун-т; Ин-т филологии и искусств; Каф. ист. рус. яз. и слав. языкозн. ; под общ. ред. Л. Р. Абдулхаковой, Д. Р. Копосова. - Казань : Казан. ун-т, 2012. - Т. 1. - С. 58-63.

Баранов В. А. Историческая морфология и корпусная лингвистика: стяженные и нестяженные формы имен в русских рукописях XI века // Русский язык: история и современность: сб. ст. к юбилею проф. Т. М. Николаевой / под общ. ред. Л. Р. Абдулхаковой, Д. Р. Копосова. - Казань : Казан. гос. ун-т, 2008. - С. 43-53.

Сичинава Д. В. Исторические корпуса Национального корпуса русского языка как инструмент диахронических исследований грамматики // Писменото наследство и информационните технологии [Текст]: материали от V международна науч. конф. (Варна, 15-20 септември 2014 г.) / отв. ред. В. А. Баранов, В. Желязкова, А. М. Лаврентьев. - София ; Ижевск, 2014. - С. 226-229.

Баранов В. А., Гнутиков Р. М., Зливко С. Д. Авторский электронный словарь-справочник лингвистической терминологии М. В. Ломоносова // Интеллектуальные системы в производстве. - 2015. - № 3 (27). - С. 88-92.

Корпус М. В. Ломоносова [Электронный ресурс] / Ижевский государственный технический университет, кафедра лингвистики, Центр теоретической и прикладной лингвистики, 2005-2016; Казанский (Приволжский) федеральный университет, 2007-2009; Удмуртский государственный университет, лаборатория по автоматизации филологических работ, 1989-2013; рук. проекта В. М. Марков, 1989-2010; сорук. и рук. В. А. Баранов, 1989-2016. - URL: lomonosov.pro (дата обращения: 18.09.2016).

Ломоносов М. В. Полное собрание сочинений : в 11 т. - Т. 8: Поэзия. Ораторская проза. Надписи. 1732-1764 гг. М.; Л., 1959. 1280 с.; Т. 10: Служебные документы. Письма. - М. ; Л., 1959. - 935 с.

Баранов В. А. Организация поиска и демонстрации коллокаций в корпусе «Манускрипт» // Проблемы истории, филологии, культуры. - 2014. - № 3 (45). - С. 275-277.

Баранов В. А. Полное собрание сочинений М. В. Ломоносова в интернете.. - С. 225.

Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Е. И. Большакова, Э. С. Клышинский, Д. В. Ландэ, А. А. Носков, О. В. Пескова, Е. В. Ягунова. - М. : МИЭМ, 2011. - 272 с.

Влавацкая М. В. Понятия коллокации и коллигации в диахроническом рассмотрении // Актуальные проблемы филологии и методики преподавания иностранных языков. - 2011. - № 5. - С. 19-25.

Пивоварова Л. М., Ягунова Е. В. От коллокаций к конструкциям // Acta Linguistica Petropolitana. Труды института лингвистических исследований. - 2014. - Т. 10. - № 2. - С. 568-617. - URL: http://elibrary.ru/download/ 84557015.pdf (дата обращения: 12.09.2016).

Влавацкая М. В. Комбинаторная лексикология: функционально-семантическая классификация коллокаций // Филологические науки. Вопросы теории и практики. - 2015. - № 11-1. - С. 56-60. - URL: http://elibrary.ru/ download/54324014.pdf (дата обращения: 12.09.2016).

Evert S. Association Measures [Электронный ресурс] // Computational Approaches to Collocations. - URL: http://collocations.de/AM/index.html (дата обращения: 12.09.2015).

Хохлова М. В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы / под ред. А. Мустайоки, М. В. Копотева, Л. А. Бирюлина, Е. Ю. Протасовой. - Хельсинки, 2008. - С. 343-357. - URL: https://drive.google.com/file/d/0BwBejXXryRcRSFF2ek Rs Y3VYV00/view?pref=2&pli=1 (дата обращения: 12.09.2016).

Хохлова М. В. К вопросу изучения сочетаемости и устойчивости лексических единиц автоматическими методами // Структурная и прикладная лингвистика. - 2010. - № 8. - С. 206-218.

Хохлова М. В. Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов (на базе корпусов текстов). Автореф. дис.. канд. филол. наук. 10.02.21. - СПб., 2010. - 27 с. - URL: http://dlib.rsl.ru/viewer/01004855815#previewTab?page=1 (дата обращения: 12.09.2016).

Ягунова Е. В., Пивоварова Л. М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Сб. НТИ. - Сер. 2, № 6. - М., 2010. - URL: http://medialing. spbu.ru/upload/files/file_1394529742_4311.pdf; https://goo.gl/ PYqRJp (дата обращения: 12.09.2016).

Автоматическая обработка текстов…

Захаров В. П., Хохлова М. В. Автоматическое извлечение терминов из специальных текстов с использованием дистрибутивно-статистического метода как инструмент создания тезаурусов // Структурная и прикладная лингвистика. - 2012. - № 9. - С. 222-233. - URL: http://elibrary.ru/ download/ 35845010.pdf (дата обращения: 12.09.2016).

Ягунова Е. В., Пивоварова Л. М. От коллокаций к конструкциям // Русский язык: конструкционные и лексико-семантические подходы / Отв. ред. С. С. Сай. - СПб., 2013. - (Acta Linguistica petropolitana. Труды Института лингвистических исследований РАН / Отв. ред. Н. Н. Казанский, Е. В. Ягунова, Л. М. Пивоварова.) - URL: https://goo.gl/tIHeoR (дата обращения: 12.09.2016).

Залесская В. В. Программа выявления в тексте двучленных статистически значимых осмысленных коллокаций (на материале русского языка) // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Труды XVII Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2014) / Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики; Библиотека Российской Академии наук. 2014. - С. 283-289. - URL: http://ojs.ifmo.ru/index.php/IMS/article/viewFile/267/263 (дата обращения: 12.09.2016).

Захаров В. П., Хохлова М. В. Выделение терминологических словосочетаний из специальных текстов на основе различных мер ассоциации // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Труды XVII Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2014) / Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики; Библиотека Российской Академии наук. - 2014. - С. 290-293. - URL: http://ojs.ifmo.ru/ index.php/IMS/article/viewFile/268/264 (дата обращения: 12.09.2016).

Кочеткова Н. А. Статистические языковые методы. Коллокации и коллигации [Электронный ресурс] // Cyberleninka.ru. - URL: http://cyberleninka.ru/article/n/ statisticheskie-yazykovye-metody-kollokatsii-i-kolligatsii (дата обращения: 12.09.2016).

Пивоварова Л. М., Ягунова Е. В. От коллокаций к конструкциям..

Бобкова Т. Извлечение коллокаций из корпуса украинских текстов // Computational linguistics / Kompiuterinė lingvistika. - № 27. 2015. - 93-105. - URL: http://www.vpa. ktu.lt/index.php/KStud/article/viewFile/13747/7329 (дата обращения: 12.09.2016).

Хохлова М. В. Большие корпусы и частотные существительные: предварительные наблюдения // Структурная и прикладная лингвистика. - 2015. - № 11. - С. 174-185.

Автоматическая обработка текстов.. - С. 23-25.

Там же. - С. 43.

Evert S. Association Measures.

Автоматическая обработка текста..

Захаров В. П., Хохлова М. В. Выделение терминологических словосочетаний..

Пивоварова Л. М., Ягунова Е. В. От коллокаций к конструкциям..

Ягунова Е. В., Пивоварова Л. М. Природа коллокаций в русском языке..

Хохлова М. В. Исследование лексико-синтаксической сочетаемости..

Хохлова М. В. Большие корпусы и частотные существительные..

Кочеткова Н. А. Статистические языковые методы.. - С. 302.

Ягунова Е. В., Пивоварова Л. М. От коллокаций к конструкциям..

Пентус М., Пиперски А., Сорокин А. Математические модели в лингвистике. Коллокации и их автоматическое определение: лекции. - URL: https://goo.gl/NALvX4 (дата обращения: 12.09.2016).

Ягунова Е. В., Пивоварова Л. М. От коллокаций к конструкциям..

Кочеткова Н. А. Статистические языковые методы.. - С. 302.

Пивоварова Л. М., Ягунова Е. В. От коллокаций к конструкциям… - С. 569.

Evert S. Association Measures. Section 4.3.

Пентус М., Пиперски А., Сорокин А. Математические модели в лингвистике. Коллокации и их автоматическое определение..

Бобкова Т. Извлечение коллокаций из корпуса украинских текстов.. - С. 98.

Evert S. Association Measures.

Там же.

Там же.

Там же.

Загрузки

Опубликован

30.01.2017

Как цитировать

Баранов, В. А. (2017). Опыт создания модуля n-грамм системы «манускрипт» и оценки эффективности его использования для поиска коллокаций в корпусе М. В. Ломоносова. Интеллектуальные системы в производстве, 14(4), 124–131. https://doi.org/10.22213/2410-9304-2016-4-124-131

Выпуск

Раздел

Компьютерная лингвистика (архив)