Experience of Creation of the N-Gram Module of the System “Manuscript” and Evaluation of The Efficiency of Its Application to Search Collocations in the Corpus of M.V. Lomonosov

Authors

  • V. A. Baranov

DOI:

https://doi.org/10.22213/2410-9304-2016-4-124-131

Keywords:

historical corpus, corpus of Lomonosov, statistic methods, n-grams, measure of association, collocations

Abstract

The article contains a description of functions and parameters of the n-gram module of the informational analytical system (corpus) “Manuscript” and the results of the experiment on the application of some statistic methods to the corpus of texts by M. V. Lomonosov. The quantitative and statistic methods of evaluation of bigrams are shown as applicable to the author’s historical corpus and enabling revelation of stable combinations.

References

Национальный корпус русского языка [Электронный ресурс]. - URL: www.ruscorpora.ru (дата обращения: 12.09.2016).

Савчук С. О., Сичинава Д. В., Гарипов И. И. Подкорпус текстов XVIII века в составе Национального корпуса русского языка: из опыта работы [Электронный ресурс]. - URL: http://fccl.ksu.ru/issue_spec/docs/Savchuk_Sichinava_ Garipov.doc (дата обращения: 18.09.2016).

Соловьев В. Д., Ахтямов Р. Б. Корпус русского языка XVIII века: текущее состояние // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам: материалы Междунар. науч. конф., Ижевск, 13-17 июля 2006 г. - Ижевск, 2006. - С. 156-160.

Savchuk, Svetlana. Corpus-based Investigation of Language Change: the Case of RNC // Proceedings of the Corpus Linguistics Conference CL2007 University of Birmingham, UK, 27-30 July 2007 / Matthew Davies, Paul Rayson, Susan Hunston, Pernilla Danielsson (eds.). - URL: http://ucrel.lancs.ac.uk/publications/CL2007/final/181/181_ Paper.pdf (дата обращения: 12.09.2015).

Баранов В. А., Аникина Р. А., Кокорина Т. В., Ощепков С. В., Соколова А. А. Метаинформация в коллекции М. В. Ломоносова на портале «Манускрипт: Славянское письменное наследие» // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам: материалы междунар. науч. конф. (Казань, 26-30 августа 2008 г.) / отв. ред. В. А. Баранов, В. Д. Соловьев. - Казань : Изд-во КГУ, 2008. - С 23-27.

Савчук С. О. Корпус текстов XVIII века в составе Национального корпуса русского языка: проблемы и перспективы // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам: материалы Междунар. науч. конф. (Казань, 26-30 августа 2008 г.) / отв. ред. В. Д. Соловьев, В. А. Баранов. - Казань : Изд-во Казан. гос. ун-та, 2008. С. 241-244.

Савчук С. О, Сичинава Д. В. Корпус русских текстов XVIII века в составе НКРЯ: проблемы и перспективы // Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы. - СПб. : Нестор-История, 2009. - С. 52-70. - URL: http://ruscorpora.ru/sbornik2008/04.pdf (дата обращения: 12.09.2016).

Баранов В. А. Полное собрание сочинений М. В. Ломоносова в интернете: подготовка электронной коллекции и функциональные возможности модулей корпуса // Уч. зап. Казанского ун-та. Серия: Гуманитарные науки. - Т. 152. - Вып. 6. - 2010. - С. 223-234.

Баранов В. А. Корпус языка М. В. Ломоносова // Русский язык: функционирование и развитие (к 85-летию со дня рождения заслуженного деятеля науки Российской Федерации профессора Виталия Михайловича Маркова) : материалы Междунар. науч. конф. (Казань, 18-21 апреля 2012 г.) / Казан. ун-т; Ин-т филологии и искусств; Каф. ист. рус. яз. и слав. языкозн. ; под общ. ред. Л. Р. Абдулхаковой, Д. Р. Копосова. - Казань : Казан. ун-т, 2012. - Т. 1. - С. 58-63.

Баранов В. А. Историческая морфология и корпусная лингвистика: стяженные и нестяженные формы имен в русских рукописях XI века // Русский язык: история и современность: сб. ст. к юбилею проф. Т. М. Николаевой / под общ. ред. Л. Р. Абдулхаковой, Д. Р. Копосова. - Казань : Казан. гос. ун-т, 2008. - С. 43-53.

Сичинава Д. В. Исторические корпуса Национального корпуса русского языка как инструмент диахронических исследований грамматики // Писменото наследство и информационните технологии [Текст]: материали от V международна науч. конф. (Варна, 15-20 септември 2014 г.) / отв. ред. В. А. Баранов, В. Желязкова, А. М. Лаврентьев. - София ; Ижевск, 2014. - С. 226-229.

Баранов В. А., Гнутиков Р. М., Зливко С. Д. Авторский электронный словарь-справочник лингвистической терминологии М. В. Ломоносова // Интеллектуальные системы в производстве. - 2015. - № 3 (27). - С. 88-92.

Корпус М. В. Ломоносова [Электронный ресурс] / Ижевский государственный технический университет, кафедра лингвистики, Центр теоретической и прикладной лингвистики, 2005-2016; Казанский (Приволжский) федеральный университет, 2007-2009; Удмуртский государственный университет, лаборатория по автоматизации филологических работ, 1989-2013; рук. проекта В. М. Марков, 1989-2010; сорук. и рук. В. А. Баранов, 1989-2016. - URL: lomonosov.pro (дата обращения: 18.09.2016).

Ломоносов М. В. Полное собрание сочинений : в 11 т. - Т. 8: Поэзия. Ораторская проза. Надписи. 1732-1764 гг. М.; Л., 1959. 1280 с.; Т. 10: Служебные документы. Письма. - М. ; Л., 1959. - 935 с.

Баранов В. А. Организация поиска и демонстрации коллокаций в корпусе «Манускрипт» // Проблемы истории, филологии, культуры. - 2014. - № 3 (45). - С. 275-277.

Баранов В. А. Полное собрание сочинений М. В. Ломоносова в интернете.. - С. 225.

Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Е. И. Большакова, Э. С. Клышинский, Д. В. Ландэ, А. А. Носков, О. В. Пескова, Е. В. Ягунова. - М. : МИЭМ, 2011. - 272 с.

Влавацкая М. В. Понятия коллокации и коллигации в диахроническом рассмотрении // Актуальные проблемы филологии и методики преподавания иностранных языков. - 2011. - № 5. - С. 19-25.

Пивоварова Л. М., Ягунова Е. В. От коллокаций к конструкциям // Acta Linguistica Petropolitana. Труды института лингвистических исследований. - 2014. - Т. 10. - № 2. - С. 568-617. - URL: http://elibrary.ru/download/ 84557015.pdf (дата обращения: 12.09.2016).

Влавацкая М. В. Комбинаторная лексикология: функционально-семантическая классификация коллокаций // Филологические науки. Вопросы теории и практики. - 2015. - № 11-1. - С. 56-60. - URL: http://elibrary.ru/ download/54324014.pdf (дата обращения: 12.09.2016).

Evert S. Association Measures [Электронный ресурс] // Computational Approaches to Collocations. - URL: http://collocations.de/AM/index.html (дата обращения: 12.09.2015).

Хохлова М. В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы / под ред. А. Мустайоки, М. В. Копотева, Л. А. Бирюлина, Е. Ю. Протасовой. - Хельсинки, 2008. - С. 343-357. - URL: https://drive.google.com/file/d/0BwBejXXryRcRSFF2ek Rs Y3VYV00/view?pref=2&pli=1 (дата обращения: 12.09.2016).

Хохлова М. В. К вопросу изучения сочетаемости и устойчивости лексических единиц автоматическими методами // Структурная и прикладная лингвистика. - 2010. - № 8. - С. 206-218.

Хохлова М. В. Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов (на базе корпусов текстов). Автореф. дис.. канд. филол. наук. 10.02.21. - СПб., 2010. - 27 с. - URL: http://dlib.rsl.ru/viewer/01004855815#previewTab?page=1 (дата обращения: 12.09.2016).

Ягунова Е. В., Пивоварова Л. М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Сб. НТИ. - Сер. 2, № 6. - М., 2010. - URL: http://medialing. spbu.ru/upload/files/file_1394529742_4311.pdf; https://goo.gl/ PYqRJp (дата обращения: 12.09.2016).

Автоматическая обработка текстов…

Захаров В. П., Хохлова М. В. Автоматическое извлечение терминов из специальных текстов с использованием дистрибутивно-статистического метода как инструмент создания тезаурусов // Структурная и прикладная лингвистика. - 2012. - № 9. - С. 222-233. - URL: http://elibrary.ru/ download/ 35845010.pdf (дата обращения: 12.09.2016).

Ягунова Е. В., Пивоварова Л. М. От коллокаций к конструкциям // Русский язык: конструкционные и лексико-семантические подходы / Отв. ред. С. С. Сай. - СПб., 2013. - (Acta Linguistica petropolitana. Труды Института лингвистических исследований РАН / Отв. ред. Н. Н. Казанский, Е. В. Ягунова, Л. М. Пивоварова.) - URL: https://goo.gl/tIHeoR (дата обращения: 12.09.2016).

Залесская В. В. Программа выявления в тексте двучленных статистически значимых осмысленных коллокаций (на материале русского языка) // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Труды XVII Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2014) / Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики; Библиотека Российской Академии наук. 2014. - С. 283-289. - URL: http://ojs.ifmo.ru/index.php/IMS/article/viewFile/267/263 (дата обращения: 12.09.2016).

Захаров В. П., Хохлова М. В. Выделение терминологических словосочетаний из специальных текстов на основе различных мер ассоциации // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Труды XVII Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2014) / Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики; Библиотека Российской Академии наук. - 2014. - С. 290-293. - URL: http://ojs.ifmo.ru/ index.php/IMS/article/viewFile/268/264 (дата обращения: 12.09.2016).

Кочеткова Н. А. Статистические языковые методы. Коллокации и коллигации [Электронный ресурс] // Cyberleninka.ru. - URL: http://cyberleninka.ru/article/n/ statisticheskie-yazykovye-metody-kollokatsii-i-kolligatsii (дата обращения: 12.09.2016).

Пивоварова Л. М., Ягунова Е. В. От коллокаций к конструкциям..

Бобкова Т. Извлечение коллокаций из корпуса украинских текстов // Computational linguistics / Kompiuterinė lingvistika. - № 27. 2015. - 93-105. - URL: http://www.vpa. ktu.lt/index.php/KStud/article/viewFile/13747/7329 (дата обращения: 12.09.2016).

Хохлова М. В. Большие корпусы и частотные существительные: предварительные наблюдения // Структурная и прикладная лингвистика. - 2015. - № 11. - С. 174-185.

Автоматическая обработка текстов.. - С. 23-25.

Там же. - С. 43.

Evert S. Association Measures.

Автоматическая обработка текста..

Захаров В. П., Хохлова М. В. Выделение терминологических словосочетаний..

Пивоварова Л. М., Ягунова Е. В. От коллокаций к конструкциям..

Ягунова Е. В., Пивоварова Л. М. Природа коллокаций в русском языке..

Хохлова М. В. Исследование лексико-синтаксической сочетаемости..

Хохлова М. В. Большие корпусы и частотные существительные..

Кочеткова Н. А. Статистические языковые методы.. - С. 302.

Ягунова Е. В., Пивоварова Л. М. От коллокаций к конструкциям..

Пентус М., Пиперски А., Сорокин А. Математические модели в лингвистике. Коллокации и их автоматическое определение: лекции. - URL: https://goo.gl/NALvX4 (дата обращения: 12.09.2016).

Ягунова Е. В., Пивоварова Л. М. От коллокаций к конструкциям..

Кочеткова Н. А. Статистические языковые методы.. - С. 302.

Пивоварова Л. М., Ягунова Е. В. От коллокаций к конструкциям… - С. 569.

Evert S. Association Measures. Section 4.3.

Пентус М., Пиперски А., Сорокин А. Математические модели в лингвистике. Коллокации и их автоматическое определение..

Бобкова Т. Извлечение коллокаций из корпуса украинских текстов.. - С. 98.

Evert S. Association Measures.

Там же.

Там же.

Там же.

Published

30.01.2017

How to Cite

Baranov В. А. (2017). Experience of Creation of the N-Gram Module of the System “Manuscript” and Evaluation of The Efficiency of Its Application to Search Collocations in the Corpus of M.V. Lomonosov. Intellekt. Sist. Proizv., 14(4), 124–131. https://doi.org/10.22213/2410-9304-2016-4-124-131

Issue

Section

Computer linguistics (only archive)