ДРЕВНЕРУССКИЕ РУКОПИСИ КАК ОБЪЕКТ СТАТИСТИЧЕСКОГО АНАЛИЗА

Авторы

  • В. А. Баранов
  • О. Ф. Жолобов

DOI:

https://doi.org/10.22213/2410-9304-2019-4-63-77

Ключевые слова:

лингвистическая статистика, древнерусские тексты XI века, Кирилл Туровский

Аннотация

В работе описаны два статистических эксперимента, целью которых стало выявление корреляционной близости / удаленности 12 текстов, дошедших до нас в русских списках XI века, и сопоставление с ними произведений автора XII века Кирилла Туровского (РНБ, F.п.I. 39, XIII в.; лл. 1–48), приведены результаты сопоставительного анализа: а) различных способов извлечения лингвистических единиц из текстов и б) выборок разного объема, а также лингвистической интерпретации основных закономерностей группировки рукописей.

Степень лингвостатистической тесноты рукописей вычисляется в два этапа: на первом сопоставляются перечни наиболее частотных слов каждой пары текстов (вычисляется коэффициент ранговой корреляции Спирмена), на втором тексты группируются на основе полученных значений корреляции, которые принимаются за расстояния между рукописями (используется кластерный анализ и строится дендрограмма).

Извлечение наиболее частотных слов рукописей, построение ранжированных перечней, получение сведений о количестве (а соответственно, о ранге) каждой из форм в других кодексах выполнено с помощью модуля статистики исторического корпуса «Манускрипт». Вычисление коэффициентов корреляции текстов и кластеризация текстов осуществлены с помощью программного пакета «Статистика» (TIBCO Software Inc.). Проанализированы перечни разного объема (от 50 до 300 словоформ), состоящие из единиц разной степени унификации относительно текстовых форм.

Результатом первого эксперимента стало выявление трех основных устойчивых кластеров подкорпуса – группы Евангелий, группы миней и группы сборников разного содержания.

Второй эксперимент дал возможность увидеть зависимость близости проповедей Кирилла Туровского разным кластерам от степени унификации форм в выборках и объема последних.

Лингвистический анализ результатов позволил выявить лексико-грамматические и лексико-семантические факторы, определяющие вхождение текстов Кирилла Туровского при различных исходных условиях выборки в разные кластеры – в группу Евангельских списков (при объеме выборки 50 или 100 слов), в подгруппу сборников (при выборке в 200 слов), в подгруппу Изборника 1073 г. и Пандектов Антиоха (выборка – 300 слов).

Библиографические ссылки

Головин Б. Н. Язык и статистика. М. : Просвещение, 1971. 190 с.

Там же. С. 157–159.

Компьютеризованный статистический анализ для историков / под ред. Л. И. Бородкина и И. М. Гарсковой. М., 1999. 187 с.

Баранов В. А. Исторический корпус как цель и инструмент корпусной палеославистики // Scripta & e-Scripta : The Journal of Interdisciplinary Mediaeval Studies. Vol. 14-15. Sofia : “Boyan Penev” Publishing Center ; Institute of Literature, BAS, 2015. C. 39-62.

Victor Baranov. A Text Corpus of Medieval Manuscripts as a Goal and a Tool for Linguistic Research // Editing Mediaeval Texts from a Different Angle: Slavonic and Multi-lingual Traditions (together with Francis J. Thomson’s Bibliog-raphy and Checklist of Slavonic Translations). To Honour Francis J. Thomson on the Occasion of His 80th Birthday : Together with Proc. of the ATTEMT Workshop held at King’s College, London, 19–20 December 2013 and the ATTEST Workshop held at the University of Regensburg, 11–12 December 2015 / edited by Lara Sels, Jürgen Fuchsbauer, Vittorio Tomelleri and Ilse de Vos. Peeters Leuven - Paris - Bristol, Ct, 2018. Pp. 283-308.

Баранов В. А. Поиск и демонстрация данных в историческом корпусе «Манускрипт» // Корпусная лингвистика –2019 : труды международной конференции (24–28 июня 2019 г., Санкт-Петербург). СПб. : Изд-во С.-Петерб. ун-та, 2019. С. 271–279.

Баранов В. А., Дубовцев С. В. Модуль статистики информационно-аналитической системы «Манускрипт»: функции и демонстрация данных // Информационные технологии и письменное наследие: материалы IV Междунар. науч. конф. (Петрозаводск, 3–8 сентября 2012 г.) / отв. ред. В. А. Баранов, А. Г. Варфоломеев. Петрозаводск ; Ижевск, 2012. С. 23–26.

Сводный каталог славяно-русских рукописных книг, хранящихся в СССР (XI–XIII вв.). М. : Наука, 1984. 406 с.

Баранов В. А., Жолобов О. Ф. Лингвостатистическое исследование частотных слов в Словах Кирилла Туровского (по рукописи РНБ, F.п.I.39) // Slověne = Словѣне. International Journal of Slavic Studies. В печати.

Жолобов О. Ф. О контрастирующих орфографических системах в рукописи XIII в. (к интернет-изданию Толстовского сборника) // Древняя Русь. Вопросы медиевистики. 2018. 3 (73). С. 77–89.

Ferster, E. and B. Rents. Metody korrelyatsionnogo i regressionnogo analiza. Rukovodstvo dlya ekonomistov [Methods of Correlation and Regression Analysis. Manual for Economists]. Moscow, 1983, 304 p. Pp. 160-163.

Paul A. and Jr. Gore. Cluster analysis. In: Handbook of Applied Multivariate Statistics and Mathematical Modeling. (Eds.) Howard E.A. Tinsley and Steven D. Brown. Academic Press, 2000. Pp. 297-321.

Tryon, R. Cluster analysis. New York: McGraw Hill, 1939.

Cattell, R. B. A note on correlation clusters and cluster search methods. Psychometrica, 9, 1944. Pp. 169-184.

Sokal, R. and P. Sneath. Principles ofnumeric taxonomy. San Francisco: W. H. Freeman, 1963.

Головин Б. Н. Указ. соч. С. 159–166.

Успенский 1988 – Успенский Б. А. История русского литературного языка (XI–XVII вв.). Budapest: Tankö-nyvkiadó, 1988. 451 c. С. 18, 68.

Picchio, R. Models and patterns in the literary tradition of Medieval Orthodox Slavdom // American contributions to the Seventh International Congress of Slavists, II. The Hague, 1973. P. 445.

Пичхадзе А. А. Переводческая деятельность в домонгольской Руси: лингвистический аспект. М.: НП «Рукописные памятники Древней Руси», 2011. 408 с. С. 54.

Загрузки

Опубликован

12.01.2020

Как цитировать

Баранов, В. А., & Жолобов, О. Ф. (2020). ДРЕВНЕРУССКИЕ РУКОПИСИ КАК ОБЪЕКТ СТАТИСТИЧЕСКОГО АНАЛИЗА. Интеллектуальные системы в производстве, 17(4), 63–77. https://doi.org/10.22213/2410-9304-2019-4-63-77

Выпуск

Раздел

Статьи