КОДИРОВАНИЕ И ПЕРЕКОДИРОВАНИЕ ТРАНСКРИПЦИЙ ИСТОРИЧЕСКОГО КОРПУСА «МАНУСКРИПТ»
DOI:
https://doi.org/10.22213/2618-9763-2021-4-82-89Ключевые слова:
лингвистический корпус, славянские средневековые рукописи, транскрипция, кодировкаАннотация
Рассматриваются славянские диапазоны стандарта Unicode с точки зрения возможности создания на их основе транскрипций, передающих графику средневековых славянских рукописей. Обращается внимание на наличие в стандарте вариантов кирилловских букв, что позволяет достаточно точно передавать графические особенности рукописей. В связи с тем, что до сегодняшнего дня в стандарте отсутствуют варианты некоторых букв, существует необходимость использования дополнительных соглашений кодирования символов, коды которых размещены не в стандартных, а в специальном и личном диапазонах Юникода. Примером большого собрания машиночитаемых копий средневековых славянских письменных памятников является исторический корпус «Манускрипт» (manuscripts.ru), созданный на базе СУБД Oracle с помощью специализированной кодово-шрифтовой системы. Миграция корпуса на иные технологические платформы, использование для анализа лингвистических данных (отдельных текстов, подкорпусов, выборок) внешних программных средств возможны только после перекодирования выгружаемых файлов в стандартные диапазоны Unicode. Сопоставительный анализ использующихся в корпусе наборов символов и в действующей 14-й версии стандарта позволяет сделать вывод: перекодирование или приводит к потере части графических особенностей, или требует использования дополнительного набора вариантных символов с кодами в личном диапазоне Unicode. Анализируются случаи, когда в стандарте Unicode имеется два или более символов для перекодировки одного символа корпуса «Манускрипт», указывается, что в стандарте и в наборе символов дополнительного личного диапазонБиблиографические ссылки
Unicode // The Unicode Consortium. URL: https://home.unicode.org/(дата обращения: 03.11.2021).
Паймина О. С. Языковые особенности Троицкого сборника XII-XIII вв. : дис. … канд. наук: 10.02.01 - Русский язык. Казань : КГУ, 2012. 326 с.
Proposal for a unified encoding of Early Cyrillic glyphs in the Unicode Private Use Area / Victor Baranov, David J. Birnbaum, Ralph Cleminson, Heinz Miklas, Achim Rabus // Scripta & e-Scripta: The Journal of Interdisciplinary Mediaeval Studies. Vol. 8-9. Sofia : “Boyan Penev” Publishing Center ; Institute of Literature, BAS, 2010. S. 9-26. URL: https://clck.ru/YeZyU (дата обращения: 03.11.2021).
Новгородская служебная минея на май (Путятина минея). XI век: Текст, исследования, указатели / подг. В. А. Баранов, В. М. Марков. Ижевск : Издат. дом «Удмуртский университет», 2003. 788 с.
Путятина минея / подг. В. А. Баранов, В. М. Марков; ЛАФИ УдГУ. 2001. 2001. URL: http://manuscripts.ru/ptm/@@http://manuscripts.ru/mns/portal.main?p1=19&p_lid=1 (дата обращения: 03.11.2021).
Манускрипт: славянское письменное наследие / ИжГТУ имени М. Т. Калашникова, УдГУ ; коллектив авторов. URL: http://manuscripts.ru/ (дата обращения: 03.11.2021).
Proposal for a unified encoding of Early Cyrillic glyphs in the Unicode Private Use Area / Victor Baranov, David J. Birnbaum, Ralph Cleminson, Heinz Miklas, Achim Rabus // Scripta & e-Scripta: The Journal of Interdisciplinary Mediaeval Studies. Vol. 8-9. Sofia : “Boyan Penev” Publishing Center ; Institute of Literature, BAS, 2010. S. 9-26. URL: https://clck.ru/YeZyU (дата обращения: 03.11.2021).
Ponomar Project. URL: https://ponomar.net/(дата обращения: 03.11.2021).
Kodeks Project / Sebastian Kempgen. URL: https://kodeks.uni-bamberg.de/AKSL/AKSL.Schrift.htm (дата обращения: 03.11.2021).
Манускрипт: славянское письменное наследие / ИжГТУ имени М. Т. Калашникова, УдГУ; коллектив авторов. URL: http://manuscripts.ru/ (дата обращения: 03.11.2021).
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2021 Баранов В.А., Гнутиков Р.М., Зинатшин К.И.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.