КОДИРОВАНИЕ И ПЕРЕКОДИРОВАНИЕ ТРАНСКРИПЦИЙ ИСТОРИЧЕСКОГО КОРПУСА «МАНУСКРИПТ»

Авторы

  • В. А. Баранов Ижевский государственный технический университет имени М. Т. Калашникова
  • Р. М. Гнутиков Удмуртский государственный университет
  • К. И. Зинатшин Ижевский государственный технический университет имени М. Т. Калашникова

DOI:

https://doi.org/10.22213/2618-9763-2021-4-82-89

Ключевые слова:

лингвистический корпус, славянские средневековые рукописи, транскрипция, кодировка

Аннотация

Рассматриваются славянские диапазоны стандарта Unicode с точки зрения возможности создания на их основе транскрипций, передающих графику средневековых славянских рукописей. Обращается внимание на наличие в стандарте вариантов кирилловских букв, что позволяет достаточно точно передавать графические особенности рукописей. В связи с тем, что до сегодняшнего дня в стандарте отсутствуют варианты некоторых букв, существует необходимость использования дополнительных соглашений кодирования символов, коды которых размещены не в стандартных, а в специальном и личном диапазонах Юникода. Примером большого собрания машиночитаемых копий средневековых славянских письменных памятников является исторический корпус «Манускрипт» (manuscripts.ru), созданный на базе СУБД Oracle с помощью специализированной кодово-шрифтовой системы. Миграция корпуса на иные технологические платформы, использование для анализа лингвистических данных (отдельных текстов, подкорпусов, выборок) внешних программных средств возможны только после перекодирования выгружаемых файлов в стандартные диапазоны Unicode. Сопоставительный анализ использующихся в корпусе наборов символов и в действующей 14-й версии стандарта позволяет сделать вывод: перекодирование или приводит к потере части графических особенностей, или требует использования дополнительного набора вариантных символов с кодами в личном диапазоне Unicode. Анализируются случаи, когда в стандарте Unicode имеется два или более символов для перекодировки одного символа корпуса «Манускрипт», указывается, что в стандарте и в наборе символов дополнительного личного диапазон

Биографии авторов

В. А. Баранов, Ижевский государственный технический университет имени М. Т. Калашникова

доктор филологических наук, профессор

Р. М. Гнутиков, Удмуртский государственный университет

К. И. Зинатшин, Ижевский государственный технический университет имени М. Т. Калашникова

Библиографические ссылки

Unicode // The Unicode Consortium. URL: https://home.unicode.org/(дата обращения: 03.11.2021).

Паймина О. С. Языковые особенности Троицкого сборника XII-XIII вв. : дис. … канд. наук: 10.02.01 - Русский язык. Казань : КГУ, 2012. 326 с.

Proposal for a unified encoding of Early Cyrillic glyphs in the Unicode Private Use Area / Victor Baranov, David J. Birnbaum, Ralph Cleminson, Heinz Miklas, Achim Rabus // Scripta & e-Scripta: The Journal of Interdisciplinary Mediaeval Studies. Vol. 8-9. Sofia : “Boyan Penev” Publishing Center ; Institute of Literature, BAS, 2010. S. 9-26. URL: https://clck.ru/YeZyU (дата обращения: 03.11.2021).

Новгородская служебная минея на май (Путятина минея). XI век: Текст, исследования, указатели / подг. В. А. Баранов, В. М. Марков. Ижевск : Издат. дом «Удмуртский университет», 2003. 788 с.

Путятина минея / подг. В. А. Баранов, В. М. Марков; ЛАФИ УдГУ. 2001. 2001. URL: http://manuscripts.ru/ptm/@@http://manuscripts.ru/mns/portal.main?p1=19&p_lid=1 (дата обращения: 03.11.2021).

Манускрипт: славянское письменное наследие / ИжГТУ имени М. Т. Калашникова, УдГУ ; коллектив авторов. URL: http://manuscripts.ru/ (дата обращения: 03.11.2021).

Proposal for a unified encoding of Early Cyrillic glyphs in the Unicode Private Use Area / Victor Baranov, David J. Birnbaum, Ralph Cleminson, Heinz Miklas, Achim Rabus // Scripta & e-Scripta: The Journal of Interdisciplinary Mediaeval Studies. Vol. 8-9. Sofia : “Boyan Penev” Publishing Center ; Institute of Literature, BAS, 2010. S. 9-26. URL: https://clck.ru/YeZyU (дата обращения: 03.11.2021).

Ponomar Project. URL: https://ponomar.net/(дата обращения: 03.11.2021).

Kodeks Project / Sebastian Kempgen. URL: https://kodeks.uni-bamberg.de/AKSL/AKSL.Schrift.htm (дата обращения: 03.11.2021).

Манускрипт: славянское письменное наследие / ИжГТУ имени М. Т. Калашникова, УдГУ; коллектив авторов. URL: http://manuscripts.ru/ (дата обращения: 03.11.2021).

Загрузки

Опубликован

18.01.2022

Как цитировать

Баранов, В. А., Гнутиков, Р. М., & Зинатшин, К. И. (2022). КОДИРОВАНИЕ И ПЕРЕКОДИРОВАНИЕ ТРАНСКРИПЦИЙ ИСТОРИЧЕСКОГО КОРПУСА «МАНУСКРИПТ». Социально-экономическое управление: теория и практика, 17(4), 82–89. https://doi.org/10.22213/2618-9763-2021-4-82-89

Выпуск

Раздел

Статьи