Разработка автоматической системы по расшифровке голосовых записей встреч в компании с помощью нейронных сетей

М А Полозов; Л А Коробова

doi:10.22213/2410-9304-2026-1-52-63

Авторы

М. А. Полозов Воронежский государственный университет инженерных технологий
Л. А. Коробова компания «Технопарк-В»

DOI:

https://doi.org/10.22213/2410-9304-2026-1-52-63

Ключевые слова:

нейронные сети, автоматическая расшифровка аудиозаписей, нейросетевые модели, распознавание речи, диаризация, транскрибация, гибридная архитектура, локальная обработка, корпоративная безопасность, эффективное документирование, цифровая трансформация

Аннотация

В условиях увеличения доли удаленной работы и цифровой трансформации бизнеса все большее значение приобретает автоматизация рутинных процессов, включая обработку аудиозаписей совещаний и встреч. Современные системы видео-конференц-связи предлагают функции автоматической транскрибации, однако они зачастую ограничены платными тарифами, требуют подключения к интернету и не обеспечивают достаточного уровня конфиденциальности. В связи с этим актуальной становится разработка локального, экономически доступного и безопасного решения для расшифровки речи. В данной работе представлена автоматическая система по расшифровке голосовых записей встреч в проектной компании. Особенностью разработанной системы является интеграция открытых нейросетевых моделей: Whisper (для распознавания речи), pyannote.audio (для диаризации - идентификации спикеров) и GPT-oss (для постобработки и форматирования текста). Система реализована в гибридной архитектуре с использованием двух языков программирования Python и C#, что позволило совместить высокую производительность обработки аудио с удобным графическим интерфейсом. Ключевые преимущества решения - полная автономность (без подключения к облаку), поддержка русского языка, масштабируемость и соответствие требованиям информационной безопасности. Тестирование на контрольном аудиофрагменте показало значение метрик WER (Word Error Rate - коэффициент ошибок на уровне слов) и CER (Character Error Rate - коэффициент ошибок на уровне символов) на уровне, приемлемом для делового использования. Для оценки точности работы спроектированной системы были проведены дополнительные тесты в различных акустических ситуациях, которые показали, что система обеспечивает хорошее качество транскрибации в типичных условиях эксплуатации, а также при наличии фоновых шумов. Реализованный программный продукт позволит компаниям экономить на платном доступе к системам видео-конференц-связи и корпоративных подписках, одновременно повышая прозрачность и эффективность документирования встреч и совещаний. Представленная работа имеет как теоретическую, так и практическую значимость для развития отечественных ИТ-решений в сфере корпоративной автоматизации.

Биографии авторов

М. А. Полозов, Воронежский государственный университет инженерных технологий

-

Л. А. Коробова, компания «Технопарк-В»

кандидат технических наук, доцент

Библиографические ссылки

Баруздин М. М., Раскатова М. В., Щеголев П. Развитие современных систем транскрибации аудио- и видеоконтента // Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление. 2024. № 4. С. 71-78. DOI 10.18137/RNU.V9187.24.04.P.71. EDN BYNYRY.

Долженко А. И., Школина А. В. Обзор существующих систем распознавания речи с открытым исходным кодом // Проблемы проектирования, применения и безопасности информационных систем в условиях цифровой экономики : материалы XXII Международной научно-практической конференции, Ростов-на-Дону, 21-22 ноября 2022 года. Ростов-на-Дону: Ростовский государственный экономический университет «РИНХ», 2022. С. 341-345. EDN XSGZTA.

Липскеров М. А., Финк Г. Д., Корецкий В. П. Повышение эффективности проведения корпоративных совещаний за счет автоматического анализа речевых данных и создания протоколов встреч с использованием технологий искусственного интеллекта // Цифровизация в социально-экономических системах : сборник статей II кафедральной научно-практической конференции, Москва, 21 апреля 2025 года. М. : ЗАО «Университетская книга», 2025. С. 72-76. EDN CDOZXA.

Мещанинов В. Е., Поляк М. Д. Нейросетевая модель транскрибации русской речи // Обработка, передача и защита информации в компьютерных системах: Первая Всероссийская научная конференция, Санкт-Петербург, 14-22 апреля 2020 года. СПб. : Санкт-Петербургский государственный университет аэрокосмического приборостроения, 2020. С. 75-79. DOI 10.31799/978-5-8088-1452-3-2020-1-75-79. EDN XSWIZV.

Леохин Ю. Л., Фатхулин Т. Д., Ментус М. В. Разработка и применение методов распознавания зашумленных аудиофайлов посредством нейросетевых технологий // Вестник Рязанского государственного радиотехнического университета. 2024. № 88. С. 65-73. DOI 10.21667/1995-4565-2024-88-65-73. EDN NMXASI.

Мамаев И. Д., Риехакайнен Е. И. Автоматическая расшифровка записей устной речи: тестирование программы Whisper // Социо- и психолингвистические исследования. 2023. № 11. С. 19-22. EDN ONBYJY.

Мхаммад С., Молодяков С. А. Разработка и исследование алгоритма для раздельной записи речи нескольких спикеров // International Journal of Open Information Technologies. 2025. Т. 13, № 5. С. 41-48. EDNDUBSXW.

Telemarketing automation based on the MIKO IP-telephony module / T. Gladkikh, L. Korobova, S. Chernyaeva [et al.] // Proceedings II International Scientific Conference on Advances in Science, Engineering and Digital Education (ASEDU-II-2021): Conference Proceedings, Krasnoyarsk, 28 октября 2021 года. Vol. 2647 А. Krasnoyarsk: AIPPUBLISHING, 2022. P. 30029. DOI 10.1063/5.0104592. EDNAHGXXE.

Митюля Е. С., Голубович Ю. И., Марков А. Н. Нейросетевые технологии обработки речи: преобразование звуков в фонемы и перспективы их применения // Сборник трудов международной молодежной школы «Инженерия-XXI», Новороссийск, 15-18 апреля 2025 года. Новороссийск : Белгородский государственный технологический университет им. В. Г. Шухова, 2025. С. 211-212. EDN EOULXJ.

Морозов В. П. Синхронизация речи и текста: ключевые инструменты // Образование России и актуальные вопросы современной науки : сборник статей VII Всероссийской научно-практической конференции, Пенза, 20-21 мая 2024 года. Пенза : Пензенский государственный аграрный университет, 2024. С. 299-302. EDN MESVYX.

Тушев А. Н., Фещенко Д. Н., Деменко А. М. Анализ необходимого инструментария для разработки программы преобразования человеческой речи в текст // Измерение, контроль, информатизация : материалы XIX Международной научно-технической конференции, Барнаул, 23 мая 2018 года / под ред. Л. И. Сучковой. Т. 1. Барнаул : Алтайский государственный технический университет им. И. И. Ползунова, 2018. С. 44-48. EDN YQMNQL.

Тукаев В. Р., Беляева М. Б. Оценка качества распознавания русской речи на чистых и зашумленных аудиоданных // Научное обозрение. Технические науки. 2025. № 3. С. 50-55. DOI 10.17513/srts.1514. EDN EPVBPD.

Шилов Н. М. Алгоритмы и подходы для решения задачи распознавания речи // Наукосфера. 2021. № 2-1. С. 89-95. EDN PALLXG.

Introducing Whisper // Open AI. 2022. September 21. URL: https://https://openai.com/index/whisper (дата обращения: 05.10.2025).

Prototype mobile application definitions fresh products based on neural network / L. A. Korobova, I. S. Tolstova, I. A. Matytsina, M. S. Mironova // Journal of Physics: Conference Series : Current Problems, Voronezh, 07-09 декабря 2020 года. Voronezh, 2021. P. 012118. DOI 10.1088/1742-6596/1902/1/012118. EDN XIEBCT.