Development of an Automatic System for Transcribing Voice Recordings of Company Meetings Using Neural Networks

Authors

  • M. A. Polozov Voronezh State University of Engineering Technologies
  • L. A. Korobova "Technopark-V" Company

DOI:

https://doi.org/10.22213/2410-9304-2026-1-52-63

Keywords:

neural networks, automatic audio transcription, neural network models, speech recognition, diarization, transcription, hybrid architecture, local processing, corporate security, efficient documentation, digital transformation

Abstract

Amid the growing prevalence of remote work and the digital transformation of business, the automation of routine processes-including the processing of audio recordings of meetings and conferences-is becoming increasingly important. Modern video conferencing systems offer automatic transcription features; however, these are often restricted to paid subscription plans, require an internet connection, and do not provide a sufficient level of confidentiality. Consequently, the development of a local, economically accessible, and secure solution for speech transcription has become highly relevant. This paper presents an automatic system designed for transcribing voice recordings of meetings within a project company. A distinctive feature of the developed system is the integration of open-source neural network models: Whisper (for speech recognition), pyannote.audio (for diarization - speaker identification), and an open-source GPT model (for post-processing and text formatting). The system is implemented using a hybrid architecture employing two programming languages, Python and C#, which combines high-performance audio processing with a user-friendly graphical interface. The key advantages of the solution include complete autonomy (no cloud connection required), support for the Russian language, scalability, and compliance with information security requirements. Testing on a control audio fragment yielded Word Error Rate (WER) and Character Error Rate (CER) metrics at levels acceptable for business use. To assess the accuracy of the designed system, additional tests were conducted in various acoustic environments, demonstrating that the system ensures good transcription quality under typical operating conditions, as well as in the presence of background noise. The implemented software product will enable companies to save on paid access to video conferencing systems and corporate subscriptions, while simultaneously increasing the transparency and efficiency of documenting meetings and conferences. This work holds both theoretical and practical significance for the development of domestic IT solutions in the field of corporate automation.

Author Biographies

M. A. Polozov, Voronezh State University of Engineering Technologies

-

L. A. Korobova, "Technopark-V" Company

Candidate of Technical Sciences, Associate Professor

References

Баруздин М. М., Раскатова М. В., Щеголев П. Развитие современных систем транскрибации аудио- и видеоконтента // Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление. 2024. № 4. С. 71-78. DOI 10.18137/RNU.V9187.24.04.P.71. EDN BYNYRY.

Долженко А. И., Школина А. В. Обзор существующих систем распознавания речи с открытым исходным кодом // Проблемы проектирования, применения и безопасности информационных систем в условиях цифровой экономики : материалы XXII Международной научно-практической конференции, Ростов-на-Дону, 21-22 ноября 2022 года. Ростов-на-Дону: Ростовский государственный экономический университет «РИНХ», 2022. С. 341-345. EDN XSGZTA.

Липскеров М. А., Финк Г. Д., Корецкий В. П. Повышение эффективности проведения корпоративных совещаний за счет автоматического анализа речевых данных и создания протоколов встреч с использованием технологий искусственного интеллекта // Цифровизация в социально-экономических системах : сборник статей II кафедральной научно-практической конференции, Москва, 21 апреля 2025 года. М. : ЗАО «Университетская книга», 2025. С. 72-76. EDN CDOZXA.

Мещанинов В. Е., Поляк М. Д. Нейросетевая модель транскрибации русской речи // Обработка, передача и защита информации в компьютерных системах: Первая Всероссийская научная конференция, Санкт-Петербург, 14-22 апреля 2020 года. СПб. : Санкт-Петербургский государственный университет аэрокосмического приборостроения, 2020. С. 75-79. DOI 10.31799/978-5-8088-1452-3-2020-1-75-79. EDN XSWIZV.

Леохин Ю. Л., Фатхулин Т. Д., Ментус М. В. Разработка и применение методов распознавания зашумленных аудиофайлов посредством нейросетевых технологий // Вестник Рязанского государственного радиотехнического университета. 2024. № 88. С. 65-73. DOI 10.21667/1995-4565-2024-88-65-73. EDN NMXASI.

Мамаев И. Д., Риехакайнен Е. И. Автоматическая расшифровка записей устной речи: тестирование программы Whisper // Социо- и психолингвистические исследования. 2023. № 11. С. 19-22. EDN ONBYJY.

Мхаммад С., Молодяков С. А. Разработка и исследование алгоритма для раздельной записи речи нескольких спикеров // International Journal of Open Information Technologies. 2025. Т. 13, № 5. С. 41-48. EDNDUBSXW.

Telemarketing automation based on the MIKO IP-telephony module / T. Gladkikh, L. Korobova, S. Chernyaeva [et al.] // Proceedings II International Scientific Conference on Advances in Science, Engineering and Digital Education (ASEDU-II-2021): Conference Proceedings, Krasnoyarsk, 28 октября 2021 года. Vol. 2647 А. Krasnoyarsk: AIPPUBLISHING, 2022. P. 30029. DOI 10.1063/5.0104592. EDNAHGXXE.

Митюля Е. С., Голубович Ю. И., Марков А. Н. Нейросетевые технологии обработки речи: преобразование звуков в фонемы и перспективы их применения // Сборник трудов международной молодежной школы «Инженерия-XXI», Новороссийск, 15-18 апреля 2025 года. Новороссийск : Белгородский государственный технологический университет им. В. Г. Шухова, 2025. С. 211-212. EDN EOULXJ.

Морозов В. П. Синхронизация речи и текста: ключевые инструменты // Образование России и актуальные вопросы современной науки : сборник статей VII Всероссийской научно-практической конференции, Пенза, 20-21 мая 2024 года. Пенза : Пензенский государственный аграрный университет, 2024. С. 299-302. EDN MESVYX.

Тушев А. Н., Фещенко Д. Н., Деменко А. М. Анализ необходимого инструментария для разработки программы преобразования человеческой речи в текст // Измерение, контроль, информатизация : материалы XIX Международной научно-технической конференции, Барнаул, 23 мая 2018 года / под ред. Л. И. Сучковой. Т. 1. Барнаул : Алтайский государственный технический университет им. И. И. Ползунова, 2018. С. 44-48. EDN YQMNQL.

Тукаев В. Р., Беляева М. Б. Оценка качества распознавания русской речи на чистых и зашумленных аудиоданных // Научное обозрение. Технические науки. 2025. № 3. С. 50-55. DOI 10.17513/srts.1514. EDN EPVBPD.

Шилов Н. М. Алгоритмы и подходы для решения задачи распознавания речи // Наукосфера. 2021. № 2-1. С. 89-95. EDN PALLXG.

Introducing Whisper // Open AI. 2022. September 21. URL: https://https://openai.com/index/whisper (дата обращения: 05.10.2025).

Prototype mobile application definitions fresh products based on neural network / L. A. Korobova, I. S. Tolstova, I. A. Matytsina, M. S. Mironova // Journal of Physics: Conference Series : Current Problems, Voronezh, 07-09 декабря 2020 года. Voronezh, 2021. P. 012118. DOI 10.1088/1742-6596/1902/1/012118. EDN XIEBCT.

Published

04.04.2026

How to Cite

Polozov М. А., & Korobova Л. А. (2026). Development of an Automatic System for Transcribing Voice Recordings of Company Meetings Using Neural Networks. Intellekt. Sist. Proizv., 24(1), 52–63. https://doi.org/10.22213/2410-9304-2026-1-52-63

Issue

Section

Articles