ТЕСТИРОВАНИЕ КОРПУСА ДАННЫХ В ВИДЕ АУДИО-ТЕКСТ НА КАЗАХСКОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ CONFORMER

Авторы

  • A. Бекарыстанкызы PhD, старший научный сотрудник Институтa информационных и вычислительных технологий, Алматы, Казахстан
  • O. Мамырбаев PhD, профессор, заместитель генерального директора Институтa информационных и вычислительных технологий, Алматы, Казахстан
  • Д. Оралбекова Институт информационных и вычислительных технологий
  • А. Еримбетова Институт информационных и вычислительных технологий
  • М. Турдалыулы Институт информационных и вычислительных технологий

DOI:

https://doi.org/10.32014/2025.2518-1726.343

Ключевые слова:

распознавание речи, интегральное обучение, малоресурсные языки, механизм внимания, подготовка данных для распознавания речи, коннекционная временная классификация

Аннотация

В настоящее время системы распознавания речи широко внедряются во все сферы жизни, включая умных помощников, программное обеспечение для людей с ограниченными возможностями, а также голосовой поиск в интернете. Эти технологии значительно упрощают взаимодействие пользователей с компьютерными системами. Однако такие достижения в обработке речи в основном доступны только для английского, русского и других распространенных языков, тогда как для малоресурсных языков они остаются недоступными. Одна из ключевых причин этого заключается в дефиците аудиотекстовых данных, необходимых для обучения систем автоматического распознавания речи. Сбор такого рода данных представляет собой сложный и затратный процесс, что делает их доступность ограниченной или даже коммерчески недоступной. В результате для многих языков технологии распознавания речи остаются недоступными. Казахский язык также относится к малоресурсным языкам, поскольку объем открытых аудиотекстовых корпусов для него не превышает 1000 часов. В данной работе предпринята попытка расширить объем данных для казахского языка, улучшить их качество путем очистки от лишних символов, а также обучить нейронную архитектуру на основе Conformer-энкодера с использованием 396 часов собранных данных. В ходе исследования был проведен комплексный анализ существующих методов предобработки данных, реализована процедура их автоматической очистки и проведено экспериментальное обучение системы распознавания речи. Проведенные эксперименты показали, что предложенный подход обеспечивает качество распознавания с WER на уровне 20.4%-22.4% и CER 8.2%-9.3%, что подтверждает применимость Conformer-архитектуры для казахского языка. Кроме того, были рассмотрены основные вопросы, связанные с обработкой агглютинативной морфологии казахского языка, и предложены методы их решения в рамках современных нейросетевых архитектур.

Загрузки

Опубликован

2025-06-20

Как цитировать

Бекарыстанқызы A., Мамырбаев, Ө., Оралбекова, Д., Еримбетова, А., & Тұрдалыұлы, М. (2025). ТЕСТИРОВАНИЕ КОРПУСА ДАННЫХ В ВИДЕ АУДИО-ТЕКСТ НА КАЗАХСКОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ CONFORMER. Известия НАН РК. Серия физико-математическая, (2), 50–60. https://doi.org/10.32014/2025.2518-1726.343