CONFORMER ШИФРЛАУШЫСЫН ҚОЛДАНЫП ҚАЗАҚ ТІЛІНДЕ  AУДИО-МӘТІН ТҮРІНДЕ ЖИНАЛҒАН МӘЛІМЕТТЕР ҚОРЫН  СЫНАУ

A. Бекарыстанкызы; О. Мамырбаев; Д. Оралбекова; А. Еримбетова; М. Турдалыулы

doi:10.32014/2025.2518-1726.343

Авторы

A. Бекарыстанкызы PhD, старший научный сотрудник Институтa информационных и вычислительных технологий, Алматы, Казахстан
O. Мамырбаев PhD, профессор, заместитель генерального директора Институтa информационных и вычислительных технологий, Алматы, Казахстан
Д. Оралбекова Институт информационных и вычислительных технологий
А. Еримбетова Институт информационных и вычислительных технологий
М. Турдалыулы Институт информационных и вычислительных технологий

DOI:

https://doi.org/10.32014/2025.2518-1726.343

Ключевые слова:

распознавание речи, интегральное обучение, малоресурсные языки, механизм внимания, подготовка данных для распознавания речи, коннекционная временная классификация

Аннотация

В настоящее время системы распознавания речи широко внедряются во все сферы жизни, включая умных помощников, программное обеспечение для людей с ограниченными возможностями, а также голосовой поиск в интернете. Эти технологии значительно упрощают взаимодействие пользователей с компьютерными системами. Однако такие достижения в обработке речи в основном доступны только для английского, русского и других распространенных языков, тогда как для малоресурсных языков они остаются недоступными. Одна из ключевых причин этого заключается в дефиците аудиотекстовых данных, необходимых для обучения систем автоматического распознавания речи. Сбор такого рода данных представляет собой сложный и затратный процесс, что делает их доступность ограниченной или даже коммерчески недоступной. В результате для многих языков технологии распознавания речи остаются недоступными. Казахский язык также относится к малоресурсным языкам, поскольку объем открытых аудиотекстовых корпусов для него не превышает 1000 часов. В данной работе предпринята попытка расширить объем данных для казахского языка, улучшить их качество путем очистки от лишних символов, а также обучить нейронную архитектуру на основе Conformer-энкодера с использованием 396 часов собранных данных. В ходе исследования был проведен комплексный анализ существующих методов предобработки данных, реализована процедура их автоматической очистки и проведено экспериментальное обучение системы распознавания речи. Проведенные эксперименты показали, что предложенный подход обеспечивает качество распознавания с WER на уровне 20.4%-22.4% и CER 8.2%-9.3%, что подтверждает применимость Conformer-архитектуры для казахского языка. Кроме того, были рассмотрены основные вопросы, связанные с обработкой агглютинативной морфологии казахского языка, и предложены методы их решения в рамках современных нейросетевых архитектур.

ТЕСТИРОВАНИЕ КОРПУСА ДАННЫХ В ВИДЕ АУДИО-ТЕКСТ НА КАЗАХСКОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ CONFORMER

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu