ТЕСТИРОВАНИЕ КОРПУСА ДАННЫХ В ВИДЕ АУДИО-ТЕКСТ НА КАЗАХСКОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ CONFORMER
DOI:
https://doi.org/10.32014/2025.2518-1726.343Ключевые слова:
распознавание речи, интегральное обучение, малоресурсные языки, механизм внимания, подготовка данных для распознавания речи, коннекционная временная классификацияАннотация
В настоящее время системы распознавания речи широко внедряются во все сферы жизни, включая умных помощников, программное обеспечение для людей с ограниченными возможностями, а также голосовой поиск в интернете. Эти технологии значительно упрощают взаимодействие пользователей с компьютерными системами. Однако такие достижения в обработке речи в основном доступны только для английского, русского и других распространенных языков, тогда как для малоресурсных языков они остаются недоступными. Одна из ключевых причин этого заключается в дефиците аудиотекстовых данных, необходимых для обучения систем автоматического распознавания речи. Сбор такого рода данных представляет собой сложный и затратный процесс, что делает их доступность ограниченной или даже коммерчески недоступной. В результате для многих языков технологии распознавания речи остаются недоступными. Казахский язык также относится к малоресурсным языкам, поскольку объем открытых аудиотекстовых корпусов для него не превышает 1000 часов. В данной работе предпринята попытка расширить объем данных для казахского языка, улучшить их качество путем очистки от лишних символов, а также обучить нейронную архитектуру на основе Conformer-энкодера с использованием 396 часов собранных данных. В ходе исследования был проведен комплексный анализ существующих методов предобработки данных, реализована процедура их автоматической очистки и проведено экспериментальное обучение системы распознавания речи. Проведенные эксперименты показали, что предложенный подход обеспечивает качество распознавания с WER на уровне 20.4%-22.4% и CER 8.2%-9.3%, что подтверждает применимость Conformer-архитектуры для казахского языка. Кроме того, были рассмотрены основные вопросы, связанные с обработкой агглютинативной морфологии казахского языка, и предложены методы их решения в рамках современных нейросетевых архитектур.