IMPROVING THE VOICE RECOGNITION SYSTEM FOR CHILDREN IN KAZAKH THROUGH ADDITIONAL TRAINING (FINE-TUNING)

Д. Рахимова; Ж. Дуйсенбеккызы; A. Карибаева; A. Eşref; Б. Илесова

doi:10.32014/2026.2518-1726.441

Авторы

Рахимова Д. PhD, ассоциированный профессор, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан
Дуйсенбеккызы Ж. старший преподаватель, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан
Карибаева А. PhD, и.о. доцента, Казахский национальный университет имени альФараби, Алматы, Казахстан
Eşref A. PhD, профессор, Стамбульский технический университет, Стамбул, Турция
Илесова Б. старший преподаватель, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

DOI:

https://doi.org/10.32014/2026.2518-1726.441

Ключевые слова:

Whisper large-v2, fine-tuning, казахский язык, автоматическое распознавание речи, ASR, детская речь, речевые нарушения, LLM-постредактирование, WER, CER

Аннотация

В этой статье описан процесс fine-tuning (переобучения) модели Whisper-tiny, предложенной OpenAI, для улучшения системы автоматического распознавания речи (ASR), адаптированной для детской речи на казахском языке. Объектом исследования является аудиокорпус, состоящий из слов и коротких фраз на казахском языке, произнесённых детьми в возрасте от 5 до 12 лет. Применена двухступенчатая стратегия обучения: на первом этапе использовался датасет из 235 аудиофайлов, на втором — расширенный датасет из 1936 файлов. Данные были дискретизированы до частоты 16 кГц и приведены в моноформат. Транскрипции были очищены в соответствии с стандартизированными правилами, а соответствие аудио и текста было проверено через метаданные Excel и автоматическую проверку (с использованием difflib). Fine-tuning модели проводился на основе архитектуры openai/whisper-tiny, с использованием извлекателя признаков на основе мел-спектрограмм, 4-слойных энкодеров-декодеров и специальных токенов <|kk|> и <|transcribe|>. Обучение проводилось в среде Google Colab с использованием GPU NVIDIA T4, оптимизатора AdamW и функции потерь cross-entropy. Эффективность модели оценивалась с использованием метрик Word Error Rate (WER) и Accuracy. В результате WER снизился с 0.80 до 0.42, что составило улучшение примерно на 47.5%, в то время как точность увеличилась с 20.43% до 57.95% (улучшение на 183%). Для образцов, состоящих из одного слова, точность совпадения составила 66.73%, в то время как ошибка оставалась высокой для многословных фраз. Эта работа эмпирически демонстрирует эффективность двухступенчатой стратегии fine-tuning для казахского языка с ограниченными ресурсами, особенно в области распознавания детской речи, и закладывает основу для дальнейших улучшений через расширение датасетов, тестирование больших моделей Whisper и внедрение методов data augmentation и регуляризации.

Ключевые слова: Whisper-tiny, fine-tuning, казахский язык, автоматическое распознавание речи (ASR), детская речь, Word Error Rate (WER), точность, глубокое обучение, transfer learning, мел-спектрограмма, расширение датасетов.

СОВЕРШЕНСТВОВАНИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ ГОЛОСА ДЕТЕЙ НА КАЗАХСКОМ ЯЗЫКЕ ПУТЕМ ДОПОЛНИТЕЛЬНОГО ОБУЧЕНИЯ (FINE-TUNING)

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu