СОВЕРШЕНСТВОВАНИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ ГОЛОСА ДЕТЕЙ НА КАЗАХСКОМ ЯЗЫКЕ ПУТЕМ ДОПОЛНИТЕЛЬНОГО ОБУЧЕНИЯ (FINE-TUNING)
DOI:
https://doi.org/10.32014/2026.2518-1726.441Ключевые слова:
Whisper large-v2, fine-tuning, казахский язык, автоматическое распознавание речи, ASR, детская речь, речевые нарушения, LLM-постредактирование, WER, CERАннотация
В этой статье описан процесс fine-tuning (переобучения) модели Whisper-tiny, предложенной OpenAI, для улучшения системы автоматического распознавания речи (ASR), адаптированной для детской речи на казахском языке. Объектом исследования является аудиокорпус, состоящий из слов и коротких фраз на казахском языке, произнесённых детьми в возрасте от 5 до 12 лет. Применена двухступенчатая стратегия обучения: на первом этапе использовался датасет из 235 аудиофайлов, на втором — расширенный датасет из 1936 файлов. Данные были дискретизированы до частоты 16 кГц и приведены в моноформат. Транскрипции были очищены в соответствии с стандартизированными правилами, а соответствие аудио и текста было проверено через метаданные Excel и автоматическую проверку (с использованием difflib). Fine-tuning модели проводился на основе архитектуры openai/whisper-tiny, с использованием извлекателя признаков на основе мел-спектрограмм, 4-слойных энкодеров-декодеров и специальных токенов <|kk|> и <|transcribe|>. Обучение проводилось в среде Google Colab с использованием GPU NVIDIA T4, оптимизатора AdamW и функции потерь cross-entropy. Эффективность модели оценивалась с использованием метрик Word Error Rate (WER) и Accuracy. В результате WER снизился с 0.80 до 0.42, что составило улучшение примерно на 47.5%, в то время как точность увеличилась с 20.43% до 57.95% (улучшение на 183%). Для образцов, состоящих из одного слова, точность совпадения составила 66.73%, в то время как ошибка оставалась высокой для многословных фраз. Эта работа эмпирически демонстрирует эффективность двухступенчатой стратегии fine-tuning для казахского языка с ограниченными ресурсами, особенно в области распознавания детской речи, и закладывает основу для дальнейших улучшений через расширение датасетов, тестирование больших моделей Whisper и внедрение методов data augmentation и регуляризации.
Ключевые слова: Whisper-tiny, fine-tuning, казахский язык, автоматическое распознавание речи (ASR), детская речь, Word Error Rate (WER), точность, глубокое обучение, transfer learning, мел-спектрограмма, расширение датасетов.




