РАЗРАБОТКА ПАРАЛЛЕЛЬНОГО КОРПУСА ДЛЯ ПЕРЕВОДА КАЗАХСКОГО ЖЕСТОВОГО ЯЗЫКА И ОБУЧЕНИЕ МОДЕЛИ TRANSFORMER
DOI:
https://doi.org/10.32014/2025.2518-1726.367Ключевые слова:
Казахский жестовый язык, параллельный корпус, архитектура Transformer, NLP, машинное обучениеАннотация
Казахский жестовый язык (КЖЯ) является основным средством общения для людей с нарушениями слуха и речи. Это исследование направлено на анализ синтаксической структуры КЖЯ и выявление отличий от особенностей разговорного казахского языка. Кроме того, для преобразования текстов на казахском языке в глоссы КЖЯ был создан специализированный лингвистический анализатор, что позволило разработать параллельный корпус. Изучение КЖЯ важно не только с научной точки зрения, но и для разработки инструментов, способствующих созданию инклюзивного общества.
В рамках исследования была обучена система машинного перевода на основе модели Transformer, используя параллельный корпус. В результате была достигнута высокая точность перевода, что продемонстрировало потенциал для повышения доступности коммуникации. Этот подход представляет собой важный шаг в автоматизированной обработке казахского жестового языка. Подобные технологии направлены на улучшение процесса обучения и социальной интеграции людей с особыми потребностями.
Для анализа синтаксиса КЖЯ использовались Python 3.10, Stanza, библиотеки PyTorch, NumPy и Pandas. Было исследовано более 500 предложений, что позволило выявить особенности гибкости порядка слов и визуально-пространственной структуры. Анализ предложений, включая обратимые, необратимые, локативные, одушевлённые, неодушевлённые, сложные и простые конструкции, позволил описать грамматическую структуру казахского жестового языка. Результаты исследования послужили основой не только для выявления синтаксических закономерностей языка, но и для разработки новых моделей перевода.
В ходе исследования были выявлены основные трудности, такие как ограниченное количество аннотированных данных. В будущем планируется работа над интеграцией видеоданных и расширением оценочных показателей. Предложенные методы лежат в основе развития инклюзивных информационных технологий и улучшения коммуникации с людьми с особыми потребностями. Эта работа играет важную роль в расширении инклюзивного потенциала технологий и открывает новые направления для научных исследований.




