РАЗРАБОТКА ПАРАЛЛЕЛЬНОГО КОРПУСА ДЛЯ ПЕРЕВОДА КАЗАХСКОГО ЖЕСТОВОГО ЯЗЫКА И ОБУЧЕНИЕ МОДЕЛИ TRANSFORMER

Авторы

  • Еримбетова А.С. PhD, к.т.н., ассистент профессор, ведущий научный сотрудник Института информационных и вычислительных технологий КН МНВО РК, Алматы, Казахстан
  • Бержанова У.Г. докторант 2-го курса по специальности 8D06101 - Информационные системы Казахского национального университета имени Аль-Фараби; младший научный сотрудник Института информационных и вычислительных технологий Комитета науки Министерства образования и науки РК, Алматы, Казахстан
  • Дайырбаева Э.Н. магистр, старший преподаватель кафедры Программной инженерия Казахского национального исследовательского технического университета имени К.И. Сатпаева, Алматы, Казахстан; научный сотрудник Института информационных и вычислительных технологий Комитета науки Министерства образования и науки РК, Алматы, Казахстан
  • Сакенов Б.Е. магистр, инженер-программист Института информационных и вычислительных технологий Комитета науки Министерства образования и науки РК, Алматы, Казахстан
  • Самбетбаева М.А. PhD, доцент Евразийского национального университета им. Л.Н. Гумилева, Казахстан, Алматы, Сатпаев 22; ведущий научный сотрудник Института информационных и вычислительных технологий Комитета науки Министерства образования и науки РК, Астана, Казахстан

DOI:

https://doi.org/10.32014/2025.2518-1726.367

Ключевые слова:

Казахский жестовый язык, параллельный корпус, архитектура Transformer, NLP, машинное обучение

Аннотация

Казахский жестовый язык (КЖЯ) является основным средством общения для людей с нарушениями слуха и речи. Это исследование направлено на анализ синтаксической структуры КЖЯ и выявление отличий от особенностей разговорного казахского языка. Кроме того, для преобразования текстов на казахском языке в глоссы КЖЯ был создан специализированный лингвистический анализатор, что позволило разработать параллельный корпус. Изучение КЖЯ важно не только с научной точки зрения, но и для разработки инструментов, способствующих созданию инклюзивного общества.

В рамках исследования была обучена система машинного перевода на основе модели Transformer, используя параллельный корпус. В результате была достигнута высокая точность перевода, что продемонстрировало потенциал для повышения доступности коммуникации. Этот подход представляет собой важный шаг в автоматизированной обработке казахского жестового языка. Подобные технологии направлены на улучшение процесса обучения и социальной интеграции людей с особыми потребностями.

Для анализа синтаксиса КЖЯ использовались Python 3.10, Stanza, библиотеки PyTorch, NumPy и Pandas. Было исследовано более 500 предложений, что позволило выявить особенности гибкости порядка слов и визуально-пространственной структуры. Анализ предложений, включая обратимые, необратимые, локативные, одушевлённые, неодушевлённые, сложные и простые конструкции, позволил описать грамматическую структуру казахского жестового языка. Результаты исследования послужили основой не только для выявления синтаксических закономерностей языка, но и для разработки новых моделей перевода.

В ходе исследования были выявлены основные трудности, такие как ограниченное количество аннотированных данных. В будущем планируется работа над интеграцией видеоданных и расширением оценочных показателей. Предложенные методы лежат в основе развития инклюзивных информационных технологий и улучшения коммуникации с людьми с особыми потребностями. Эта работа играет важную роль в расширении инклюзивного потенциала технологий и открывает новые направления для научных исследований.

Загрузки

Опубликован

2025-09-27

Как цитировать

Еримбетова, А. ., Бержанова, У. ., Дайырбаева, Э. ., Сәкенов , Б. ., & Сәмбетбаева, М. . (2025). РАЗРАБОТКА ПАРАЛЛЕЛЬНОГО КОРПУСА ДЛЯ ПЕРЕВОДА КАЗАХСКОГО ЖЕСТОВОГО ЯЗЫКА И ОБУЧЕНИЕ МОДЕЛИ TRANSFORMER . Academic Scientific Journal of Computer Science, 355(3), 110–131. https://doi.org/10.32014/2025.2518-1726.367

Выпуск

Раздел

Информационно-коммуникационные технологии