РАСПОЗНАВАНИЕ ЯЗЫКА ЖЕСТОВ С ИСПОЛЬЗОВАНИЕМ ВРЕМЕННОЙ СВЕРТОЧНОЙ СЕТИ И MEDIAPIPE
DOI:
https://doi.org/10.32014/2026.2518-1726.422Ключевые слова:
Казахский язык жестов, распознавание жестов, MediaPipe, TCN, TransformerАннотация
Это исследование предлагает новую систему распознавания языка жестов. Он объединяет временную сверточную сеть для кодирования визуальной информации с декодером на основе Трансформера для создания текстовых представлений. Система преобразует изображения движения в текст, эффективно фиксируя как поток движения, так и пространственное расположение знаков с течением времени. Для этого MediaPipe извлекает 3D-ориентированные данные из каждого видеокадра и подготавливает их к оптимальной производительности модели. Эффективность этой архитектуры проверяется с помощью набора данных казахского русского жестового языка, который подтверждает ее пригодность для конкретных задач распознавания жестового языка. В этой статье рассматриваются основные проблемы с распознаванием языка жестов, включая различия между пользователями, ограниченные данные обучения и отсутствие готовых шаблонов для языков с ограниченными ресурсами. В результате это исследование способствует разработке коммуникационных технологий, которые облегчают взаимодействие людей с нарушениями слуха и речи, поддерживают различные инклюзивные приложения и способствуют инклюзивности.




