AI-алгоритм, который конвертирует видео человека, говорящего на языке жестов, в текстовую расшифровку.
Последние успехи наших специалистов в области компьютерного зрения дают возможность воплотить в жизнь идею беспрепятственного общения и обмена знаниями для людей с ограничениями по слуху или речи.
Распознавание слов языка жестов осуществляется по алгоритму:
Получение информации о пространственном положении частей тела с помощью
модели MediaPipe Holistic. Модель получает на вход изображение, осуществляет поиск людей на этом изображении и строит скелет человека по точкам в трёхмерном пространстве.
Подготовка информации. Первичная информация позволяет определять слова,
но из-за огромной вариативности движений в трёхмерном пространстве, это возможно только для очень ограниченного числа слов. Результатом выполнения преобразований над первичной информацией является вектор, содержащий максимальное количество полезной информации (для одного кадра видео) в минимальном объёме.
Распознавание слов языка жестов осуществляется по набору векторов.
Один вектор характеризует положение частей тела человека на одном кадре видео.
Расширенный text-to-speech и speech-to-text методами, алгоритм способен осуществляет перевод:
голос в текст;
текст в голос;
язык жестов в текст;
язык жестов в голос.
В языке жестов отсутствуют знаки препинания и любые другие компоненты, которые могли бы указывать на то что один жест закончился и начался другой. Поэтому для распознавания слов необходимо было решить задачу поиска начала и конца слова на непрерывном временном ряду. Для этого был разработан алгоритм скользящего окна (Windowing method), который по набору множества предыдущих слов может прогнозировать следующее.
Алгоритм реализован для 2 языков: русский и английский.