Сотрудники Лаборатории речевых и многомодальных интерфейсов СПбФИЦ РАН разработали компьютерную систему распознавания русского жестового языка. К созданию обучающей базы данных привлекли группу глухих людей разного пола и возраста. С их помощью ученые повысили точность распознавания жестов в разных вариациях.
Для людей со значительным нарушением слуха и глухотой возможности коммуникации с остальным миром значительно снижены. Поэтому чаще всего такие люди общаются между собой или с немногочисленными слышащими людьми, освоившими специальный язык жестов. Но бывают ситуации, когда сурдопереводчика рядом нет, а общение просто необходимо – в частности это касается взаимодействия слышащего врача и глухого пациента. Тогда на помощь приходит машинный сурдоперевод на основе искусственного интеллекта.
При помощи машинного обучения ученые создают системы-посредники, позволяющие поддерживать общение слышащих и неслышащих людей. Такие системы распознают жесты и переводят их в текст или даже в речь. А для обратного перевода служат компьютерные аватары-переводчики, которые в режиме реального времени преобразуют речь в язык жестов.
К сожалению, полноценных систем перевода с жестовых языков сегодня не существует. В первую очередь, по причине отсутствия системы, с высокой точностью идентифицирующей жесты. Специалисты Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН работают над проблемой точности распознавания. Для этого они включили в свой новейший программный комплекс, который переводит движения русского жестового языка (РЖЯ) в текст, факторы возраста и пола пациента.
Ученые составили выборку глухих пациентов от 18 до 59 лет, освоивших РЖЯ в раннем возрасте, и с помощью машинного обучения научили программу распознавать одни и те же жесты, обусловленные различными половозрастными характеристиками. Каждый жест записывался пошагово, для отслеживания моментов, где появляется вариативность жеста. На основе этой базы данных систему учили узнавать жесты в самых разных вариациях.
В данный момент база данных программы состоит из 85 жестовых высказываний, записанных дикторами пошагово. Пока в базу вошли только «реплики врача» по темам «Проведение консультации», «Анамнез», «Обследование», «Диагностика и рекомендации». Записаны фразы вида «На что жалуетесь?», «У вас есть наследственные заболевания?», «Вам необходима госпитализация» и другие. Словарь создавался совместно с практикующими терапевтами на базе типичных диалогов между врачом и пациентом.
Разумеется, следующим этапом должно стать создание базы высказываний пациентов, однако очевидно, что при этом разнообразие ответов будет чрезвычайно велико, и разработка такой базы станет длительным процессом, требующим значительных временных затрат и существенно большего числа информантов. Поэтому гораздо более реалистичной стратегией является применение полученного языкового набора данных в интерфейсах, позволяющих синтезировать жестовую речь при помощи 3D-аватара, переводя звучащие высказывания врача в жестовую форму.
«Мы надеемся, что в перспективе наше приложение позволит упростить оказание медицинских услуг и для врачей, и для людей с ограниченными возможностями. Сейчас мы работаем над созданием удобного интерфейса для программы», – поясняет старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН, кандидат технических наук Дмитрий Рюмин.