Распознавание языка жестов с использованием нейронных сетей

Мандла Дхарани, Маррипуди Нага Пуджита

Введение

Преобразование языка жестов было давней проблемой компьютерного зрения. Появилось несколько решений, но ни одно из них не было переносимым для использования в автономном устройстве или приложении.

Языки жестов — это набор языков, которые используют предопределенные действия и движения для передачи сообщения. Эти языки в первую очередь разработаны для помощи глухим и людям с другими нарушениями речи. В разных регионах есть разные языки жестов, такие как американский язык жестов, индийский язык жестов и т. Д.

Мы планируем решить эту проблему, используя возможности мобильного телефона и последние достижения в области глубокого обучения. С появлением глубокого обучения создаются сквозные модели для решения широкого круга задач, которые требуют только изображений в качестве входных данных. Наборы данных позволили лучше использовать возможности моделей.

Постановка задачи

В этом проекте мы стремимся анализировать и распознавать различные признаки из динамической базы данных.

В динамической базе данных пользователь может динамически обучать любое количество входных данных. С таким расходящимся набором данных мы можем обучить нашу систему на хорошем уровне и, таким образом, получить хорошие результаты.

Мы предлагаем комплексное решение, для которого в качестве входных данных требуется только 2D-изображение, либо пользователь может обучать свой собственный набор данных. Наша цель — облегчить людям общение с помощью модели. Во всем мире 20% глухонемых используют язык жестов, и наша обязанность сделать мир для них проще.

Алгоритмы

Мы использовали различные методы машинного обучения для обнаружения языка жестов.

Машины опорных векторов (SVM)

Машина опорных векторов (SVM) — это контролируемый алгоритм машинного обучения, используемый как для классификации, так и для регрессии.

Логистическая регрессия

Логистическая регрессия — это статистическая модель, которая в своей базовой форме использует логистическую функцию для моделирования бинарной зависимой переменной, хотя существует множество более сложных расширений.

K-ближайших соседей (KNN) 

KNN работает, находя расстояния между запросом и всеми примерами в данных, выбирая указанное количество примеров (K), ближайших к запросу, затем голосуя за наиболее часто встречающуюся метку или усредняя метки.

Сверточные нейронные сети (CNN)

Сверточная нейронная сеть (CNN) — это тип искусственной нейронной сети, используемой для распознавания и обработки изображений, которая специально разработана для обработки пиксельных данных.

Архитектура

Предварительная обработка

Исходные пиксели изображения вычитаются из всех изображений. Затем измените размер изображения на 244X244, чтобы создать больше обучающих данных, было применено увеличение. Данные были перемешаны, чтобы иметь разнообразный поднабор данных при случайном выборе.

Сжатие

Архитектура выжимной сети включает в себя ряд фильтров. Первый уровень состоит из четырех фильтров 1x1, которые объединяются на следующем уровне. Конкатенация гарантирует, что количество параметров будет минимальным. Основная цель архитектуры сжатой сети — уменьшить количество параметров и, в свою очередь, размер сети.

Сцепленный слой подается на расширяемый слой, и, следовательно, количество взаимосвязей между сжимающим и расширяемым слоями минимально. Это гарантирует, что размер сети будет низким. Расширенный слой содержит фильтры 3x3, а также дополнительные фильтры 1x1. Они объединяются для достижения результата.

Полученные результаты

Модель обучалась в течение 50 эпох. Начальная точность обучения и точность проверки резко возрастают до 15-й эпохи. Затем точность достигает предела плато по мере увеличения эпох. Максимальная достигнутая точность проверки составляет 83,29% на 24-й эпохе. При этом максимальная достигнутая точность обучения составляет 87,47%. Корреляция между точностью обучения и проверки составляет 98,47%, что означает, что модель была обучена точно.

Модель способна давать точные прогнозы, но в некоторых случаях она не работает. Из нашего наблюдения мы заметили, что это происходит, когда похожие на вид алфавиты, такие как «а» и «т», где разница между ними заключается в большом пальце сбоку для «а», тогда как у «т» большой палец находится между указательным и средним Палец. Когда дается изображение с разными условиями освещения или пальцы не видны, это приводит к ложному предсказанию.

Будущая сфера

В будущем мы также встроим приложение для потоковой передачи видео в реальном времени, где пользователи смогут управлять программным обеспечением с помощью языков жестов. Мы будем использовать облачные функции для увеличения места в нашей базе данных. В будущем с помощью API флаттера мы разработаем мобильное приложение как для Android, так и для IOS. Эту модель можно интегрировать в наши приложения для распознавания голоса и лица, чтобы лучше понимать эмоции с помощью языка жестов.

Заключение

Распознавание языка жестов — сложная задача, если учесть все возможные комбинации жестов, которые система такого рода должна понимать и переводить. При этом, вероятно, лучший способ решить эту задачу — разделить ее на более простые задачи, и представленная здесь система будет соответствовать возможному решению одной из них. Было замечено, что модель имеет тенденцию смешивать несколько знаков друг с другом, таких как U и W. Но если немного подумать об этом, может быть, ей не нужно иметь идеальную производительность, поскольку использование корректора орфографии или предиктора слов увеличило бы точность перевода.

Следующим шагом является анализ решения и изучение способов улучшения системы. Некоторые улучшения можно было бы внести, собрав больше качественных данных, попробовав более сверточные архитектуры нейронных сетей или перепроектировав систему машинного зрения.

Разработанная модель представляла собой сжатую архитектуру, которая позволяла хранить всю архитектуру на мобильном устройстве. Это помогло с доступностью такого решения для общественности. Следовательно, алгоритмическое распознавание для мобильных устройств в настоящее время является предпочтительным, чтобы предоставить большинству людей легкодоступное решение. В будущем предварительная обработка набора данных поможет повысить точность модели. Условия освещения и расстояние изображения от камеры не должны влиять на результат предсказания.