Заворачиваем!

В прошлый раз я говорил о разработке финального прототипа для Молли, вот он…

Давайте углубимся в систему, которая предоставит более подробную информацию об информации, передаваемой через это видео.

Общее исследование

Молли является частью большого исследовательского проекта, над которым я работаю для своего курса в Университете Пердью под названием CNIT 581 — Введение во вспомогательные технологии и робототехнику под руководством Профессора Б.К. Мина.

Проект включал несколько этапов, предшествовавших разработке и тестированию. Я начал с концептуальной идеи и сопутствующих работ, перешел к оценке потребностей и двум интервью с профессионалами в области доступности, разработал прототип и протестировал его (изображение ниже).

Ради этой статьи я не буду углубляться в связанные работы, и на первом этапе эта часть будет освещена в моем итоговом отчете, который я намерен опубликовать.

Однако я могу дать общий обзор второго этапа, который включал разработку и итерации.

Второй этап

Второй этап включал большую часть разработки. Я использую мультимодельный подход, когда две сверточные нейронные сети работают бок о бок. Архитектура первого вдохновлена реализацией Рохана, где он ссылается на VGG16 и ResNet50. Я использую эту модель для обнаружения выражений.

Вторая модель — COCO SSD, предварительно обученная модель для обнаружения общих объектов, цель которой — локализация и идентификация нескольких объектов на одном изображении.

Обнаружение выражения

Анализируя литературу, оценивая потребности и проводя интервью, я определил, что выражение лица является важным невербальным сигналом, который слабовидящие упускают из виду. Поэтому я построил систему обнаружения выражений, которая классифицирует 7 выражений: гнев, отвращение, страх, счастье, печаль, удивление и нейтральное.

Мне удалось добиться точности 60% на наборе данных ТЭР 2013; поэтому для повышения точности я добавил несколько слоев в CNN и переобучил модель с помощью собственного набора данных.

Благодаря этой итерации я смог повысить точность примерно до 75% примерно за 100 эпох. Затем я разработал фляжное приложение, которое использовал в качестве основы для создания всей сквозной системы (включая внешний интерфейс в HTML/CSS).

Обнаружение возражений (фон и передний план)

Следующей частью проекта стала разработка модели обнаружения объектов. Для этой цели я использовал предварительно обученную модель под названием COCO SSD от Tensorflow. Модель способна обнаруживать такие объекты, как телефоны, чашки, диваны, стулья и т. д. Это был важный шаг в моем развитии, поскольку объекты в видео другого человека также помогают слабовидящим лучше понять экраны участников и незрячих. -вербальные сигналы, которые они могут упустить.

Ограничения

Ограничений моей работы несколько. Во-первых, мне еще предстоит опробовать систему на слабовидящих. Это позволит получить качественную обратную связь, которая приведет к итерациям. Более того, система также имеет ограниченный характер, поскольку обучалась на фиксированном наборе эмоций и объектов. Следовательно, в случае выбросов это будет неточно. Наконец, точность обеих моих моделей потенциально может быть улучшена для получения лучших результатов.

Следующие шаги

Я планирую работать над третьей моделью, которая определяет одежду, которую носят участники. Кроме того, я также хотел бы больше работать над созданием всей сцены для слабовидящих, где каким-то образом вся сцена объясняется участникам в устной форме. Однако для этого требуются аудиоописания, которые выходят за рамки моего проекта.

Что касается ближайших следующих шагов, я планирую закончить отчет и, возможно, опубликовать всю свою работу, чтобы все могли ее прочитать и оценить.

Спасибо за чтение. Если у вас есть какие-либо вопросы, не стесняйтесь обращаться ко мне по адресу: [email protected]