Реализация в TensorFlow и Keras билинейных моделей CNN для детального визуального распознавания, бумага.

ТОЧНЫЕ задачи распознавания обычно включают в себя различение категорий, имеющих общую структуру, но тонко различающихся между собой, различая «Toyota Prius» и «Toyota corolla». Это требует распознавания сильно локализованных атрибутов при изменении положения, точки зрения, освещения и других факторов.

Билинейная модель для классификации изображений состоит из четверки B = (fA, fB, P, C). Где fA и fB - функциональные функции, P - функция группирования, а C - функция классификации. Характеристическая функция - это отображение f: L × I → Rc × D, которое принимает изображение I и местоположение L и излучает характеристику размера c × D. Выходные данные объединяются в каждом месте с использованием внешнего произведения матрицы, т.е. есть комбинация билинейных характеристик fA и fB в местоположении 1, заданная следующим образом:

Для совместимости и fA, и fB должны иметь одинаковый характерный размер c.

Для построения модели мы будем использовать две предварительно обученные нейронные сети VGG-16, в которые будет предварительно загружен набор данных ImageNet для формирования билинейной сети. Во-первых, нам нужна реализация билинейной функции в TensorFlow.

Затем загрузим сеть VGG-16 и добавим два дропаута. Идея использования выпадения - это моделирование двух разных NN, но вы можете использовать две разные модели (с одинаковым размером вывода для внешнего продукта). Затем строим полную билинейную модель.

Теперь нам осталось только потренироваться. По моему опыту, лучше сначала обучить полностью подключенную часть нейронной сети, заморозив веса сверточной части, а затем обучить всю модель. Это хорошее приближение, если мы используем предварительно обученные модели, такие как VGG-16, с Imagenet.

Меня зовут Себастьян Корреа, вот моя веб-страница, если вы хотите увидеть больше моих проектов.



[1] Л. Т.-Ю. А. Р. и С. М., «Билинейные модели CNN для детального визуального распознавания», Транзакции по анализу образов и машинному интеллекту, с. 14, 2017.