Как Fast R-CNN работает при обнаружении объектов?

Введение в быстрый R-CNN

Это вторая история для серии R-CNN. Вы можете узнать больше о R-CN отсюда. Fast R-CNN (региональная сверточная нейронная сеть) предназначена для решения проблем обнаружения объектов.

В этом рассказе будет обсуждаться Fast R-CNN (Girshick, 2015), и будет освещено следующее:

Архитектура Fast R-CNN
Объединение регионов интересов (RoIPool)
Обучение модели
Эксперимент

Архитектура

Предоставляя изображения и предложения по регионам, он будет проходить через сверточную сеть, опрос области интереса (RoI), полносвязные сетевые сети (FC), а окончательный результат - это вероятность класса объекта и соответствующих позиций ограничивающей рамки.

Чтобы предотвратить пропуск большого количества объектов, предполагается, что при поиске предложений по регионам будет иметь место высокий отзыв. Однако это влияет на производительность в частях обнаружения объектов. RoI решает эту проблему, выбирая подходящие предложения по регионам.

Объединение регионов интересов (RoIPool)

Объединение RoI — это уловка, позволяющая решить проблему в R-CNN. Вместо пересчета одного и того же региона снова и снова. Целью RoI является снижение вычислительной сложности для ускорения процесса.

Он использует максимальный пул для извлечения интересующих карт объектов из большой карты объектов. Эта интересная карта объектов фиксируется для каждого объединяющего слоя. В Fast R-CNN ввод пула RoI происходит из выборочного поиска, а вывод представляет собой список индекса изображения и ограничивающей рамки (вверху слева и внизу справа). Итак, у нас есть выходы Nx5 (N: количество областей интереса).

Для каждой области интереса он масштабирует входные данные до заранее определенного (например, 2x2) размера. Процедуры:

input: Наличие карты объектов
polling sections: Разделение предложений региона на размер вывода (например, 2x2 для этого примера)
max values in sections: Применение концепции максимального пула для получения максимального значения
output: карта объектов небольшого размера

Здесь подробное объяснение опроса RoI.

Обучение модели

Функция потери

Fast R-CNN включает два выхода: вероятность класса объекта (классификация) и смещения ограничивающей рамки (регрессия). Там не обучают отдельно, а обучают и классификатор, и регрессор вместе.

L: Потеря многозадачности
Lcls: Потеря классификатора
Lloc: потеря регрессора
u: класс истинной истины
v: наземная ограничивающая рамка

Мини-пакетный отбор проб

Выборка 64 областей интереса из каждого изображения и присвоение меток этим предложениям регионов в соответствии со следующими критериями.

Положительная этикетка:

Если коэффициент перекрытия (между предложениями по регионам и полем достоверности) выше 0,5, он будет рассматриваться как действительные предложения по регионам.
Выбор 25% действительных предложений региона.

Отрицательная метка:

Если коэффициент перекрытия находится между 0,1 и 0,5, выбирается максимальный.

Эксперименты

Быстрая R-CNN становится лучше в большинстве классов объектов.

Забрать

Многозадачное обучение (классификация объектов и регрессия ограничивающей рамки) предотвращает многоэтапное обучение и прогнозирование.
Чем больше предложений, тем лучше, потому что модель не может классифицировать объект, если нет предложений по регионам.

Обо мне

Я Data Scientist в Bay Area. Сосредоточение внимания на современном состоянии науки о данных, искусственном интеллекте, особенно в НЛП и связанных с платформами. Не стесняйтесь связаться со мной в LinkedIn или подпишитесь на меня в Medium или Github.

Ссылка

Гиршик Росс. Быстрый R-CNN. 2015
Дж. Уйлингс, К. ван де Санде, Т. Геверс и А. Смёлдерс. Выборочный поиск для распознавания объектов. 2013
Быстрый R-CNN на питоне