Использование расширенной свертки, улучшенной сети ResNet для классификации изображений, локализации изображений и семантической сегментации

В этой статье рассматривается DRN (Dilated Residual Networks) от Принстонского университета и Intel Labs. После публикации DilatedNet в 2016 году ICML для семантической сегментации авторы изобрели DRN, который может улучшить не только семантическую сегментацию, но и классификацию изображений без увеличения глубины или сложности модели. Он опубликован в CVPR за 2017 год с более чем 100 цитированием. (Сик-Хо Цанг @ средний)

Контур

  1. Расширенная свертка
  2. Причины расширенной свертки
  3. Разветвленные остаточные сети (DRN)
  4. Локализация
  5. Снятие сетки
  6. Результаты

1. Расширенная свертка

  • Для простоты я просто цитирую уравнения в DilatedNet:

  • Левая - стандартная свертка. Правый - расширенная извилина. Мы видим, что при суммировании именно s + l t = p мы пропустим некоторые точки во время свертки.
  • Когда l = 1, это стандартная свертка.
  • Когда l ›1, это расширенная свертка.

  • Выше показан пример расширенной свертки при l = 2. Мы видим, что рецептивное поле больше по сравнению со стандартным.

  • На приведенном выше рисунке показаны другие примеры рецептивного поля.

2. Причины расширенной свертки

  • Было обнаружено, что с небольшой выходной картой признаков, полученной в конце сети, точность семантической сегментации снижается.
  • В FCN это также показывает, что когда требуется 32-кратная передискретизация, мы можем получить только очень приблизительные результаты сегментации. Таким образом, желательна более крупная карта выходных характеристик.
  • Наивный подход состоит в том, чтобы просто удалить шаги субдискретизации (шага) в сети, чтобы увеличить разрешение карты функций. Однако это также уменьшает восприимчивое поле, что сильно уменьшает объем контекста. такое уменьшение воспринимающего поля является неприемлемой платой за более высокое разрешение.
  • По этой причине расширенные извилины используются для увеличения рецептивного поля более высоких слоев, компенсируя уменьшение рецептивного поля, вызванное удалением субдискретизации.
  • Было обнаружено, что использование расширенной свертки также может помочь в решении задачи классификации изображений в этой статье.

3. Разветвленные остаточные сети (DRN)

  • В статье в качестве коэффициента расширения используется d.
  • Когда d = 1, это стандартная свертка.
  • Когда d ›1, это расширенная свертка.

Оригинал ResNet

  • В исходной ResNet последние 2 группы сверточных слоев G4 и G5 используют стандартную свертку 3 × 3 (d = 1):

  • Карты функций становятся меньше из-за максимального объединения.
  • Выходная карта объектов имеет размер только 7 × 7. Это не очень хорошо по причине, упомянутой в предыдущем разделе.

DRN

  • В DRN в G4 используется d = 2:

  • В G5 для первой свертки (i = 1) по-прежнему используется d = 2:

  • В G5 для оставшейся свертки (i › 1) используется d = 4:

  • Наконец, вывод G5 в DRN составляет 28 × 28, что намного больше, чем у оригинальной ResNet.

4. Локализация

  • Для задачи классификации изображений в конце выполняется объединение глобального среднего значения, за которым следует свертка 1 × 1 и softmax.
  • Для настройки локализации просто удаляется средний пул. Никакого обучения или настройки параметров не требуется. Точная классификация DRN может использоваться напрямую для локализации.

5. Снятие сетки

  • Артефакты сетки возникают, когда карта функций имеет более частое содержимое, чем частота дискретизации расширенной свертки, как показано выше.

  • DRN-A: только с расширенной сверткой, имеющей артефакт сетки.
  • DRN-B: обнаружено, что первая операция максимального объединения приводит к высокоамплитудным высокочастотным активациям. Таким образом, первый максимальный уровень объединения заменяется двумя остаточными блоками (четыре сверточных слоя 3 × 3), чтобы уменьшить артефакт построения сетки. И еще 2 остаточных блока также добавляются в конце сети.
  • DRN-C: в конце сети расширение постепенно уменьшается, чтобы удалить артефакты сглаживания, т. е. 2-расширенная свертка, за которой следует 1- расширенная извилина. Однако артефакт все еще здесь, потому что он может передаваться через остаточные соединения. Таким образом, соответствующие остаточные связи удаляются.

  • Выше показана визуализация.
  • DRN-A-18: при расширенной свертке есть артефакт сетки.
  • DRN-B-26: благодаря сверткам, заменяющим максимальное объединение, карта функций имеет меньше артефактов.
  • DRN-C-26: с постепенным уменьшением расширенной свертки и удалением остаточных соединений артефакт еще больше уменьшается.

6. Результаты

6.1. Классификация изображений в ImageNet

  • DRN-A-18 и DRN-A-34 опережают ResNet-18 и ResNet-34 в точности 1-го кадра top-1 на 2,43 и 2,92 процентных пункта соответственно. (Относительное уменьшение погрешности на 10,5% в случае ResNet-34 до DRN-A-34.)
  • DRN-A-50 превосходит ResNet-50 в точности 1-кроп-топ-1 более чем на процентный пункт.
  • Прямое преобразование ResNet в DRN-A, которое совершенно не меняет глубины или емкости модели, значительно повышает точность классификации.
  • Каждый DRN-C значительно превосходит соответствующий DRN-A.
  • DRN-C-26, производный от DRN-A-18, соответствует точности более глубокого DRN-A-34.
  • DRN-C-42, производный от DRN-A-34, соответствует точности более глубокого DRN-A-50.
  • DRN-C-42 приближается к точности ResNet-101, хотя последняя глубже в 2,4 раза.

6.2. Локализация объекта в ImageNet

  • Здесь локализация слабо контролируемого объекта выполняется на основе значений активации карты функций.

  • C = 1000, поскольку это набор данных ImageNet с классом 1000.
  • С ответными картами C с разрешением W × H, f (c, w , h) - ответ в местоположении (w, h), доминирующим классом в каждом месте является g (w, h). Набор ограничивающих рамок - Bi, где t порог активации. И минимальный ограничивающий прямоугольник bi выбирается среди Bi.
  • С IoU с полем заземления больше 0,5 это считается точным.

  • DRN превосходят соответствующие модели ResNet, иллюстрирует преимущества базовой конструкции DRN.
  • DRN-C-26 значительно превосходит DRN-A-50, несмотря на гораздо меньшую глубину. Это показывает, что схема дегридирования особенно полезна для приложений, требующих более детального анализа пространственного изображения.
  • ДРН-Ц-26 также опережает РесНет-101.

6.3. Семантическая сегментация городского пейзажа

  • Для ResNet-101 среднее значение IoU составило 66,6%.
  • DRN-C-26 превосходит базовый уровень ResNet-101 более чем на процентный пункт, несмотря на то, что имеет в 4 раза меньшую глубину.
  • Модель DRN-C-42 превосходит базовый уровень ResNet-101 более чем на 4 процентных пункта, несмотря на меньшую глубину в 2,4 раза.
  • И DRN-C-26, и DRN-C-42 превосходят DRN-A-50, предполагая, что конструкция с пересечением координат особенно полезна для задач плотного прогнозирования.

  • Как показано выше, прогнозы DRN-A-50 искажены артефактами сетки, даже если модель обучалась с плотным контролем на уровне пикселей.
  • Напротив, прогнозы DRN-C-26 не только более точны, но и заметно чище.

6.4. Дополнительные результаты с использованием DRN-D

  • В авторском GitHub также есть DRN-D, который является упрощенной версией DRN-C.

Все DRN также могут получить более низкую частоту ошибок при меньшем количестве параметров (меньшая модель).

  • DRN-D-22, с меньшим количеством параметров, достигающий 68% mIoU, что такое же, как у DRN-C-26, и выше, чем у DRN-A-50.

Вместо того, чтобы постепенно уменьшать разрешение внутренних представлений до тех пор, пока пространственная структура сцены больше не станет различимой, высокое пространственное разрешение сохраняется на всем протяжении конечных выходных слоев. Повышена точность классификации изображений, и наконец DRN превосходит современный ResNet.

Ссылка

[2017 CVPR] [DRN]
Разветвленные остаточные сети

Мои предыдущие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [Xception] [ MobileNetV1] [ResNet] [Pre-Activation ResNet] [RiR] [RoR] [Стохастическая глубина] [WRN] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet]

Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [DeepID-Net] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [ RetinaNet ] [ DCN ]

Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [SegNet] [ParseNet] [DilatedNet] [PSPNet] [DeepLabv3]

Биомедицинская сегментация изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet]

Сегментация экземпляра
[DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]

Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN]