Актуальные обновления (SOTA) за 12–18 декабря 2022 г.

Этотеженедельный информационный бюллетень освещает работу исследователей, которые создали ультрасовременную работу, побив существующие рекорды по эталонным тестам. Они также

  • написал свою статью
  • выпустили свой код
  • выпущенные модели в большинстве случаев
  • выпущенные ноутбуки/приложения в нескольких случаях

Установлены новые рекорды по следующим заданиям (в порядке работ)

  • Создание изображения
  • Классификация трехмерных облаков точек
  • Калибровка классификатора
  • Видеть за пределами видимого

Документ, выпущенный с кодом из OpenAI, не установил новый рекорд, но сообщается о его потенциале (выборка на два порядка быстрее по сравнению с другими подходами) для создания 3D-объектов из текстового описания.

  • Создание 3D-облака точек из сложных запросов

На сегодняшний день код 27,8 %(94 134) от общего числа опубликованных статей (338 394) опубликован вместе с документами. ("источник").

Сведения о SOTA ниже представляют собой снимки моделей SOTA на момент публикации этого информационного бюллетеня. Сведения о SOTA в ссылке, приведенной под снимками, скорее всего, будут отличаться от снимка с течением времени по мере появления новых моделей SOTA.

Наш вклад на прошлой неделе

№1 в области преобразования изображений в изображения

Название модели: HRDA+PiPa

Примечания. Неконтролируемая адаптация предметной области (UDA) направлена ​​на усиление обобщения изученной модели на другие предметные области. Знания, не зависящие от домена, переносятся из модели, обученной на помеченном исходном домене, например, видеоигра, в немаркированные целевые домены, например, сценарии реального мира, что позволяет сократить расходы на аннотацию. Существующие методы UDA для семантической сегментации обычно сосредоточены на минимизации междоменных несоответствий различных уровней, например пикселей, признаков и прогнозов, для извлечения знаний, не зависящих от предметной области. Однако первичные внутридоменные знания, такие как корреляция контекста внутри изображения, остаются недостаточно изученными. В попытке восполнить этот пробел в этой статье предлагается унифицированная платформа обучения с самоконтролем на основе пикселей и фрагментов, называемая PiPa, для доменно-адаптивной семантической сегментации, которая облегчает попиксельные корреляции внутри изображения и семантическую согласованность на основе фрагментов по отношению к различным. контексты. Предлагаемая структура использует внутреннюю структуру внутридоменных изображений, которая: (1) явно поощряет изучение отличительных попиксельных признаков с внутриклассовой компактностью и межклассовой разделимостью, и (2) мотивирует надежное изучение признаков идентичных изображений. патч против различных контекстов или колебаний.

Демо-страница: пока нет демонстрационной страницы.

Лицензия: на сегодняшний день нет

№1 в классификации трехмерных облаков точек

Название модели: I2P-MAE

Примечания. Предварительное обучение с использованием многочисленных данных изображения стало де-факто надежным 2D-представлением. Напротив, из-за дорогостоящего сбора и аннотирования данных нехватка крупномасштабных наборов 3D-данных серьезно затрудняет изучение высококачественных 3D-объектов. В этой статье предлагается альтернатива для получения превосходных 3D-представлений из предварительно обученных 2D-моделей с помощью автокодировщиков с маскированием изображения в точку, называемых I2P-MAE. Использование самоконтролируемого предварительного обучения для управления автоматическим кодированием 3D-масок, которое восстанавливает маркеры маскированных точек с архитектурой кодер-декодер. В частности, они сначала используют готовые 2D-модели для извлечения многоракурсных визуальных особенностей входного облака точек, а затем применяют два типа схем обучения «от изображения к точке». Они вводят стратегию маскирования с двумерным управлением, которая поддерживает видимость семантически важных маркеров точек для кодировщика. По сравнению со случайным маскированием сеть может лучше концентрироваться на важных трехмерных структурах и восстанавливать замаскированные маркеры из ключевых пространственных сигналов. Они также применяют эти видимые маркеры для восстановления соответствующих многоракурсных 2D-функций после декодера. Это позволяет сети эффективно наследовать высокоуровневую 2D-семантику, полученную из обширных данных изображения, для дифференциального 3D-моделирования.

Демо-страница: пока нет демонстрационной страницы.

Лицензия: на сегодняшний день нет

№1 в калибровке классификатора

Название модели: R-Mix

Примечания. Подходы к комбинированному обучению доказали свою эффективность в улучшении способности глубоких нейронных сетей к обобщению. На протяжении многих лет исследовательское сообщество расширяет методы смешивания в двух направлениях, прилагая активные усилия для улучшения процедур, ориентированных на значимость, но минимально фокусируясь на произвольном пути, оставляя область рандомизации неисследованной. В этой статье представлен новый метод, лежащий на стыке двух путей. Сочетая лучшие элементы случайности и использования значимости, предлагаемый метод уравновешивает скорость, простоту и точность. Метод называется R-Mix в соответствии с концепцией «случайного смешивания». В статье демонстрируется его эффективность в обобщении, локализации слабо контролируемых объектов, калибровке и устойчивости к атакам со стороны противника. Кроме того, чтобы решить вопрос о том, существует ли лучший протокол принятия решений, они обучают агента обучения с подкреплением, который определяет политики смешивания на основе производительности классификатора, уменьшая зависимость от целей, разработанных человеком, и настройки гиперпараметров. Обширные эксперименты также показывают, что агент способен работать на передовом уровне, закладывая основу для полностью автоматического смешивания.

Демо-страница: пока нет демонстрационной страницы.

Лицензия:лицензия MIT

№1 в рейтинге Seeing Beyond the Visible в наборе данных KITTI360-EX

Название модели: FlowLens

Примечания. Ограниченное стоимостью оборудования и размером системы, поле зрения камеры (FoV) не всегда является удовлетворительным. Однако с пространственно-временной точки зрения информация, выходящая за пределы физического поля зрения камеры, является готовой и фактически может быть получена «бесплатно» из прошлого. В этой статье предлагается новая задача под названием «Оценка за пределами поля зрения», целью которой является использование прошлых визуальных сигналов и двунаправленного прорыва через физическое поле зрения камеры. В этой статье предлагается архитектура FlowLens для расширения поля зрения за счет достижения распространения признаков явно с помощью оптического потока и неявно с помощью нового преобразователя клип-рекуррентов, который имеет две привлекательные функции: Перекрестное внимание (DDCA) для постепенной обработки глобальной информации, накопленной во временном измерении. 2) Многоветвевая сеть прямой связи Mix Fusion (MixF3N) интегрирована для улучшения пространственно точного потока локальных объектов.

Демо-страница: пока нет демонстрационной страницы.

Лицензия: лицензия MIT.

Создание 3D-облака точек из сложных запросов

Эта модель не является моделью SOTA, но работает на один-два порядка быстрее, чем модели SOTA.

Название модели: Point-E

Примечания. Хотя недавняя работа над созданием текстовых 3D-объектов показала многообещающие результаты, современные методы обычно требуют нескольких часов работы графического процессора для создания одного образца. Это резко контрастирует с современными генеративными моделями изображений, которые создают образцы за несколько секунд или минут. В этой статье исследуется альтернативный метод генерации 3D-объектов, который создает 3D-модели за 1–2 минуты на одном графическом процессоре. Метод сначала создает одно синтетическое представление с использованием модели диффузии текста в изображение, а затем создает трехмерное облако точек с использованием второй модели диффузии, которая обусловливает сгенерированное изображение. В документе утверждается, что, несмотря на то, что этот подход не соответствует современному уровню техники с точки зрения качества выборки, он на один-два порядка ускоряет выборку, предлагая практический компромисс для некоторых вариантов использования.

Демонстрационная страница. Для опробования этой модели было выпущено три ноутбука. Ссылка на наш форк, где мы использовали для вывода следующего изображения

Время генерации в среднем на V100 составляет 19 секунд, что значительно ниже цифр, указанных в статье. Похоже, что в генерации одного и того же запроса на ввод при повторных запусках много различий.

Примеры поколений для «черной тесла»

Лицензия: на сегодняшний день не указана