Трехмерная оценка позы человека по одному изображению является сложной задачей из-за присущей ей неоднозначности и окклюзии, которые могут привести к высокой неопределенности и неопределенности. Модели диффузии, эффективность которых недавно была показана для получения высококачественных изображений из шума, предлагают многообещающий подход к этой проблеме. В этой статье они предлагают новую структуру оценки позы, DiffPose, которая формулирует трехмерную оценку позы как процесс обратной диффузии. Наша структура DiffPose включает в себя несколько новых конструкций для облегчения процесса распространения для трехмерной оценки позы, в том числе специфичную для позы инициализацию распределений неопределенности позы, процесс прямого распространения на основе гауссовой модели смеси и процесс обратного распространения в зависимости от контекста. Они оценивают наш предложенный DiffPose на двух широко используемых тестах оценки позы, Human3.6M и MPI-INF-3DHP, и показывают, что он значительно превосходит существующие методы.

Предварительно

Диффузионные модели

Диффузионные модели — это тип генеративной модели, которую можно использовать для создания реалистичных изображений, текста и других данных. Они работают, начиная со случайного шумового изображения, а затем постепенно добавляя шум к изображению, пока оно не станет реалистичным. Процесс добавления шума называется диффузией, и модель обучена обращать процесс диффузии вспять для создания новых изображений.

Диффузионные модели относительно просты в обучении и могут использоваться для различных приложений, таких как шумоподавление изображений, генерация изображений и синтез текста в изображения.

Вот простая аналогия, которая поможет вам понять модели диффузии. Представьте, что у вас есть лист бумаги, и вы начинаете рисовать на нем случайную закорючку. Затем вы постепенно добавляете к закорючке все больше и больше шума, пока она не станет неузнаваемой. Теперь представьте, что вам дали закорючку со всем добавленным к ней шумом, и вас попросили воссоздать исходную закорючку. По сути, это то, что делают диффузионные модели. Они обучаются на наборе данных изображений и учатся обращать процесс распространения, чтобы воссоздавать исходные изображения из зашумленных версий.

Если вы хотите узнать больше о моделях Diffusion, перейдите по следующим ссылкам, чтобы узнать больше !!!







Методология

На следующем рисунке показан обзор Diffpose. В следующих подразделах я представлю методологию Diffpose.

Инициализация 3D-распределения поз H_K

В предыдущих моделях диффузии процесс обратной диффузии начинался со случайного шума и постепенно удалялся из него для получения высококачественного результата. Однако при оценке 3D-позиции наши входные данные представляют собой оценочную 2D-позу, которая имеет собственную неопределенность в 3D-пространстве. Чтобы помочь нашей диффузионной модели справиться с этой неопределенностью, они инициализируют соответствующее трехмерное распределение позы H_K, которое фиксирует неопределенность трехмерной позы. Таким образом, процесс обратной диффузии может начаться с распределения H_K со специфическими для выборки знаниями, что приводит к повышению производительности.

Вот как они строят распределение неопределенности x, y и z для каждого сустава входной позы:

  1. Сначала оцените неопределенность каждого соединения в 2D-пространстве.
  2. Затем используйте эти неопределенности для построения трехмерного распределения позы HK.
  3. Распределения неопределенности x, y и z для каждого соединения затем выбираются из распределения HK.

Этот процесс позволяет нашей модели распространения начать с более реалистичной и информативной инициализации, что приводит к повышению производительности.

Инициализация распределения (x, y, z). Чтобы инициализировать распределения неопределенности x и y, они используют тепловые карты из стандартного 2D-детектора позы. Эти тепловые карты показывают неопределенность прогнозов 2D-позы, поэтому они являются хорошим способом моделирования неопределенности местоположений x и y.

Распределение неопределенности по оси z получить труднее, потому что оно неизвестно детектору 2D положения. Одним из способов вычисления распределения z является вычисление частоты появления значений z в обучающих данных. Другой подход заключается в использовании Context Encoder для инициализации z-распределения. Они эмпирически отмечают, что этот подход приводит к более быстрой сходимости.

Распространение позы вперед

Разработка процесса прямой диффузии для трехмерной оценки позы может быть сложной задачей, поскольку распределение неопределенности H_K, основанное на тепловых картах, часто имеет неправильную и сложную форму. Математически выразить H_K непросто.

Чтобы преодолеть это, они предлагают использовать модель смеси Гаусса (GMM) для моделирования распределения неопределенности H_K. GMM — это вероятностная модель, которая может характеризовать неуправляемые и сложные распределения. Также очень эффективно представлять распределения на основе тепловых карт.

Они устанавливают количество гауссовских компонентов в GMM равным M. Затем они используют алгоритм максимизации ожиданий (EM) для оптимизации параметров GMM φ_GMM, чтобы они соответствовали целевому распределению H_K.

Обратная диффузия для оценки 3D-позиции

Контекстный кодировщик φST. Выполнение процесса обратной диффузии исключительно с использованием Hˆ_K в качестве входных данных для модели диффузии g сопряжено с трудностями. Это происходит из-за ограниченной контекстной информации, доступной из входных видео/изображений, что затрудняет для g создание точных поз из неоднозначного распределения H_K. Чтобы решить эту проблему, мы предлагаем использовать контекстную информацию, предоставленную входными данными, для направления g и повышения точности его прогнозов. Включая наблюдаемые входные данные, контекстная информация может ограничить процесс шумоподавления модели и направить его на создание более точных прогнозов.

Чтобы управлять моделью распространения, они используют пространственно-временной контекст. Эта контекстная информация получается из последовательности 2D-поз, полученной из V_t (или одной 2D-позы, полученной из I_t, если V_t недоступен). Включая эту контекстную информацию, они улучшают процесс обратной диффузии и обеспечивают модель диффузии g дополнительной информацией. Это помогает уменьшить неопределенность и повысить точность сгенерированных 3D-поз. Чтобы облегчить это, они вводят кодировщик контекста φ_ST, который извлекает пространственно-временную информацию fST из последовательности 2D-позиций. Затем процесс обратной диффузии обусловливается f_ST.

Процесс обратной диффузии. В процессе обратной диффузии цель состоит в том, чтобы восстановить определенное распределение поз H_0 из неопределенного распределения поз Hˆ_K во время обучения или H_K во время тестирования. В этом описании мы будем использовать обозначение Hˆ_K. Первоначально мы используем кодировщик контекста φ_ST для извлечения f_ST из последовательности 2D-поз. Кроме того, чтобы позволить модели распространения изучить соответствующие методы шумоподавления на каждом этапе распространения, они генерируют уникальный шаг, встраивающий f_Dk с использованием синусоидальной функции для представления k-го шага распространения. Учитывая зашумленную позу hˆ_k, выбранную из Hˆ_k, мы используем модель диффузии, обусловленную шагом диффузии k и характеристикой пространственно-временного контекста f_ST, чтобы последовательно реконструировать hˆ_{k−1} из hˆ_k. Процесс выглядит следующим образом:

В этой статье представлена ​​DiffPose, новая структура, основанная на диффузии, предназначенная для решения проблем неопределенности и неопределенности при монокулярной трехмерной оценке позы. DiffPose начинает с инициализации неопределенного трехмерного распределения поз, а затем итеративно уменьшает неопределенность в этом распределении, чтобы получить надежное и высококачественное трехмерное распределение поз человека для точной оценки позы. Благодаря обширным экспериментам DiffPose продемонстрировал современную производительность на двух часто используемых эталонных наборах данных.

В этой статье я кратко излагаю свою точку зрения на бумагу. Я надеюсь, что вы сможете узнать больше об этом после прочтения. Я также предлагаю ссылку на видео о статье, надеюсь, вам понравится!!!!

Если вам понравилась статья, пожалуйста, дайте мне немного 👏, поделитесь статьей и следуйте за мной, чтобы узнать больше о мире мультиагентного обучения с подкреплением. Вы также можете связаться со мной в LinkedIn, Instagram, Facebookи Github.