Изучение интерпретируемого факторизованного представления уже давно используется в машинном обучении. Но с недавним развитием глубоких генеративных моделей, таких как вариационный автоэнкодер (VAE), произошел взрыв интереса к изучению такого распутанного представления. Поскольку цель любой генеративной модели состоит в том, чтобы зафиксировать основные факторы генерации данных, распутанное представление будет означать, что одна скрытая единица чувствительна к вариациям в отдельных генеративных факторах.

Поскольку ванильный VAE побуждает апостериорное распределение по генеративным факторам q (z | x) быть ближе к изотропному гауссовскому N (0, I), он способствует распутыванию латентные генеративные факторы. Это связано с тем фактом, что ковариация ∑ изотропного гауссовского уравнения равна единичной матрице I, что означает, что все измерения независимы. В ELBO этому способствует второй срок:

Однако давления обучения, необходимого для эффективного распутывания, может быть недостаточно, поскольку в VAE мы также хотим правильно автоматически кодировать (или восстанавливать) наши входные сигналы, и потеря восстановления (первый член) может быть слишком сильной по сравнению со вторым членом. Вдохновленный этим, [β-VAE] создал более сильное ограничение на скрытое узкое место с помощью веса β ›1, присвоенного второму члену. Таким образом, их целевая функция выглядит так:

В результате повышенного значения второго члена точность реконструкции стала ухудшаться. Это породило важный исследовательский вопрос для многих исследователей: как добиться лучшего распутывания без потери способности к реконструкции? Путь к поиску этого ответа во многом помогла [хирургия ELBO] , где второй член разложился как:

Здесь первый член - это взаимная информация индекса-кода (MI), а второй член - это маргинальный KL для предшествующего. Это разложение дало представление о том, что на самом деле именно второй член более важен для изучения распутанного представления, и наказание MI (больше, чем обычный ELBO) может быть причиной плохой реконструкции. Кроме того, [InfoGAN] (не модель, основанная на VAE) максимизировала тот же MI для достижения лучшего распутывания.

Исходя из этого, эта статья [ссылка] добавила (-1) λ взвешенных KL (q (z) || p (z)) к обычному ELBO. Однако, поскольку KL (q (z) || p (z)) уже существует в ELBO, они фактически минимизируют (λ + 1) взвешенный KL (q (z) || p (z)), чтобы способствовать распутыванию. Обратите внимание, что [adversarialAE] также минимизирует этот KL (не KL (q (z | x) || p (z))), используя состязательные потери.

Если заглянуть глубже, [TC-βVAE] далее разбивает этот предельный KL на общую корреляцию (TC) (первый член) и размерный KL (второй член):

Используя это разложение, они утверждают, что TC (Watanabe 1960), популярная мера зависимости для нескольких случайных величин, является наиболее важным термином для изучения распутанного представления и, следовательно, наказывает TC некоторым весом β, поэтому их общая цель выглядит так:

Одновременно в статье [dFactorising] также признается важность TC для распутывания и этот термин в ELBO был дополнен некоторым (- λ) весом. Опять же, поскольку TC уже существует в ELBO, они фактически минимизируют (λ + 1) взвешенный TC, чтобы способствовать распутыванию.

Однако основная проблема заключается в оценке q (z) (агрегированное апостериорное распределение), которое зависит от всего набора данных (а не только от мини-пакета). Это привело к тому, что во всех этих работах использовался другой подход при оценке q (z) или любых связанных с ним терминов. В качестве примера [dFactorising] использовала уловку соотношения плотности с отдельным дискриминатором.

В целом, я считаю, что в ближайшем будущем распутывание с VAE станет еще интереснее. (Обновление) В связи с этим в [IBP-VAE] мы утверждали, что способность некоторых из этих обсуждаемых методов распутывать связи снижается по мере увеличения сложности генеративных факторов, и предположили, что VAE с непараметрической моделью латентных факторов (IBP -VAE), скрытая плотность может расти со сложностью данных, демонстрируя улучшенное распутывание.