Генерация изображений с использованием ИИ включает в себя использование алгоритмов и моделей глубокого обучения для создания реалистичных и новых изображений с нуля или на основе заданных входных данных.

Вот некоторые из моделей создания изображений:

  • Вариационные автоэнкодеры (VAE)
  • Генеративно-состязательные модели (GAN)
  • Модели авторегрессии
  • Диффузионные модели — Самые популярные на данный момент.

Давайте углубимся в эти модели :

Вариационные автоэнкодеры (VAE)

VAE — это тип генеративных моделей в глубоком обучении, которые могут научиться кодировать и декодировать данные, позволяя создавать новые и реалистичные данные.

Поток данных :

  • Кодирование — Входные данные передаются через нейронную сеть кодировщика, которая учится сопоставлять данные с более низким измерением, известным как скрытое пространство.

Здесь скрытое пространство захватывает основные функции входных данных.

  • Выборка — В скрытом пространстве производится выборка случайных векторов для создания новых точек данных.
  • Декодер — Выборочные векторы из скрытого пространства передаются в нейронную сеть декодера, которая реконструирует исходные данные.

Здесь целью декодера является минимизация ошибки восстановления.

Генеративно-состязательная сеть (GAN)

Идея генеративно-состязательной сети (GAN) состоит в том, чтобы заставить две нейронные сети конкурировать друг с другом.

  • Один будет генерировать изображения, аналогичные обучающим данным.
  • Другой будет классифицировать сгенерированные и обучающие изображения.

Следовательно, создание реалистичного изображения.

Рабочий процесс :

Здесь :

  • Дискриминатор используется для классификации сгенерированного и реального изображения.
  • Потеря дискриминатора — это передача данных, когда он не может классифицировать, какие из них настоящие, а какие сгенерированы.
  • Генеративная потеря — это когда дискриминатор смог классифицировать, что реально, а что сгенерировано.

Авторегрессионные модели :

Авторегрессионная модель генерирует изображения из случайных шумов или скрытых векторов в вариационных автоэнкодерах (VAN).

  • Они генерируют изображения, рассматривая изображение как последовательность пикселей.

Диффузионные модели :

Диффузионная модель — это вероятностная генеративная модель, которая использует введение шума и обучаемые преобразования для создания реалистичных изображений из случайных векторов шума.

  • Мы добавляем шум, а затем удаляем шум с помощью вероятностных моделей шумоподавления (DDPM).

Работающий :

Добавление шума к изображению выполняется путем повторения процесса добавления шумов :

Тот же процесс итерации применяется для шумоподавления изображения :

Варианты использования диффузионной модели :

Модель распространения основана на двух случаях :

  • Безусловная генерация — Генерация изображения без какого-либо внешнего ввода или данных, а скорее с использованием самой модели. Например : синтез человеческого лица, сверхвысокое разрешение.

  • Условная генерация — Генерация изображения с использованием внешнего ввода или данных. Например : преобразование текста в изображение, вставка изображения, преобразование изображения в изображение с помощью текста.

Модели диффузии вдохновлены физикой, в частности термодинамикой.

Вопросы и ответы :

1) Каковы некоторые проблемы моделей распространения?

Ответ)

  • Они могут генерировать изображения, которые не являются реалистичными.
  • Их обучение может быть дорогостоящим в вычислительном отношении.
  • Их может быть трудно контролировать.

2) В каком процессе модель учится удалять шум с изображений?

Ответ) обратная диффузия

3) Какова цель моделей распространения?

Ответ) Чтобы изучить скрытую структуру набора данных, моделируя способ распространения точек данных в скрытом пространстве.

4) Как называется семейство моделей, вдохновленное физикой и термодинамикой ?

Ответ) Модели диффузии

5) Что такое процесс прямой диффузии ?

Ответ) Начните с чистого изображения и постепенно добавляйте шум.

Тадаа!! Вот и все, ребята, это введение в некоторые методы генерации изображений, которые вы уже поняли. Всего наилучшего для дальнейшего обучения, спасибо ^^