Генерация изображений с использованием ИИ включает в себя использование алгоритмов и моделей глубокого обучения для создания реалистичных и новых изображений с нуля или на основе заданных входных данных.
Вот некоторые из моделей создания изображений:
- Вариационные автоэнкодеры (VAE)
- Генеративно-состязательные модели (GAN)
- Модели авторегрессии
- Диффузионные модели — Самые популярные на данный момент.
Давайте углубимся в эти модели :
Вариационные автоэнкодеры (VAE)
VAE — это тип генеративных моделей в глубоком обучении, которые могут научиться кодировать и декодировать данные, позволяя создавать новые и реалистичные данные.
Поток данных :
- Кодирование — Входные данные передаются через нейронную сеть кодировщика, которая учится сопоставлять данные с более низким измерением, известным как скрытое пространство.
Здесь скрытое пространство захватывает основные функции входных данных.
- Выборка — В скрытом пространстве производится выборка случайных векторов для создания новых точек данных.
- Декодер — Выборочные векторы из скрытого пространства передаются в нейронную сеть декодера, которая реконструирует исходные данные.
Здесь целью декодера является минимизация ошибки восстановления.
Генеративно-состязательная сеть (GAN)
Идея генеративно-состязательной сети (GAN) состоит в том, чтобы заставить две нейронные сети конкурировать друг с другом.
- Один будет генерировать изображения, аналогичные обучающим данным.
- Другой будет классифицировать сгенерированные и обучающие изображения.
Следовательно, создание реалистичного изображения.
Рабочий процесс :
Здесь :
- Дискриминатор используется для классификации сгенерированного и реального изображения.
- Потеря дискриминатора — это передача данных, когда он не может классифицировать, какие из них настоящие, а какие сгенерированы.
- Генеративная потеря — это когда дискриминатор смог классифицировать, что реально, а что сгенерировано.
Авторегрессионные модели :
Авторегрессионная модель генерирует изображения из случайных шумов или скрытых векторов в вариационных автоэнкодерах (VAN).
- Они генерируют изображения, рассматривая изображение как последовательность пикселей.
Диффузионные модели :
Диффузионная модель — это вероятностная генеративная модель, которая использует введение шума и обучаемые преобразования для создания реалистичных изображений из случайных векторов шума.
- Мы добавляем шум, а затем удаляем шум с помощью вероятностных моделей шумоподавления (DDPM).
Работающий :
Добавление шума к изображению выполняется путем повторения процесса добавления шумов :
Тот же процесс итерации применяется для шумоподавления изображения :
Варианты использования диффузионной модели :
Модель распространения основана на двух случаях :
- Безусловная генерация — Генерация изображения без какого-либо внешнего ввода или данных, а скорее с использованием самой модели. Например : синтез человеческого лица, сверхвысокое разрешение.
- Условная генерация — Генерация изображения с использованием внешнего ввода или данных. Например : преобразование текста в изображение, вставка изображения, преобразование изображения в изображение с помощью текста.
Модели диффузии вдохновлены физикой, в частности термодинамикой.
Вопросы и ответы :
1) Каковы некоторые проблемы моделей распространения?
Ответ)
- Они могут генерировать изображения, которые не являются реалистичными.
- Их обучение может быть дорогостоящим в вычислительном отношении.
- Их может быть трудно контролировать.
2) В каком процессе модель учится удалять шум с изображений?
Ответ) обратная диффузия
3) Какова цель моделей распространения?
Ответ) Чтобы изучить скрытую структуру набора данных, моделируя способ распространения точек данных в скрытом пространстве.
4) Как называется семейство моделей, вдохновленное физикой и термодинамикой ?
Ответ) Модели диффузии
5) Что такое процесс прямой диффузии ?
Ответ) Начните с чистого изображения и постепенно добавляйте шум.
Тадаа!! Вот и все, ребята, это введение в некоторые методы генерации изображений, которые вы уже поняли. Всего наилучшего для дальнейшего обучения, спасибо ^^