Composable Diffusion — новая модель генеративного ИИ в городе

Создавайте что угодно, используя несколько типов данных за один раз с CoDi

Вы когда-нибудь представляли себе мир, в котором ИИ мог бы понимать и генерировать не один, а несколько типов данных одновременно, например текст, изображения и даже звук? Добро пожаловать в новую эру ИИ!

Поворотный момент в генеративном ИИ

Недавно мы стали свидетелями захватывающих достижений, таких как новаторская технология генеративного ИИ от Nvidia, которая позволяет вам общаться с персонажами видеоигр своим собственным голосом.

Генеративный ИИ оживляет виртуальных персонажей с помощью NVIDIA ACE для игр | Технический блог NVIDIA
Технологии генеративного искусственного интеллекта революционизируют способы разработки, производства и игры в игры. Разработчики игр…developer.nvidia.com

И если этого было недостаточно, конечная точка анимации Stability AI теперь позволяет художникам создавать анимацию из текстовых подсказок.

Stability AI выпускает Stable Animation SDK, мощный инструмент преобразования текста в анимацию для разработчиков…
Stability AI выпускает Stable Animation SDK, мощный инструмент, который позволяет художникам и разработчикам создавать потрясающие…stability.ai

Несомненно, мультимодальные модели сейчас в моде. Они открывают невообразимые новые возможности, интегрируя несколько типов данных в качестве входных данных и генерируя интересные ответы.

Представляем компонуемую диффузию

Сегодня мы делаем еще один шаг вперед. Я очень рад представить вам инновацию в области искусственного интеллекта, которая кардинально меняет наш взгляд на генеративные модели: генерация Any-to-Any с помощью Composable Diffusion или просто CoDi.

CoDi не похож ни на что, что мы видели раньше. Он способен генерировать любую комбинацию модальностей вывода — например, язык, изображение, видео, аудио — на основе любой комбинации модальностей ввода.

Представьте себе это: вы загружаете видеоклип и какой-то текст, а CoDi выдает аудиофайл и изображение. Да как же это круто!

Архитектура модели

Так как же работает CoDi? Все это заключается в его инновационной стратегии компонуемой генерации. Секретный соус — это общее мультимодальное пространство, которое CoDi создает, выравнивая входное и выходное пространства в процессе распространения. Эта синхронизация позволяет генерировать переплетенные модальности, такие как видео и сопровождающий звук, которые выровнены по времени.

CoDi даже не нужны обучающие наборы данных для многих комбинаций модальностей. Он выравнивает модальности как во входном, так и в выходном пространстве, позволяя обусловливать любую входную комбинацию и генерировать любую группу модальностей.

Проще говоря, CoDi может создать что-то совершенно новое, даже если он никогда не видел такой комбинации во время обучения.

Совместная генерация с несколькими выходами

Модель может обрабатывать одну или несколько подсказок, таких как видео, изображение, текст или звук, и создавать соответствующие выходные данные, такие как видео с соответствующим звуком.

Множественное кондиционирование

Модель предназначена для получения различных типов входных данных, будь то видео, изображения, текст или аудио, а затем создания соответствующих выходных данных.

Генерация от одного к одному

Модель получает один вход — будь то видео, изображение, текст или аудио — и создает соответствующий один выход.

Все приведенные выше примеры взяты с официального демонстрационного сайта CoDi. Дополнительные примеры см. на веб-сайте.

В приведенных выше примерах CoDi принимает один или несколько запросов — будь то видео, изображение, текст или аудио — для создания нескольких выровненных выходных данных, таких как видео со звуком. Этот подвиг — это то, о чем унимодальные модели не могут мечтать.

Новые начинания

CoDi открывает мир возможностей — от помощи художникам в создании потрясающих визуализаций до предоставления разработчикам возможности создавать захватывающие игровые возможности. Он не только соответствует одномодальным моделям, но даже превосходит их в одномодальном синтезе. А его настраиваемая и гибкая природа делает его идеально подходящим для бесчисленных приложений.

CoDi — это лишь верхушка айсберга, представляющая будущее ИИ, где ограничения отодвигаются в сторону, а творчество не знает границ. Поскольку мы продолжаем исследовать невероятный мир мультимодального ИИ, нам не терпится увидеть, что будет дальше на горизонте.

Примечание. Информация в этой статье основана на исследовательской статье «Генерация Any-to-Any с помощью Composable Diffusion». Если вам интересно углубиться в технические детали, ознакомьтесь с полным документом.

Генерация Any-to-Any с помощью Composable Diffusion
Мы представляем Composable Diffusion (CoDi), новую генеративную модель, способную генерировать любую комбинацию выходных данных…arxiv. орг

Хотите продолжать читать новости о технологиях и искусственном интеллекте на Medium? Вы можете подписаться на Премиум-аккаунт по этой ссылке, чтобы поддержать мою работу, я ценю это 🙏

Присоединяйтесь к Medium по моей реферальной ссылке — Максим Хегеман
Прочитайте все статьи Максима Хегемана (и тысяч других авторов на Medium). Ваш членский взнос напрямую поддерживает…medium.com

Более свежие истории о разработках в области ИИ

Airflow 2.6: новая веха в обработке данных
Изучение новейших функций Apache Airflow и их возможностей для улучшения вашего рабочего процессаartificialcorner.com

Обучите своего бота ChatGPT в Google Cloud — Google I/O ’23
Что нового? Базовые модели, встраивания и инструменты настройки в Vertex AIartificialcorner.com

Новые функции ChatGPT: шаг к конфиденциальности данных?
Понимание политики хранения и мониторинга данных OpenAIartificialcorner.com