Распутывание I-JEPA: самоконтролируемое изучение особенностей изображения

Сфера искусственного интеллекта стремительно развивается, постоянно раздвигая границы и внедряя инновации, которые переопределяют наше понимание машинного обучения. Одним из таких прорывов является алгоритм прогнозирования инвариантной совместной энтропии (I-JEPA), который предлагает беспрецедентный потенциал для преобразования ландшафта самоконтролируемого обучения в функции изображений.

Создание I-JEPA: основная концепция и ее эволюция

Концептуальный генезис I-JEPA лежит в области теории информации. Теория информации — это математическая основа, используемая для количественной оценки информации и управления ею. Взаимная информация, критическое понятие в теории информации, измеряет количество информации, которую можно получить об одной случайной величине, наблюдая за другой.

I-JEPA был разработан, чтобы свести к минимуму эту взаимную информацию между изученными функциями и так называемыми мешающими переменными, переменными, которые вносят «шум» или нерелевантную информацию в данные. С помощью этого метода алгоритм оптимизирует цель совместного прогнозирования, по сути, цель, которая позволяет алгоритму прогнозировать один фрагмент данных с учетом другого.

I-JEPA — это, по сути, метод обучения с самоконтролем. Это процесс, в котором алгоритм учится распознавать и предсказывать части изображения на основе других частей того же изображения. Что выделяет I-JEPA, так это то, что он сосредоточен на изучении семантических характеристик изображения, то есть он больше заинтересован в понимании «значения» или «контекста» изображения, чем в распознавании каждой мельчайшей детали. Делается это двумя основными способами:

Во-первых, в отличие от некоторых традиционных методов, I-JEPA не опирается на заранее установленные правила, основанные на ручном изменении данных. Эти правила часто могут быть ориентированы на конкретные задачи, например, использование рецепта, который подходит только для одного конкретного блюда. Не полагаясь на эти правила, I-JEPA может адаптироваться и учиться на различных типах изображений.
Во-вторых, I-JEPA не пытается заполнить каждую деталь изображения на уровне пикселей. Хотя может показаться, что более детальное изображение было бы лучше, слишком большое внимание к мелким деталям иногда может отвлекать от общей картины. Это похоже на то, как если бы вы так сильно сосредотачивались на мазках кисти, что упускали из виду картину в целом. Сосредоточив внимание на более широких и значимых аспектах изображения, I-JEPA может получить более ценные и полезные представления.

Создание и эволюция I-JEPA, подробно описанные в исследовательской статье и сообщении в блоге Meta AI research, иллюстрируют скачок к достижению улучшенного обнаружения признаков с меньшей зависимостью от больших помеченных наборов данных. Вот архитектура, используемая для I-JEPA:

Прогностическую архитектуру совместного встраивания на основе изображений (I-JEPA) можно сравнить с решением головоломки, используя только часть изображения в качестве руководства, называемого «контекстным блоком». Цель состоит в том, чтобы предсказать особенности других частей головоломки, «целевых блоков», на основе этого контекста. Он использует Vision Transformers (ViT) для понимания контекстного блока, а сфокусированный ViT или «предиктор» делает обоснованные предположения о целевых блоках на основе их относительного положения. Фактические характеристики целевых блоков со временем корректируются «целевым кодировщиком» для улучшения прогнозов. Важно отметить, что I-JEPA предсказывает функции высокого уровня, а не отдельные пиксели, тем самым фокусируясь на «более широкой картине». Процесс обучения включает в себя разделение изображения на контекстные и целевые блоки с целью минимизировать расстояние между прогнозируемыми и фактическими целевыми блоками с течением времени, тем самым повышая точность предиктора.

Расшифровка I-JEPA: что и как

Чтобы понять I-JEPA, давайте представим, что вы пытаетесь узнать друга в людном месте. Несмотря на то, что толпа представляет собой смесь множества разных людей, вы можете выбрать своего друга, потому что в вашем друге есть определенные черты или характеристики, которые не меняются независимо от окружения. I-JEPA работает по аналогичному принципу. Он учится распознавать определенные, неизменные черты изображений — так же, как вы узнаете характерную красную шляпу вашего друга или уникальный смех в толпе.

Что отличает I-JEPA, так это внимание к деталям. Представьте себя на шумной вечеринке, где все говорят одновременно, из-за чего вам трудно слушать историю вашего друга. Вы, естественно, сосредоточитесь на голосе своего друга и отключитесь от фонового шума. Точно так же I-JEPA имеет возможность «отсеивать» неважную информацию и фокусироваться на важных деталях, что позволяет ему работать более эффективно.

Уникальный аспект I-JEPA заключается в том, как он делает прогнозы относительно того, чего не видит. Представьте, что вы смотрите на частично скрытую картину и пытаетесь угадать, какой может быть полная картина. У вас нет всех деталей, но на основе того, что вы видите, вы делаете обоснованное предположение об остальном. В значительной степени это то, что делает I-JEPA — он использует «предиктор», чтобы делать обоснованные предположения о невидимых частях изображения.

Чтобы дать вам наглядное представление, предположим, что мы научили I-JEPA преобразовывать свои прогнозы обратно в изображения. Мы обнаружим, что он не просто воспроизводит то, что видит, как это сделал бы фотокопировальный аппарат. Вместо этого это больше похоже на художника, который улавливает суть сцены. Если он предсказывает собаку, он не просто рисует любую собаку — он фиксирует конкретное положение головы собаки или форму ног. Эта способность понимать и воспроизводить важные аспекты изображения делает I-JEPA действительно особенным.

Потенциальные варианты использования в бизнесе и предупреждение о лицензировании

I-JEPA — это не просто блестящая концепция; это универсальный инструмент, который можно применять в различных сферах. От задач распознавания изображений, которые помогают идентифицировать лица на фотографиях в социальных сетях, до действий по обнаружению объектов, которые помогают беспилотным автомобилям ориентироваться в пробках, I-JEPA может значительно улучшить обнаружение и классификацию признаков. Однако, несмотря на его огромный потенциал, он поставляется с некоммерческой лицензией, что означает, что его нельзя напрямую использовать в коммерческих целях. Однако лежащие в его основе концепции и методология могут быть использованы для поиска решений во множестве бизнес-сценариев.

Например, платформа электронной коммерции может улучшить свои возможности распознавания изображений для улучшения рекомендаций по продуктам, или учреждение здравоохранения может использовать свои принципы для более точного обнаружения аномалий в медицинских изображениях.

С точки зрения бизнеса внедрение I-JEPA может привести к существенной экономии средств. Устраняя потребность в больших размеченных наборах данных, компании могут значительно сократить свои расходы на сбор, хранение и маркировку данных.

Реализация Python

Реализация I-JEPA на Python с открытым исходным кодом, предоставленная Facebook Research, доступна через репозиторий GitHub, который можно найти здесь. Репозиторий предлагает подробное руководство по запуску предварительной подготовки I-JEPA.

После того, как вы клонируете репозиторий, устанавливаете необходимые зависимости и загружаете необходимые данные, вы можете запустить предварительную подготовку I-JEPA с помощью предоставленной команды. Однако важно отметить, что вам необходимо заменить заполнители $path_to_save_submitit_logs и $slurm_partition фактическими значениями, подходящими для вашего варианта использования.

Вот команда:

python main_distributed.py \
  --fname configs/in1k_vith14_ep300.yaml \
  --folder $path_to_save_submitit_logs \
  --partition $slurm_partition \
  --nodes 2 --tasks-per-node 8 \
  --time 1000

Подведение итогов: видение будущего с I-JEPA

Появление I-JEPA знаменует собой важную веху в развитии ИИ и машинного обучения. Благодаря своему потенциалу учиться на менее размеченных данных и повышать эффективность моделей машинного обучения, он готов открыть новые возможности в различных отраслях.

Поскольку мы отправляемся в постоянно развивающийся мир, ориентированный на данные, I-JEPA выступает как символ инноваций, сигнализируя о будущем, в котором ИИ будет не только мощным и точным, но и ресурсосберегающим. Поскольку мы стоим на этом захватывающем этапе, важно помнить, что, хотя I-JEPA представляет собой многообещающий путь, его использование связано с некоммерческим лицензионным ограничением, что подчеркивает баланс между технологическим прогрессом и этическими соображениями.

Примечание. Часть этой статьи была написана с использованием ChatGPT и редактирования вручную.

Об авторе
Рохит Винсент (Rohit Vincent) — специалист по данным в компании Version.