В течение многих лет исследователи и клиницисты мечтали о системе, которая могла бы поглощать большие объемы медицинских изображений и медицинских отчетов и просто выдавать полезную информацию, которая могла бы направить врачей и пациентов на диагностику и процедуру назначения.

Эта мечта так и не сбылась.

Что ж, чтобы уточнить, эта мечта отчасти сбылась, поскольку системы с искусственным интеллектом почти доминировали в мире исследований по анализу медицинских изображений, а производительность SOTA в задачах сегментации по таким показателям, как среднее значение Dice и mIoU, превысила 90% на многих общедоступных данных. наборы данных.

Но вещей по-прежнему нет. Такие задачи, как сегментация, классификация, обнаружение, улучшение, относятся к области изображений. Еще очень далеко до воплощения мечты о том, что система может быть «интеллектом» — которая ведет себя как настоящий эксперт и может переваривать изображения, а также отчеты и напрямую ставить диагноз.

Или еще рано об этом говорить?

Компания Google только что выпустила новую статью ELIXR: На пути к системе искусственного интеллекта для рентгеновских лучей общего назначения путем согласования больших языковых моделей и кодировщиков радиологического зрения, которая, как мы надеемся, прольет новый свет на эту игру. Модель ELIXR построена на основе двух хорошо известных мультимодальных архитектур: CLIP и BLIP-2. Первый служит кодировщиком, который сжимает изображения во вложения более низкого измерения, одновременно сжимая ассоциированные отчеты. BLIP-2 выполняет более тонкую работу — используя внимание для дальнейшего выравнивания вложений изображений и текста, а также используя MLP для проецирования выровненных вложений в домен LLM для целей создания отчетов.

Давайте подробнее рассмотрим следующие несколько разделов. Сначала мы объясним основы CLIP и BLIP-2, прежде чем погрузиться в модель ELIXR.

Что такое КЛИП?

CLIP — это революционная модель, выпущенная OpenAI в 2021 году, которая учится совместно в пространстве встраивания изображения и в пространстве встраивания текста.

Идея очень проста — два изображения собаки должны быть ближе в пространстве встраивания, чем два изображения собаки и кошки.

Для реализации этой идеи модель CLIP использует два отдельных кодировщика для ввода изображения и текста (например, ViT/ResNet для изображения, Transformer для текста). Затем вычислите косинусное сходство между закодированными функциями.

Для дальнейшего понимания процедур я рекомендую этот репозиторий Github для подробного пошагового внедрения PyTorch.

Бумага BLIP-2 была впервые выпущена в начале 2023 года и направлена ​​на дальнейшее преодоление разрыва в модальностях между кодировщиком замороженных изображений и замороженным LLM.

Ядром BLIP-2 является Q-Former. Q-Former по своей сути является двойным преобразователем с двунаправленной мультимодальной маскировкой внимания.

Итак, теперь давайте поговорим о статье ELIXR. Модель состоит из двух частей: а) ELIXR-C, использующая CLIP для контрастного обучения; b) ELIXR-B, который использует BLIP-2 для привязки визуальной модели к основному мыслительному агенту».

Для ELIXR-C в качестве кодировщика изображений используется собственная модель SupCon, предварительно обученная на рентгеновских изображениях грудной клетки, а в качестве кодировщика текста — T5.

Для ELIXR-B он использует замороженный ELIXR-C в качестве кодировщика изображений и замороженный PaLM2–5 LLM (также от Google) в качестве текстового кодировщика.

На данный момент мы можем понять, почему BLIP-2 необходим — он устраняет разрыв между кодировщиком изображений (который является специфичным для предметной области для рентгеновских изображений грудной клетки) и LLM общего назначения с минимальными усилиями по переносу и обучению.

Какова производительность ELIXR? Согласно документу, «ELIXR демонстрирует современную производительность классификации с нулевым выстрелом, сравнимую с полностью контролируемыми классификаторами SupCon, обученными на 224 000 примерах». В определенных группах запросов ELIXR-B превосходит SOTA MedCLIP по точности на 45%. Хотя для VQA и обеспечения качества результаты все еще выглядят тревожными.

Однако эта статья проливает новый свет. Поскольку LLM играет все более и более важную роль в повседневной жизни, мы не можем не задаться вопросом, сможет ли он восполнить пробел и в текущей клинической процедуре? Какую пользу мы получим от обучения LLM вместе с медицинскими снимками. Можно ли отделить обучение LLM от обучения представлению изображений? Научится ли в будущем система ИИ интерпретировать медицинский отчет так, как это делает человек-эксперт?

День до этого будущего, вероятно, еще очень далек. Но да, эпоха будет.