В 2014 году Ян Гудфеллоу навсегда изменил мир ИИ, опубликовав Генеративно-состязательные сети. Эти сети были концептуально довольно просты. GAN состоит из двух разных нейронных сетей. Одна сеть обучена генерировать изображения, а другая пытается различить, какие изображения сгенерированы, а какие настоящие. По мере обучения обеих сетей они постепенно улучшают свою работу. В конце концов, вы получите генератор, способный создавать изображения, почти неотличимые от реальности.

Хотя с 2014 года область создания изображений резко возросла, GAN в значительной степени отошли на второй план в глазах общественности. В настоящее время самые популярные формы генерации изображений принимают входные данные в виде текста и выдают изображение. Для среднего человека способность создать изображение астронавта, едущего на лошади, производит гораздо большее впечатление, чем возможность создать гиперреалистичное лицо. Современные модели преобразования текста в изображение, основанные на диффузионной архитектуре, обеспечивают большую свободу выбора и более широкий набор выходных данных, чем GAN. Несмотря на это, гиперспецифичность GAN может быть их самым большим преимуществом.

В наши дни модели обнаружения изображений, такие как CNN (сверточные нейронные сети), значительно улучшили способность обычного человека классифицировать наборы изображений. Если раньше для того, чтобы найти разницу между злокачественной и доброкачественной опухолью, могли потребоваться годы обучения в медицинской школе, то сегодня все, что вам нужно, — это набор данных и достаточное понимание того, как обучать нейронную сеть. Даже этот последний опыт можно значительно упростить с помощью сервисов, которые позаботятся о «сложных вещах» за вас. Основная проблема с обучением CNN заключается в том, что для правильного обучения им требуется набор данных приличного размера. Эта проблема становится весьма заметной при обучении CNN для классификации изображений, когда обучающих примеров не так много. Вы можете столкнуться с этой проблемой при обучении классификатора чрезвычайно редкого заболевания, так как у вас будет слишком мало данных. Обычные методы увеличения данных могут привести нас только к тому, что в конечном итоге нам может понадобиться ждать появления новых случаев заболевания. По мере того, как общество начинает полагаться на ИИ для задач классификации, мы будем чаще сталкиваться с подобными проблемами. Когда мы это сделаем, мы сможем начать полагаться на GAN как на синтетическое решение.

В 2018 году Мааян Фрид-Адар и ее команда опубликовали расширение синтетических медицинских изображений на основе GAN для повышения эффективности CNN при классификации поражений печени. В этом документе были освещены такие вопросы, как ценные медицинские ресурсы, которые необходимо использовать для создания полезных наборов данных. Авторы решили исправить это, используя GAN для более эффективного генерирования данных. В центре внимания этого исследования были поражения печени, особенно кисты, метастазы и гемангиомы. В существенном отходе от Генеративно-состязательных сетей исследовательская группа использовала CNN в качестве дискриминатора и генератора, а не MLP (многослойный персептрон) на основе статьи Неконтролируемое репрезентативное обучение с помощью глубоких сверточных генеративно-состязательных сетей.

После того, как изображения были сгенерированы, исследователям нужно было оценить их качество. Для этого они сначала протестировали свой синтетический набор данных на более традиционном наборе данных, обучив CNN на обоих наборах. Они обнаружили, что для всех трех классов CNN, обученная на синтетических данных, смогла превзойти CNN, обученную на традиционных данных. Это показало, насколько эффективными могут быть синтетические данные для создания наборов данных, но чтобы сделать еще один шаг вперед, они собрали команду из двух профессионалов отрасли и попросили их решить, является ли каждый фрагмент данных сгенерированным или реальным. Они обнаружили, что только в 60% случаев два специалиста могли прийти к согласию относительно правильного ответа. Это означает, что в оставшихся 40% случаев один или оба специалиста не смогли правильно провести различие. Следует отметить, что по существу заполнение дискриминатора в GAN далеко от обычных обязанностей обоих субъектов, но все же показывает, насколько эффективными могут быть методы, описанные в этой статье, для увеличения набора данных.

GAN изначально ограничены в диапазоне изображений, которые они способны создавать, но это происходит за счет генератора с высоким «пониманием» своих классов изображений, что приводит к более высокому качеству выходных данных. Способность производить обучающие данные по желанию может стать благом для будущих обществ, но мы должны помнить об ошибках нашего прошлого. Было показано, что алгоритмы машинного обучения увековечивают расизм при неправильном обучении. Точно так же GAN может производить только то, что он способен видеть. Те, кто использует эти GAN, должны убедиться, что их результаты доступны для всех членов общества, особенно применительно к области медицины. Это лишь одна из многих проблем, которые естественным образом возникают, когда машинное обучение начинает применяться в новой области. Несмотря на это, при должном надзоре GAN кардинально изменят мир сбора данных.

Источники: