Синтетические данные: дубль 2

За последние шесть месяцев генеративный искусственный интеллект и его потенциал привели всех нас в безумие.

Мы спросили себя, что эта новая реальность и технологические возможности, которые со временем будут становиться все лучше и лучше, означают для отраслей? Каково нынешнее состояние этой технологии, для каких приложений она сегодня лучше всего подходит и где могут проявиться ее недостатки в конфиденциальности, безопасности и точности? Как этот сдвиг парадигмы повлияет не только на бизнес, но и на реальных людей и их работу, а также на то, чем они занимаются каждый день?

Мы также спросили себя, может ли это быть причудой и следует ли нам действовать осторожно. Я утверждал, что ИИ прошел через несколько итеративных эволюций и «циклов ажиотажа» — термин, который, как мне с тех пор сообщили многие в сообществе GenAI, характеризует неверующего в ИИ (а я, уверяю вас, не таков).

Тем не менее, нас в Speciale Invest интересовали последствия второго порядка генеративного ИИ. Один из наиболее важных аспектов связан с данными.

В 2016–2017 годах компания Speciale Invest была основана с диссертацией по глубокой науке и технологиям и острым взглядом на фундаментальные технологические инновации. По срокам это совпало с последней волной искусственного интеллекта — особенно в области диалогового искусственного интеллекта и обработки естественного языка — и нам посчастливилось сотрудничать с настойчивыми основателями, строящими в этих пространствах сильные технологические рвы (глядя на вас, Wingman by Clari, Truelark и Панель).

Эти рвы были в основном основаны на запатентованных моделях машинного обучения. Сегодня основополагающие модели генеративного искусственного интеллекта в значительной степени превратили построение моделей в товар. Сегодня очень сложно запатентовать алгоритмы машинного обучения, многие из них сейчас находятся в открытом доступе.

Сегодня рвы и дифференциация в возможности использования фундаментальных моделей возникают из-за данных. Для этих моделей требуется много данных, но они также должны быть структурированы, помечены и аннотированы. Собственные данные, специфичные для отраслей и внутренние для предприятий, чрезвычайно полезны для очень конкретных случаев использования и рабочих процессов, имеющих отношение к этим предприятиям.

Исследуя данные как топливо, мы случайно наткнулись на синтетические данные.

Синтетические данные — это тип информации, которая создается искусственно или генерируется с помощью компьютерных программ или алгоритмов, а не собирается из реальных источников. Он предназначен для имитации или имитации реальных данных, но не представляет собой набор реальных наблюдений или измерений.

Около двух месяцев назад мы опубликовали наш взгляд на синтетические данные в блоге здесь. Мы глубоко углубились в то, что такое синтетические данные, проблемы, которые они могут решить, технологию, лежащую в их основе, и наш взгляд на этот рынок.

После публикации поста в блоге нам посчастливилось поговорить со многими людьми, занимающимися инфраструктурой данных: инженерами машинного обучения, учеными, работающими с данными, а также основателями, создающими, экспериментирующими или работающими с синтетическими данными. Мы благодарны за знания и опыт, которыми с нами поделились, и в этом блоге я хочу подвести итог некоторым из этих разговоров в качестве продолжения.

Генерация синтетических данных №1, особенно искусственное создание уже существующих реальных данных, является принципиально сложной проблемой.

Большая часть генерации синтетических данных сегодня осуществляется с помощью генеративного ИИ, точнее, генеративно-состязательных сетей, в отличие от дискриминативного ИИ.

Дискриминационный ИИ — это алгоритмы, предназначенные для различения категорий данных, их классификации или прогнозирования на их основе. Генеративный ИИ, однако, может «генерировать», казалось бы, новую информацию посредством тщательного обучения. Генеративный ИИ отлично подходит для творческих начинаний — например, для рекламы, продаж или маркетинга, а также для любого сценария, где искусственно созданный контент может целенаправленно помочь людям направить свой творческий потенциал и лучше провести мозговой штурм с помощью компьютерной системы. Это контексты, в которых синтетические данные не обязательно должны повторять какие-либо уже существующие реальные данные по своим структурным характеристикам.

Генерация синтетических данных становится сложной задачей, так как искусственно создается точная копия реальных данных. Позвольте мне провести мысленный эксперимент, пожалуйста.

Помните, что данные в строках и столбцах можно смоделировать как распределение, представленное в виде математической функции.
Представьте себе набор данных, состоящий из двух столбцов и нескольких строк информации. Обычно один из этих двух столбцов зависит от другого. А то, что можно отобразить, скажем, — это простую функцию от двух переменных x и y.
Пусть это будет представлено как нормальная кривая/распределение Гаусса, как показано ниже.

Это означает, что в наборе данных есть несколько пар (x, y), которые при отображении в двумерное пространство могут быть более или менее определены (в зависимости от наилучшего соответствия) кривой, показанной выше синим цветом.

Создание синтетических данных из вышеуказанного набора данных означает искусственное создание набора данных, который удовлетворяет следующим двум условиям:

#1 Ни одна пара (x, y) искусственно созданного набора данных не должна совпадать с исходным набором данных.

#2 Общая кривая наилучшего соответствия искусственно созданного набора данных должна быть такой же (или как можно ближе к ней), что и кривая исходного набора данных.

Это означает, что генерация синтетических данных — это попытка множественных итераций этих искусственно созданных кривых — которые можно визуализировать, грубо говоря, — как показано ниже.

Теперь помните, что это генеративный ИИ, а не дискриминирующий ИИ, и что никто не может догадаться, какими окажутся эти несколько сгенерированных кривых, какова может быть их область пересечения с кривой исходного набора данных, где искусственно сгенерированная кривая и исходная кривая. кривая может выйти за пределы приемлемого порога, важного для рассматриваемой бизнес-задачи, и так далее.
Подводя итог, можно сказать, что вероятность того, что сгенерированная кривая будет похожей, но не такой же, как исходная кривая, ужасно мала. И это был только пример с двумя столбцами и функцией с двумя переменными. Представьте себе сложность набора данных из сотен столбцов, в котором существуют многомерные зависимости, и большинство или все из них необходимо отразить в синтетических данных. Подумайте также о других видах данных, таких как видео и изображения, математическое представление которых должно соответствовать представлениям их синтетических аналогов.
Другими словами, создать синтетический набор данных на основе реального набора данных сложно.

Еще одна важная вещь, которую следует учитывать, — это проблемы второго или третьего порядка с синтетическими данными.

Для табличных данных существуют совокупные показатели первого порядка, такие как среднее значение, медиана и мода, которые характеризуют данные. Помните, что среднее значение — это среднее значение набора чисел, режим наиболее встречающегося числа в наборе данных и медиана среднего числа, когда вы упорядочиваете набор данных от наименьшего к наибольшему.
Сочетание некоторых из этих показателей первого порядка может привести к созданию совокупных показателей второго порядка, таких как дисперсия, стандартное отклонение и корреляция. Дисперсия — это количественная мера разброса значений данных вокруг среднего значения, например, метрики первого порядка. Стандартное отклонение также зависит от среднего значения.
Комбинация некоторых из этих совокупных показателей второго порядка образует совокупные показатели третьего порядка и так далее до тех пор, пока не появятся совокупные показатели n-го порядка.
Разным типам приложений для сопоставления требуются разные порядки совокупных показателей между исходным набором данных и синтетическим набором данных, причем в пределах погрешности. Это трудно гарантировать, особенно учитывая, что генеративный ИИ не обеспечивает объяснимости или контроля, что значительно усложняет использование синтетически сгенерированных данных.

Кроме того, подумайте об использовании этих синтетических данных без каких-либо объяснений, гарантий или контроля для обучения еще одного черного ящика — ваших моделей машинного обучения — и в результате получится хаос.

Это подводит меня к другой проблеме, связанной с сегодняшними синтетическими данными.

#Компании пока не полностью доверяют синтетическим данным

Рискуя обобщить, в моих разговорах с инженерами ML возникла общая мысль: генерация синтетических данных была последней, к которой они прибегали, чтобы улучшить свои модели машинного обучения — только после того, как попробовали все: от обучения с учителем, обучения без учителя и более точной настройки. , лучшее качество входных данных с точки зрения маркировки и аннотирования, больший объем входных данных и т. д.

И когда они экспериментировали с синтетическими данными, точность их моделей машинного обучения внезапно существенно не возросла, и фактически стало труднее выявлять ложноположительные/отрицательные результаты в их моделях.

Возможно, это можно объяснить тем фактом, что большинство исследований в этой области все еще находятся в зачаточном состоянии и им предстоит пройти долгий путь. Но, тем не менее, сегодня это означает, что, хотя проблема, которую могут решить синтетические данные, реальна, предприятия необходимо убедить экспериментировать с ними, не говоря уже о том, чтобы использовать их в производстве.

Основатели, работающие в этой области, тоже осознают это мнение и работают над этим множеством различных изобретательных способов — с помощью платформ синтетической генерации данных с низким кодом или без него, с использованием статистических механизмов, основанных на правилах (которые более объяснимы, чем к генеративному искусственному интеллекту) для генерации синтетических данных, ориентируясь на варианты использования совместного использования данных, а не на обучение модели машинного обучения и т. д.

Конечно, нюанс здесь, как и многое в жизни, в том, что «все зависит» — от отрасли, конкретной постановки задачи и ее критичности, а также характера синтезируемых данных (текстовых, изображений, видео, табличных, временные ряды, трехмерные изображения и т. д.). Существуют некоторые очень крупные компании по производству синтетических данных, обслуживающие очень специфические отрасли, постановки задач и типы данных. Если у вас есть какие-либо идеи, которыми вы можете поделиться здесь, пожалуйста, свяжитесь с нами. Мы будем благодарны за ваше обучение.

_________________________________________________________________

Рынок синтетических данных стремительно развивается. Это реальная, острая и масштабная проблема для многих отраслей, и она будет только расти. Большинство компаний в этой сфере еще находятся на ранней стадии развития, что указывает на потенциальные возможности в этой сфере в ближайшие годы.

В сочетании со всеми проблемами, с которыми сегодня сталкиваются предприятия в этой сфере, мы считаем, что это отличное поле для технологических инноваций, которые могут проникнуть и разрушить рынок.

В Speciale Invest мы верим в поддержку инженерно-технических инноваций, которые могут решить глобальные и насущные проблемы.

Мы делаем одно — инвестирование на посевной стадии. Мы наслаждаемся и преуспеваем в риске, который связан с поддержкой стартапов, ориентированных на глубокую науку и технологии, с самых ранних стадий. Нам нравится участвовать в путешествии основателей от нуля к одному, помогать с наймом команды, достижением соответствия продукта рынку, появлением первых клиентов и масштабированием.

Если вы работаете в сфере инфраструктуры данных, пожалуйста, свяжитесь с нами. Мы хотели бы услышать ваше мнение, узнать на вашем опыте о том, что работает на рынке, и помочь вам всем, чем можем. Пожалуйста, напишите нам по адресу [email protected] или [email protected].

Синтетические данные: дубль 2

Вопросы по теме