Создание обучающих данных для классификации текста в Google Cloud Vertex AI

В следующих постах я сделаю несколько глубоких погружений в Google Vertex AI. Этот пост посвящен инженерии данных и использованию ориентированного на данные подхода к ИИ. Наборы данных — это первый шаг в рабочем процессе Vertex AI.

В предыдущем посте о Vertex AI я дал обзор Vertex AI в контексте LLM и Generative AI. В этом посте я рассматриваю практические аспекты использования данных инженерного обучения.

ИИ, ориентированный на данные, — это дисциплина систематического проектирования данных, используемых для создания системы ИИ.

~ ДЦАИ

Ориентированный на данные подход к обучению данных для ИИ и, в данном случае, к классификации текста, требует непрерывного жизненного цикла, как показано на изображении ниже.

Начиная с возможности исследовать данные обучения через скрытое пространство. Скрытое пространство можно описать как среду, в которой данные сжаты таким образом, что из данных появляются шаблоны, кластеры и другие идеи.

После исследования требуется процесс человека в цикле со слабым контролем для определения классов и применения меток этих классов к данным.

Большая уязвимость и текущая пустота в Vertex AI — это процесс Data Centric AI. Данные, представляемые Vertex AI, должны быть уже спроектированы и структурированы для обучения.

Требования к форматированию Vertex AI для файлов данных JSON и CSV очень сложны и требуют усилий для их создания. Как показано в формате JSON ниже:

{"textGcsUri":"gs://cloud-ai-platform-cbb21882-3e0b-4f11-88b9-21bd2fb3a35e/dataset-3591873590502359040/preprocessed_example/4214918245292965888/75173735366921/text.txt",
"languageCode":"",
"classificationAnnotation":{"displayName":"achievement",
"annotationResourceLabels":{"aiplatform.googleapis.com/annotation_set_name":"2418892595758366720"}},"dataItemResourceLabels":{}}

С путем, указывающим на текст ниже, который помечен как: achievement

My eldest son who is 27 just got word he has a new job after finishing his bachelors degree. This made me very happy!

Приведенная выше часть JSON предназначена только для одной помеченной записи, ниже представлен текстовый файл, содержащий тысячи записей.

Данные отформатированы таким образом, что они тесно интегрированы со структурой корзины данных Google Cloud, что усложняет процесс.

Vertex AI — это студийная среда без кода для создания, развертывания и масштабирования моделей машинного обучения (ML). Инструменты управляемого машинного обучения доступны для множества вариантов использования.

~ Облачная вершина Google

Как показано ниже, после импорта данных текст отображается с каждой меткой, назначенной тексту. Доступны базовые функции, такие как фильтрация, поиск и редактирование данных обучения.

Что мне показалось любопытным, так это тот факт, что через Vertex AI можно попросить людей добавлять метки к данным.

Согласно Google, задачи маркировки данных Vertex AI позволяют вам работать с специалистами по маркировке для создания высокоточных меток для вашей коллекции данных.

Цены на услугу рассчитываются исходя из типа задачи по маркировке.

Для задачи классификации текста единицы определяются длиной текста (каждые 50 слов — это единица цены) и количеством людей, которые навешивают ярлыки.

Например, один фрагмент текста со 100 словами и 3 людьми, написавшими ярлыки, считается за 100/50 * 3 = 6 единиц. Цена на одно- и многоуровневую классификацию одинакова.

В заключение

Отличительной чертой так называемых традиционных NLU Engines является простота ввода данных. Это определенно не относится к Vertex AI.

Функциональность для непрерывного процесса исследования данных, курирования, структурирования (проектирования) данных и приема не определена или не включена.

Отправка данных независимым специалистам по этикетированию кажется нелогичной, и я бы предпочел автоматизированный процесс под наблюдением человека.

Мультимодальный характер Vertex AI служит хорошим предзнаменованием для будущих базовых моделей с включением текста, табличных данных, изображений и видео.