Начните работу или улучшите машинное обучение структурированных данных с помощью таблиц Google AutoML

Это первая часть из двух. Этот первый рассказ предоставит введение и предысторию проблем, которые Google пытается решить с помощью таблиц AutoML, а во второй части будут рассмотрены фактические этапы создания модели двоичной классификации.

Заявление об ограничении ответственности: все мнения в этих статьях принадлежат мне, и их не следует рассматривать как точку зрения моего нынешнего работодателя.

Часть 1. Введение, история вопроса и ценность

Часть 2. Демонстрация создания модели двоичной классификации с использованием таблиц Google AutoML (см. ссылку ниже)

Https://medium.com/@henrik.warfvinge/creating-a-binary-classification-model-using-google-automl-tables-36f58304ef59

Введение и предыстория

Машинное обучение и искусственный интеллект сегодня стоят на первом месте в повестке дня большинства организаций, обещая инновации, конкурентные преимущества и новые идеи. Многие организации были созданы, и многие последуют за ними. Вскоре будет немного приложений без машинного обучения, включенных в конечный продукт.

Когда вы слышите об искусственном интеллекте и машинном обучении, вы часто слышите о каком-то крутом проекте, связанном с видео, беспилотными автомобилями или чем-то еще, включая изображения. Google Deep Dream - один из таких примеров. Посмотрите проект ниже, и ваши фотографии станут искусством.

Http://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html

Но этот тип ИИ и машинного обучения - не самый распространенный тип и не тот тип, который окажет наибольшее влияние на большинство компаний. Вместо этого машинное обучение на структурированных данных - это то место, где можно найти большинство вариантов использования.

Приведенная выше диаграмма взята из McKinsey Global Institute и показывает, в каких областях типы данных, скорее всего, будут оказывать наибольшее влияние на ИИ.

Но что такое структурированные данные. Структурированные данные - это данные, которые мы обычно храним в табличной форме. Для личных и профессиональных случаев использования многие используют Google Таблицы или Excel, а углубляясь в профессиональные варианты использования, мы обнаруживаем использование различных баз данных и хранилищ данных.

Выше я предоставил вам структурированные данные, показывающие данные вымышленного онлайн-рынка. Каждая строка - это товар, который был продан и по какой цене. Что, если этот вымышленный рынок хотел бы предоставить услугу, в которой они могли бы предсказать, по какой цене будет продаваться определенный товар, просто взглянув на различные атрибуты (особенности) нового товара.

Это тот тип вариантов использования, который вы могли бы изучить при изучении машинного обучения для структурированных данных.

Процесс машинного обучения

Машинное обучение и искусственный интеллект - это процесс, который требует времени и включает в себя множество шагов для достижения результатов, которые стоит реализовать в приложении или в организации. Я обычно говорю о «шагах X аналитики данных и машинного обучения», имея в виду, что у вас почти никогда не будет определенного количества шагов, когда речь идет о различных вариантах использования машинного обучения. Каждый вариант использования индивидуален и может включать 3, 5 или даже 20 шагов для достижения соответствующих результатов.

Это также может быть очень сложно, и вам нужны люди, обладающие знаниями, чтобы кодировать и создавать модели машинного обучения для использования в каждом конкретном случае. В наши дни некоторые из этих моделей также настолько сложны, что даже специалисты по данным не могут быть уверены в том, как построить их оптимальным образом или, если уж на то пошло, найти, какие модели использовать, каким образом и почему.

Все это, конечно, отнимает очень много времени и, возможно, удерживает вашу организацию от предоставления тех новых функций приложения, которые ищут ваши пользователи.

Один автоматический путь вперед

В Google Cloud мы хотим помочь вам справиться с этими проблемами и упростить использование передовых высококачественных моделей машинного обучения, оптимизированных для структурированных данных. AutoML Tables - это услуга контролируемого обучения, предоставляемая нашим клиентам в рамках облачной платформы Google, которая делает именно это.

Услуга контролируемого обучения означает, что вы можете обучить модель машинного обучения, используя структурированные примеры данных, а затем делать прогнозы на основе новых данных. Один столбец ваших обучающих данных будет так называемой целью, и это то, что ваша модель будет оптимизировать для прогнозирования. Некоторое количество других столбцов будут входными данными (функциями), на основе которых модель будет учиться.

Выполнение этого для обучения одной модели с одной архитектурой и одной парой параметров по умолчанию может быть выполнено относительно легко и, возможно, должно стать вашим первым шагом при изучении нового варианта использования и набора данных (возможно, попробуйте BigQuery ML).

Тем не менее, настоящая проблема обычно возникает после этого. Это когда вам нужно начать настройку модели и поиск новых архитектур, чтобы улучшить результаты и подготовить ее к производству. Это трудоемкие и сложные методы. Именно здесь AutoML Tables может автоматизировать ваш рабочий процесс, а также помочь вам найти лучшие архитектуры и параметры для использования.

Давайте поговорим о технических деталях…

AutoML Tables использует передовые архитектуры машинного обучения и сравнивает все эти модели друг с другом, чтобы найти лучшую для вашего варианта использования, оптимизируя результаты для соответствующих показателей. Примеры архитектур: прямая сеть связи, случайный лес, деревья решений, линейные, остаточные сети и другие. Гиперпараметры, такие как скорость обучения, регуляризация, количество слоев, скрытые узлы и т. Д., Настраиваются для каждой модели, а также используются методы объединения, такие как повышение, сбор и усреднение.

Все это делается параллельно во время обучения, чтобы найти наилучшую возможную модель и помогает автоматизировать и оптимизировать ряд шагов в процессе машинного обучения.

Другие шаги, в которых AutoML Tables может помочь вам, включают подготовку данных, разработку функций и оценку модели.

AutoML Tables помогает получить представление о ваших данных путем поиска функций с отсутствующими значениями, недопустимых значений, дисбаланса и распределения данных, функций с высокой корреляцией и многого другого. Это позволяет вам легко обрабатывать данные и сосредоточиться на вашем варианте использования. Для более подробной подготовки данных мы можем интегрироваться с управляемыми записными книжками, а также с Google Cloud BigQuery и Google Cloud Data Prep. Обычно ваши данные не будут выглядеть так, как показано ниже, и их нужно будет очистить.

Когда подготовка данных завершена, следующим шагом будет предварительная обработка данных. Предварительная обработка - это этап подготовки данных для обучения машинному обучению.

Когда данные импортируются в набор данных AutoML Tables, система автоматически определяет тип данных. Когда начинается обучение, в процессе обучения выполняется этап автоматической разработки функций и предварительной обработки данных, что означает все формы нормализации числовых данных, однократное кодирование категориальных данных, синтаксический анализ токенов для текстовых полей, и вы также можете иметь данные в массивах, структурах и отметки времени.

После завершения обучения AutoML Tables предоставляет инструменты для оценки модели с точки зрения уровня набора данных, уровня функций и уровня прогнозирования.

Пример идеи для оценки модели включает важность функции как на уровне модели, так и на уровне индивидуального прогноза. Для моделей классификации AutoML Tables предоставляет такие метрики, как F1, точность, потеря журнала, AUC ROC, AUC PRC, отзыв, точность и матрицы неточностей. Для моделей регрессии AutoML Tables предоставляет показатели MAE, RMSE, RMSLE, R ^ 2 и MAPE. См. Ссылку ниже для более подробного описания вышеуказанных показателей.

Https://cloud.google.com/automl-tables/docs/evaluate

Когда у вас есть модель, которую вы хотите использовать для прогнозирования, у нас есть два способа ее развертывания. Сначала вы можете выполнять пакетные прогнозы. Это означает, что вы используете файл CSV или набор данных BigQuery с данными, которые хотите прогнозировать, и просто отправляете их в службу. После этого AutoML Tables выдаст результаты в виде файла CSV или таблицы BigQuery.

Другой способ - развернуть службу REST на основе модели. Это можно автоматизировать из таблиц AutoML и использовать как управляемую службу REST в Google Cloud. У вас также есть возможность экспортировать модель и объединить ее в контейнер для использования там, где это необходимо, на любой платформе, которую вы хотите.

Резюме

Таблицы Google AutoML могут дать вам возможности машинного обучения 10 специалистов по данным, а также возможность использовать конечные продукты многолетних исследований Google в рамках машинного обучения в одном простом и удобном решении. Не говоря уже о том, что это полностью управляется и оплачивается только тогда, когда вы его используете, и до тех пор, пока обучение продолжается.

Если вы хотите глубже изучить это решение, чтобы узнать больше, посетите часть 2 этого рассказа. В части 2 мы рассмотрим каждый этап создания и создания бинарной модели классификации на основе данных переписи населения США. Увидимся там и спасибо за чтение.

Ссылка