Цель этого блога — понять, как статья Как избежать ловушек машинного обучения: руководство для академических исследователей применима к прикладным исследованиям в отрасли. Хотя приведенная выше статья написана с учетом академиков и исследователей, которые являются относительно новыми в области машинного обучения (ML), ее также можно использовать в качестве руководства для всех практиков ML в целом. Это поможет избежать распространенных ошибок, возникающих при использовании методов машинного обучения.

Этапы процесса машинного обучения.
Процесс машинного обучения в общих чертах можно разделить на следующие пять этапов:
— Этап 1. Что нужно сделать, прежде чем приступить к созданию моделей
– Этап 2. Как надежно строить модели
– Этап 3. Как надежно оценивать модели
– Этап 4. Как объективно сравнивать модели
– Этап 5. Как сообщать о результатах

Этап 1. Прежде чем приступить к построению моделей
Никогда не рекомендуется спешить с созданием моделей, не понимая стоящую перед вами проблему и цель, которую необходимо достичь. Вот некоторые из факторов, на которые необходимо обратить внимание, прежде чем приступать к решению:

я. Прежде чем приступить к созданию моделей, первым и главным шагом является понимание бизнес-варианта использования. Во многих реальных сценариях проблема может быть решена с помощью решений, отличных от машинного обучения. Поймите, что машинное обучение не может быть потребностью часа. Не обращайте внимания на шумиху и слепо выбирайте решение ML. Конечная цель должна состоять в том, чтобы решить бизнес-проблему наилучшим образом, и это не обязательно включает машинное обучение. Не стесняйтесь создавать решение, не связанное с ML.

II. Как только вариант использования будет ясен, не торопитесь, чтобы найти правильные данные, и если данные доступны, потратьте достаточно времени, чтобы понять данные. Проверьте, надежен ли источник данных и хорошее ли качество данных. Хорошо понимать ограничения данных, прежде чем начать думать о решениях, потому что, если вы скармливаете модель мусору, вы получите мусор! В идеале вы должны тратить больше времени на сбор качественных данных для проблемы, которую вы пытаетесь решить. Datacentric AI — это потребность часа.

III. Никогда не просматривайте все данные,просматривайте только выборку доступных данных. Причина в том, что мы склонны делать предположения, получать информацию и выявлять закономерности в данных, которые будут направлять процесс моделирования. Всегда полезно посмотреть на данные поезда и получить представление, а не смотреть на все данные (включая тестовые данные). Это поможет предотвратить проникновение непроверяемых предположений в тестовые данные и отказ моделей от обобщения. Избегайте утечки данных любой ценой.

IV. Убедитесь, что данных достаточно, чтобы приступить к созданию решений, поскольку сложность и обобщение модели зависят от доступности данных. В случае нехватки данных и дисбаланса данных найдите другие способы (используя перекрестную проверку, увеличение данных, слабый контроль, обучение с нулевым выстрелом и т. д.) для увеличения имеющихся данных. Сколько данных достаточно данных? Ну, это полностью зависит от проблемы.

v. Крайне важно общаться с малыми и средними предприятиями, чтобы понять полезность рассматриваемой проблемы. SME могут быть полезны для предоставления информации о наборе функций и методов, которые хорошо работали в прошлом для той же проблемы, которую вы пытаетесь решить. Правильный вопрос имеет первостепенное значение и позволяет получить всю возможную информацию от МСП.

ви. Всегда важно проводить обзор литературы, чтобы понять предыдущую проделанную работу, ее ограничения и пробелы (что сработало хорошо, а что нет), а также потенциальные возможности для улучшения. Это поможет продолжить существующую работу, не начиная с нуля, и предотвратит повторное изобретение колеса. Никогда не стоит изобретать велосипед, когда вы пытаетесь решить бизнес-проблему, если только вы не пытаетесь изучить что-то с нуля, чтобы расширить свои знания.

vii. Еще до того, как вы начнете думать о решении, рекомендуется подумать о развертывании модели. Если вы найдете ответ на вопрос Почему вы хотите построить модель машинного обучения для данной проблемы?, это поможет упростить процесс построения модели. Такие факторы, как сложность модели, требования к выводу, то, как пользователь будет ее использовать и т. д., будут зависеть от ресурсов. Таким образом, заблаговременное планирование поможет избежать задержки развертывания в последнюю минуту. Здесь можно использовать MLOPs.

** Примечание. Это первая часть серии из 5 статей «Как избежать ловушек машинного обучения: с точки зрения практика». Спасибо за чтение и ценим ваши отзывы. Оставайтесь с нами для следующей части!