«Машинное обучение» — одно из модных словечек, часто используемых параллельно с искусственным интеллектом, глубоким обучением и большими данными, но что оно означает на самом деле? И какую еще терминологию машинного обучения важно понимать?

Машинное обучение означает, что точность системы со временем повышается за счет добавления большего количества данных и обратной связи. Вы, вероятно, сталкиваетесь со многими примерами машинного обучения каждый день, даже не осознавая этого. Когда Facebook предлагает «людей, которых вы, возможно, знаете», или когда Amazon отправляет вам по электронной почте рекомендации продуктов, которые могут вам понравиться на основе предыдущих покупок, они используют алгоритмы машинного обучения для настройки ваших результатов.

Терминология машинного обучения

Классификация

Классификация является частью обучения с учителем (обучения с помеченными данными), с помощью которого входные данные можно легко разделить на категории. В машинном обучении могут быть бинарные классификаторы только с двумя результатами (например, спам, не спам) или многоклассовые классификаторы (например, типы книг, виды животных , и т. д.).

Кластеризация

Кластеризацию можно использовать для организации демографических данных и покупательского поведения клиентов в определенные сегменты для таргетинга и позиционирования продукта. Он также может анализировать качество жилья и географическое расположение для оценки недвижимости и планирования планировки новых городских застроек. Он может классифицировать информацию по темам в библиотеках или веб-страницах и составлять легкодоступный каталог для пользователей.

Регрессии

Регрессии создают отношения и корреляции между различными типами данных. Например, у каждой картинки профиля есть изображение с пикселями, принадлежащими человеку. Благодаря статическому предсказанию (которое остается неизменным с течением времени) машинное обучение признает, что определенное расположение пикселей соответствует заданному имени, и позволяет распознавать лица (например, когда Facebook рекомендует теги для фотографий, которые вы только что загрузили).

Контролируемое обучение

Это обучение алгоритма машинного обучения с данными, аннотированными метками. Аннотации данных обычно предоставляются экспертной системой, такой как человек или внешняя система. Задача классификации является примером задачи обучения с учителем.

Обучение без учителя

Алгоритмы, разработанные для такого типа обучения, обладают встроенными характеристиками самоорганизации. Эти алгоритмы самоорганизуют данные на основе закономерностей, обнаруженных в данных, без участия экспертной системы.

Обучение под наблюдением

Полууправляемые алгоритмы машинного обучения состоят как из немаркированных, так и из помеченных обучающих данных. Частота помеченных данных в распределении обучающего набора данных обычно меньше по сравнению с неразмеченными обучающими данными.

Обучение с подкреплением

Это тип метода машинного обучения, в котором используются определенные программы, называемые агентами. Эти агенты помещаются в среду и руководствуются идеей увеличения вознаграждения за счет взаимодействия с окружающей средой. Агенты предназначены для накопления вознаграждения, где это возможно. Существует также форма отрицательного вознаграждения или штрафа. Задача агента — улучшить свою систему управления, чтобы со временем собирать награды и избегать штрафов.

Модель

Это можно описать как математическое представление обобщенного паттерна, наблюдаемого в наборе данных.

Набор данных

Это набор информации, содержащий связанные элементы, которые алгоритм машинного обучения может обрабатывать как единое целое.

Обучающий набор данных

Это группа нашего набора данных, которая используется для непосредственного обучения нашей нейронной сети. В задаче использования сверточной нейронной сети для классификации изображения обучающего набора данных и отношения меток будут изучены сетью. Это группа нашего набора данных, которую сеть видит во время обучения.

Тестовый набор данных

Мы используем эту группу набора данных для оценки производительности нашей сети после завершения этапа обучения.

Недооснащение

Это происходит, когда алгоритм машинного обучения не может изучить закономерности в наборе данных. Недостаточное приспособление можно исправить, используя лучший алгоритм или модель, которая больше подходит для задачи. Недообучение также можно исправить, распознав больше функций в данных и представив их алгоритму.

Переоснащение

Эта проблема связана с тем, что алгоритм предсказывает новые экземпляры представленных ему шаблонов, основываясь слишком точно на экземплярах шаблонов, которые он наблюдал во время обучения. Это может привести к тому, что алгоритм машинного обучения не сможет точно обобщить невидимые данные. Переобучение может произойти, если обучающие данные не точно представляют распределение тестовых данных. Переобучение можно исправить, уменьшив количество признаков в обучающих данных и уменьшив сложность сети с помощью различных методов.

Для оценки производительности модели машинного обучения у нас есть набор показателей, которые

  • Матрица путаницы
  • Точность
  • Точность
  • Отзывать
  • Оценка F1

Матрица путаницы

Матрица путаницы — это табличная сводка количества правильных и неправильных прогнозов, сделанных классификатором. Он используется для измерения производительности модели классификации. Его можно использовать для оценки производительности модели классификации путем расчета показателей производительности, таких как точность, достоверность, полнота и F1-оценка. Матрицы путаницы широко используются, поскольку они дают лучшее представление о производительности модели, чем точность классификации.

Точность

Точность представляет собой количество правильно классифицированных экземпляров данных по отношению к общему количеству экземпляров данных. Точность может быть плохой мерой, если набор данных несбалансирован (как отрицательные, так и положительные классы имеют разное количество экземпляров данных).

Пример: Точность = (55 + 30)/(55 + 5 + 30 + 10) = 0,85 и в процентах точность составит 85%.

Точность

Точность в идеале должна быть 1 (высокая) для хорошего классификатора. Точность становится равной 1 только тогда, когда числитель и знаменатель равны, т. е. TP = TP +FP, это также означает FP равен нулю. По мере увеличения FP значение знаменателя становится больше числителя, а значение точность уменьшается (чего мы не делаем). хотеть).

Таким образом, в примере с беременностью точность = 30/(30+ 5) = 0,857.

Отзывать

Отзыв также известен как чувствительность или коэффициент истинного положительного результата

Повторность в идеале должна быть 1 (высокая) для хорошего классификатора. Отзыв становится равным 1 только тогда, когда числитель и знаменатель равны, т.е. TP = TP +FN, это также означает FN равен нулю. По мере увеличения FN значение знаменателя становится больше числителя, а значение отзыва уменьшается (чего мы не делаем). хотеть).

Итак, на примере беременности давайте посмотрим, что будет отзывом.

Отзыв= 30/(30+ 10) = 0,75

Оценка F1

Оценка F1 – это показатель, который учитывает как точность, так и отзыв. em> и определяется следующим образом:

Оценка F1 становится 1 только в том случае, если точность и отзывоба равны 1. Оценка F1становится высокой только тогда, когда и точность, иприпоминание высоки. Оценка F1 – это среднее гармоническое между точностью и отзывом и является лучшим показателем, чем точность.

В примере с беременностью Оценка F1 = 2* (0,857 * 0,75)/(0,857 + 0,75) = 0,799.