СБОР ДАННЫХ И МАШИННОЕ ОБУЧЕНИЕ

Изучение доступных наборов данных для поиска закономерностей и аномалий известно как интеллектуальный анализ данных. Техника обучения на разнородных данных таким образом, который может предсказывать или предсказывать неизвестные/будущие значения, известна как машинное обучение. Вместе эти две идеи позволяют отображать исторические данные и предвидеть будущие данные.

Интеллектуальный анализ данных

Целью интеллектуального анализа данных является выявление закономерностей в данных.

1) Классификация данных

Мы классифицируем данные каждый день. Например, когда мы разделяем продукты на масла, ингредиенты, специи, чистящие средства и т. д. Сортировка становится значительно сложнее при работе с огромными данными. Например, потребители делятся на «сливающих» и «не сбрасывающих» после интеграции данных об их демографических данных, прошлых счетах, истории платежей и других деталях.

2) Обнаружение взаимозависимости

Различные признаки либо независимы, либо зависимы в различной степени между собой. Например, рассмотрим торговый центр, в котором совершают покупки тысячи покупателей. Как только данные будут собраны, вероятно, выяснится, что люди вместе покупают определенный набор товаров. Иногда ассоциации бывают совершенно причудливыми и вне всякого ожидания.

3) Выявление выбросов и аномалий

Обнаружение странных или неожиданных фактов может быть очень полезным. В качестве иллюстрации может служить система обнаружения мошенничества, используемая фирмой, выпускающей кредитные карты. если внезапно со счета человека будут приобретены дорогостоящие товары за пределами его или ее обычного диапазона покупок или страны проживания, система изолирует инцидент и подаст виртуальный сигнал тревоги, чтобы указать, что происходит что-то необычное, и предупредит клиента посредством телефонных звонков. или смс о немедленной заморозке операции в качестве меры предосторожности.

4) Группировка данных

Кластерный анализ группирует элементы на основе общих свойств. Группы неоднородны, но члены группы однородны. Например, компания электронной коммерции сегментирует клиентов в зависимости от их покупательского поведения для рекламных стратегий.

5) Измерение важности функции

Различные функции сортируются в соответствии с их влиянием на целевую переменную. Эффекты могут быть отрицательными или положительными в случае прогнозирования стоимости. Принимая во внимание, что величина важна в случае предсказания метки.

Поиск шаблонов в данных является конечной целью всех методов интеллектуального анализа данных, независимо от их формы.

Процесс создания инструментов, которые можно использовать для анализа новых данных с использованием результатов интеллектуального анализа данных, известен как машинное обучение.

Машинное обучение

Основная цель машинного обучения — разработка алгоритмов, способных «учиться» на данных. На производительность алгоритма машинного обучения будет влиять каждый фрагмент данных, который он обрабатывает.

Например, если алгоритм выполняется на информации об одном больном раком, машина узнает, какие черты есть у больного раком. Алгоритм подвергается воздействию нескольких характеристик, которые обычно имеют больные раком, если через него проходят сотни сведений о больных раком. Цель машинного обучения — создать алгоритм, который может работать независимо и использоваться со свежими данными. В этом случае это был бы алгоритм, который мог бы правильно определить, есть ли у пациента рак или нет. Та же логика применима и к предсказанию стоимости.

Точно охарактеризованные данные разбиваются на «обучающие» и «тестовые» наборы в обучении с учителем. Как правило, обучающие наборы составляют около 80% данных, а тестовые наборы составляют оставшиеся 20%. В нашем примере у нас есть пациенты, которых эксперты-люди классифицируют как «рак» или «не рак». Обучающая выборка, состоящая из некоторых ранее идентифицированных пациентов, используется для построения алгоритма машинного обучения. После обработки всего обучающего набора и создания оптимизированного алгоритма алгоритм тестируется на тестовом наборе, чтобы убедиться в его точности. Количество раз, когда алгоритм правильно характеризует данные тестового набора, служит мерой точности. Вообще говоря, точность классификации более 90% считается удовлетворительной.

Классы в неконтролируемом обучении неизвестны. На основе сравнения входных данных и группировки данных в несколько групп система машинного обучения будет выводить закономерности и свойства.

Специалисты по данным принимают решения

Специалисты по данным заинтересованы не только в категоризации текущих данных, даже если это является существенным аспектом их работы. Они в равной степени заинтересованы в точной характеристике неизвестных данных, а также в прогнозировании будущих данных.

Специалисты по данным должны использовать как интеллектуальный анализ данных, так и машинное обучение, чтобы выполнять свои задачи. Чтобы охарактеризовать данные, они должны использовать интеллектуальный анализ данных, а для создания прогнозов они должны использовать методы машинного обучения.

эти две процедуры требуют значительного объема программирования. Таким образом, специалисты по данным должны владеть языками программирования, такими как R и Python, в дополнение к четкому пониманию статистики.