******* ML (Машинное обучение) ********

1- ML - это приложение искусственного интеллекта (AI).

Искусственный интеллект предоставляет системам возможность автоматически учиться и совершенствоваться на основе опыта без явного программирования.

2- ML фокусируется на разработке компьютерных программ, которые могут получать доступ к данным и использовать их для обучения.

3- ML - это подход, основанный на семантическом анализе, который имитирует человеческую способность понимать значение текста.

Основная цель машинного обучения - позволить компьютерам обучаться автоматически без вмешательства или помощи человека и соответствующим образом корректировать действия.

Методы ML -

1- Процесс обучения начинается с наблюдений или данных.

2- Алгоритмы машинного обучения часто делятся на контролируемые и неконтролируемые.

a- Алгоритмы машинного обучения с учителем

b- неконтролируемые алгоритмы машинного обучения

c- Полуконтролируемые алгоритмы машинного обучения

d- Алгоритмы машинного обучения с подкреплением

Техники ML -

a- Регрессия машинного обучения (контролируемая) - в этом методе мы используем его для прогнозирования непрерывной числовой цели и начинаем с работы со значениями набора данных, которые мы уже знаем. с использованием среднего или медианного значения.

мы обычно наблюдаем два типа регрессии

1- линейная регрессия (может обозначать отношения между целью и предиктором в виде прямой линии)

2- нелинейная регрессия (мы наблюдаем нелинейную связь между целью и предиктором)

b- Классификация машинного обучения (контролируемая). Классификация - это метод интеллектуального анализа данных, который позволяет нам прогнозировать членство в группах для экземпляров данных. Под «предсказанием» мы подразумеваем, что мы классифицируем данные по классам, к которым они могут принадлежать.

Методы классификации -

1- Индукция дерева решений. Мы строим дерево решений из кортежей, помеченных классом.

2- Классификация на основе правил - эта классификация основана на наборе правил IF-THEN.

3- Классификация по обратному распространению- Обучение нейронной сети (она итеративно обрабатывает данные и сравнивает целевое значение с результатами для изучения.)

4- Lazy Learners - машина сохраняет обучающий кортеж и ожидает тестового набора.

c- Кластеризация (неконтролируемая) - это исследовательский анализ данных без доступных помеченных данных. С помощью кластеризации мы разделяем немаркированные данные на конечные и дискретные наборы структур данных, которые являются естественными и скрытыми.

Мы наблюдаем два вида кластеризации:

1- Жесткая кластеризация. Один объект принадлежит одному кластеру.

2- Мягкая кластеризация. Один объект может принадлежать нескольким кластерам.

d- Обнаружение аномалии - аномалия - это то, что отклоняется от ожидаемого курса. С помощью машинного обучения иногда нам может понадобиться выявить выброс. Такие ситуации вызывают подозрения, и обнаружение аномалий - отличный способ выявить эти аномалии, поскольку это не то, что мы специально ищем.

ref- https://expertsystem.com/machine-learning-definition/

********* Модель ML ***********

Термин «модель машинного обучения» относится к артефакту модели, который создается в процессе обучения. Для использования модели ML выполняется следующий процесс.

Сборка - ›Обучение -› Развертывание

AWS предоставляет для этого инструмент под названием Sagemaker (https://aws.amazon.com/sagemaker/), но это очень дорогостоящий и сложный процесс для конечного пользователя.

мы можем разделить этот процесс на следующие части в основном

1- Сбор данных - здесь мы можем указать, откуда мы хотим получать наши данные, например, s3 bucket, mongo и т. д.

2- Определение проблемы - на этом этапе мы должны выбрать, какой метод машинного обучения мы хотим использовать для построения нашей модели. например, регрессия, классификация ...

3- Предварительная обработка данных - мы также можем назвать эту фазу очистки данных. здесь мы используем spark ( https://spark.apache.org/docs/latest/api/python/pyspark.ml.html ) встроенную обработку библиотеки для очистки данных.

Возможные задачи по очистке данных

a- переформатирование или замена текста

б- выполнение расчетов

c- удаление мусора или неполных данных

проблемы во время этого процесса

выступление

б- организация потока данных

почему искра?

а- масштабируемый

b- мощный фреймворк для обработки данных

c- без дополнительных затрат, обучение на месте, гибкость, работа в памяти, развертывание модели высокой доступности.

схема искры

a- определить формат DataFrame

b- может содержать различные типы данных (строки, даты, целые числа, массивы)

c- может фильтровать данные мусора во время импорта

d- улучшить производительность чтения

4- Разработка функций - Разработка функций - это процесс использования знаний предметной области для создания функций. здесь мы проверяем корреляцию между переменной и проверяем, какие функции важны, а какие нет.

шаги в разработке функций

a- Особенности мозгового штурма

б- Создание функций

c- проверьте, как функции работают с моделью

г - начните заново с первого, пока функция не заработает идеально.

5- Разделение данных - разделение данных на обучение и тестирование. Разделите подмножества данных, чтобы обучить модель и дополнительно проверить, как она работает с новыми данными.

Для этого существует множество стратегий, из которых четыре наиболее распространенных:

a- Используйте стандартное или настраиваемое соотношение, чтобы последовательно разделить его на два подмножества.

b- Используйте стандартное или настраиваемое соотношение, чтобы разделить его на два подмножества с помощью случайного начального числа.

c- Используйте любой из вышеперечисленных методов (последовательный или случайный), но также перемешайте записи в каждом наборе данных.

г - Используйте настраиваемую стратегию внедрения для разделения данных, когда необходим явный контроль над разделением.

6- Обучение модели. Процесс обучения модели машинного обучения включает предоставление алгоритму машинного обучения (то есть алгоритму обучения) обучающими данными для обучения. Данные обучения должны содержать правильный ответ, который известен как целевой или целевой атрибут. Алгоритм обучения находит шаблоны в обучающих данных, которые сопоставляют атрибуты входных данных с целью (ответ, который вы хотите предсказать), и выводит модель машинного обучения, которая фиксирует эти шаблоны.

Развертывание по семи моделям

8- Мониторинг производительности

Наконец-то

Наконец, эти вопросы помогут вам выбрать модель-победитель:

1-Какая модель показала лучшую производительность на тестовой выборке? (представление)

2-Хорошо ли он работает по различным показателям производительности? (надежность)

3-Были ли у него (одни из) лучшие результаты перекрестной проверки из обучающей выборки? (последовательность)

4-Решает ли это изначальную бизнес-проблему? (условие победы)