Искусственный интеллект и наука о данных: простой способ

Это статья № 1 из серии предстоящих статей. Это поможет вам в изучении данных, искусственном интеллекте, машинном обучении и подготовке к экзаменам в колледже ;)
Я продолжаю публиковать то, что узнаю, и то, что, по моему мнению, облегчило бы работу других, если бы их учили в зачаточном состоянии. этап. Так что это размещено на моих ручках Twitter и LinkedIn. Ссылки на оба здесь:

Твиттер: Ronit Malhotra (@RonitMalhotra77) / Twitter
LinkedIn: www.linkedin.com/in/ronit-malhotra-127588207
Приятного обучения! ================================================== ==============

Система ИИ состоит из агента и его окружения.

Архитектура — это механизм, на котором работает агент. Это устройство с датчиками и исполнительными механизмами, например, роботизированная машина, камера, ПК. Агентская программа — это реализация функции агента. Функция агента – это отображение последовательности восприятия (истории всего, что агент воспринял на сегодняшний день) в действие.

Агент = Архитектура + Агентская программа

Агенты в искусственном интеллекте — GeeksforGeeks

Что такое агент?
(простыми словами)

Какие бывают типы агентов?

Примеры каждого типа агента:

Простые рефлекторные агенты. Примером простого рефлекторного агента является простой термостат. Он определяет текущую температуру в помещении и включает или выключает систему отопления или охлаждения на основе этих текущих показаний.
Рефлекторные агенты на основе моделей: автономный автомобиль является примером рефлекторного агента на основе моделей. Он использует датчики для обнаружения препятствий и других автомобилей, и у него есть модель окружающей среды, чтобы предсказать, где эти препятствия окажутся в будущем. Он использует эту модель для принятия решений о скорости и направлении.
Целевые агенты: робот-доставщик является примером целевого агента. Его цель — доставить посылку в определенное место, и он должен преодолевать препятствия, чтобы добраться до этого пункта назначения. Робот использует датчики и карту окружающей среды, чтобы найти лучший путь к месту доставки.
Агенты на основе утилиты. Примером агента на основе утилиты является бот-покупатель, который сравнивает цены на нескольких веб-сайтах, чтобы найти лучшее предложение. Он анализирует различные факторы, такие как цена, время доставки и репутация продавца, чтобы принять решение, которое приведет к наилучшему результату для пользователя.
Агенты обучения. Примером агента обучения является спам-фильтр. Он анализирует электронные письма на основе прошлых отзывов пользователей и корректирует алгоритм фильтрации, чтобы лучше обнаруживать спам-сообщения.
Многоагентные системы. Примером многоагентной системы является команда роботов, работающих вместе для исследования и картирования неизвестной среды. Каждый робот — это агент, который работает с другими агентами для выполнения задачи по картированию окружающей среды. Они координируют свои действия, чтобы охватить больше территории, избежать препятствий и поделиться информацией друг с другом.

Что такое ГОРОХ?

Понимание PEAS в искусственном интеллекте — GeeksforGeeks

PEAS — показатель эффективности; описать проблему; классифицировать похожие агенты вместе —что он делает — в одной строке
(простыми словами)

PEAS — это способ описать проблему в ИИ. Он состоит из четырех частей:

Показатель производительности: это то, чего агент пытается достичь. Например, если агент играет в шахматы, критерием эффективности может быть победа в игре.
Среда: это контекст, в котором работает агент. Например, если агент представляет собой самоуправляемый автомобиль, средой могут быть дороги и движение вокруг него.
Приводы: это то, что агент может делать, чтобы воздействовать на окружающую среду. Например, если агент — робот, исполнительными механизмами могут быть его руки и ноги.
Сенсоры: это то, что агент использует для восприятия окружающей среды. Например, если агент — робот, датчиками могут быть камеры и микрофоны.

Платформа PEAS помогает разработчикам уточнить цели агента и определить ключевые показатели производительности, которые можно использовать для оценки его успеха.

Появляется технический жаргон!!!

PEAS расшифровывается как «Показатели производительности», «Окружающая среда», «Приводы» и «Датчики» и представляет собой структуру, используемую для описания проблемы или задачи в ИИ. Платформа помогает определить ключевые компоненты интеллектуального агента и проблему, которую он пытается решить. Вот краткое описание каждого компонента:

Показатель производительности: это критерий, который используется для измерения успеха действий агента. Показатель производительности определяет, чего пытается достичь агент. Например, показателем производительности агента, играющего в шахматы, может быть количество выигранных партий.
Среда: Среда — это внешний контекст, в котором действует агент. Он включает в себя все внешние факторы, которые могут повлиять на поведение агента. Среда может быть физической, виртуальной или их комбинацией. Например, среда для беспилотного автомобиля может включать дороги, светофоры, другие автомобили и пешеходов.
Приводы: Приводы — это механизмы, которые агент использует для воздействия на окружающую среду. Они являются «выходом» агента. Приводы могут включать в себя двигатели, динамики или любые другие устройства, которые могут влиять на окружающую среду. Например, приводами для беспилотного автомобиля могут быть рулевое колесо, тормоза и акселератор.
Датчики: датчики — это механизмы, которые агент использует для восприятия окружающей среды. Они являются «входом» агента. Датчики могут включать в себя камеры, микрофоны или любые другие устройства, которые могут обнаруживать информацию об окружающей среде. Например, датчики для беспилотного автомобиля могут включать в себя камеры, лидарные датчики и радарные датчики.

Платформа PEAS полезна для разработки и оценки интеллектуальных агентов. Это помогает прояснить цели, контекст и механизмы агента, а также определить ключевые показатели производительности, которые можно использовать для оценки его успеха.

Какие существуют типы окружающей среды?

Типы сред в ИИ — GeeksforGeeks

Наука о данных против бизнес-аналитики против больших данных

Наука о данных, бизнес-аналитика и большие данные — все это связанные области, связанные с работой с данными, но они различаются по своей направленности, целям и методам. Вот краткий обзор каждого поля:

Наука о данных. Наука о данных — это междисциплинарная область, в которой используются статистические и вычислительные методы для извлечения идей и знаний из данных. Это сочетание нескольких областей, включая статистику, информатику и предметно-ориентированные знания, и его целью является разработка моделей и алгоритмов, которые можно использовать для прогнозирования, оптимизации производительности или выявления закономерностей в данных. Наука о данных часто включает в себя работу с большими наборами данных, использование алгоритмов машинного обучения и глубокого обучения, а также создание визуализаций данных для передачи результатов.
Бизнес-аналитика. Бизнес-аналитика — это область, в которой используется анализ данных для принятия решений в бизнесе. Основное внимание уделяется использованию данных для получения информации о бизнес-операциях, выявления возможностей для улучшения и принятия решений на основе данных. Бизнес-аналитика включает в себя использование статистических методов для анализа данных, создание визуализаций для передачи результатов и выдачу рекомендаций на основе анализа данных.
Большие данные. Под большими данными понимаются чрезвычайно большие и сложные наборы данных, которые невозможно обработать или проанализировать с помощью традиционных методов. Большие данные включают в себя хранение, обработку и анализ данных в больших масштабах с использованием таких инструментов, как распределенные вычисления, облачные вычисления и базы данных NoSQL. Целью больших данных является извлечение информации и ценности из этих больших наборов данных, и она часто включает использование машинного обучения и других методов расширенной аналитики для выявления закономерностей и идей, которые было бы невозможно найти с помощью традиционных методов.

Таким образом, наука о данных, бизнес-аналитика и большие данные включают работу с данными, но у них разные цели и методы. Наука о данных фокусируется на разработке моделей и алгоритмов для извлечения информации из данных, бизнес-аналитика фокусируется на использовании данных для принятия решений в бизнесе, а большие данные фокусируются на обработке и анализе чрезвычайно больших наборов данных, которые невозможно обработать традиционными методами.

Наука о данных, большие данные и аналитика данных [издание 2022 г.] (simplilearn.com)

Наука о данных:

Python: язык программирования общего назначения, который широко используется в науке о данных для анализа, моделирования и визуализации данных.
R: язык программирования и среда для статистических вычислений и графики, популярная в науке о данных.
Jupyter Notebook: веб-приложение с открытым исходным кодом, позволяющее создавать и совместно использовать документы, содержащие живой код, уравнения, визуализации и описательный текст.
Pandas: библиотека Python для обработки и анализа данных, которая широко используется в науке о данных.
TensorFlow: программная библиотека с открытым исходным кодом для потоков данных и дифференцируемого программирования для ряда задач, включая машинное обучение, глубокое обучение и нейронные сети.

Бизнес-аналитика:

Tableau: программное обеспечение для визуализации данных, позволяющее создавать интерактивные информационные панели и отчеты.
Power BI: служба бизнес-аналитики, предоставляющая интерактивные визуализации и возможности бизнес-аналитики.
SAS: набор программных продуктов для управления данными, бизнес-аналитики и расширенной аналитики.
Excel: программа для работы с электронными таблицами, которая широко используется в бизнесе для анализа и визуализации данных.
Google Analytics: служба веб-аналитики, которая отслеживает и сообщает о трафике веб-сайта и поведении пользователей.

Большие данные:

Hadoop: платформа программного обеспечения с открытым исходным кодом, позволяющая хранить и обрабатывать большие наборы данных в кластерах компьютеров.
Apache Spark: распределенная вычислительная система с открытым исходным кодом, предназначенная для быстрой обработки больших наборов данных.
Базы данных NoSQL: класс нереляционных баз данных, предназначенных для обработки больших объемов неструктурированных или частично структурированных данных.
Apache Cassandra: хорошо масштабируемая база данных NoSQL, предназначенная для обработки больших объемов данных на нескольких серверах.
Amazon Redshift: облачный сервис хранилища данных, предназначенный для обработки больших наборов данных и обеспечения высокой производительности запросов.

Жизненный цикл проекта Data Science | Жизненный цикл проекта Data Science (analyticsvidhya.com)

Общепринятая структура для решения любых аналитических задач широко известна как межотраслевой стандартный процесс интеллектуального анализа данных или сокращенно CRISP-DM framework.

Кто участвует в проектах:

Бизнес-аналитик
Аналитик данных
Специалисты по данным
Инженер данных
Архитектор данных
Инженер по машинному обучению

Что такое исследовательский анализ данных? — Гикс для гиков

Одномерный анализ:

Гистограмма: графическое представление частотного распределения одной переменной, показывающее, как часто каждое значение встречается в наборе данных.
Блочная диаграмма: графическая сводка распределения одной переменной, показывающая минимальное, первую квартиль, медиану, третью квартиль и максимальное значения данных.
График плотности: плавная оценка функции плотности вероятности одной переменной, которая может выявить форму и разброс распределения.

Двумерный анализ:

Точечная диаграмма: графическое представление взаимосвязи между двумя переменными, которое показывает значения одной переменной по оси x и значения другой переменной по оси y.
Матрица корреляции: таблица, в которой показаны коэффициенты корреляции между парами переменных в наборе данных, которые могут показать силу и направление линейных отношений между переменными.
Тепловая карта: графическое представление корреляционной матрицы, использующее цвет для представления степени корреляции между парами переменных.

Многофакторный анализ:

Анализ основных компонентов (PCA): метод, который уменьшает размерность набора данных за счет поиска меньшего набора линейно некоррелированных переменных, которые охватывают большую часть вариаций исходных данных.
Кластерный анализ: метод, который группирует похожие наблюдения вместе на основе их характеристик, что может выявить закономерности и структуры в данных.
Множественная регрессия: статистическая модель, которая анализирует взаимосвязь между зависимой переменной и несколькими независимыми переменными, что может помочь определить, какие переменные наиболее тесно связаны с результатом.

«Знание типа ваших данных. Типы переменных в статистике | Абхишек Мунголи | компьютерная культура | Середина"

Виды машинного обучения — Javatpoint

Эти алгоритмы машинного обучения помогают решать различные бизнес-задачи, такие как регрессия, классификация, прогнозирование, кластеризация и ассоциации.

Обучение с учителем: размеченные данные

Неконтролируемое обучение: неразмеченные данные

Обучение с подкреплением: максимальное вознаграждение

Обучение с учителем. Обучение с учителем включает в себя обучение модели машинного обучения на размеченных данных, где предоставляются входные данные и соответствующие выходные данные. Вот некоторые примеры:

Классификация изображений: модель обучается классифицировать изображения по разным категориям (например, кошка, собака, птица) на основе размеченных данных обучения.
Анализ настроений: модель обучается классифицировать текст как положительный, отрицательный или нейтральный на основе помеченных примеров.
Обнаружение мошенничества: модель обучена прогнозировать, является ли финансовая транзакция мошеннической или нет, на основе помеченных данных.

Обучение без учителя. Обучение без учителя включает в себя обучение модели машинного обучения на неразмеченных данных, где цель состоит в том, чтобы обнаружить закономерности или структуру в данных. Вот некоторые примеры:

Кластеризация: модель обучается группировать схожие точки данных вместе на основе их характеристик (например, сегментация клиентов).
Уменьшение размерности: модель обучается уменьшать количество признаков в данных, сохраняя при этом наиболее важную информацию (например, анализ основных компонентов).
Обнаружение аномалий: модель обучается идентифицировать точки данных, которые значительно отличаются от большинства данных (например, обнаружение мошенничества).

Полууправляемое обучение. Полууправляемое обучение включает в себя обучение модели машинного обучения на комбинации размеченных и неразмеченных данных. Вот некоторые примеры:

Классификация текста: модель обучается на небольшом количестве размеченных данных и большом количестве неразмеченных данных для повышения ее точности.
Распознавание речи: модель обучается на небольшом количестве размеченных речевых данных и большом количестве неразмеченных речевых данных для повышения производительности.
Сегментация изображения: модель обучается на небольшом количестве размеченных данных изображения и большом количестве неразмеченных данных изображения, чтобы улучшить ее способность сегментировать объекты.

Обучение с подкреплением. Обучение с подкреплением включает в себя обучение модели машинного обучения принятию решений в среде, где она получает обратную связь в виде вознаграждений или наказаний. Вот некоторые примеры:

Игра в игру: модель обучается играть в игру, получая награды или наказания за свои действия (например, AlphaGo).
Робототехника: модель обучена управлять роботом для выполнения задачи, получая награды или наказания в зависимости от его действий.
Самоуправляемые автомобили: модель обучают водить машину, получая награды или наказания за свое поведение вождения (например, оставаться в полосе движения, избегать препятствий).

Линейная регрессия
https://www.javatpoint.com/linear-regression-in-machine-learning
https://youtu.be/jerPVDaHbEA

Логистическая регрессия
https://youtu.be/VImxF-9jk1E
Категориальные данные
Например. Бинарная классификация
https://youtu.be/yIYKR4sgzI8