Публикации по теме 'scikit-learn'


Прекратите тратить полезную информацию, приписывая недостающие значения
Есть более эффективные способы вменения отсутствующих значений, чем просто взятие среднего Отсутствующие значения - одна из самых распространенных проблем при анализе данных и машинном обучении. Модели машинного обучения требуют, чтобы набор данных не содержал каких-либо пропущенных значений, прежде чем они могут быть адаптированы к данным. Поэтому очень важно научиться правильно с ними обращаться. Некоторое время назад я опубликовал видео об обработке недостающих данных с помощью..

Развертывание предварительно обученной модели Sklearn на Amazon SageMaker
Возьмите свои модели, обученные на местном уровне, в производство Ранее я уже писал о том, как можно обучать и развертывать пользовательские модели Sklearn и TensorFlow в Amazon SageMaker. Однако для определенных случаев использования у вас могут быть предварительно обученные модели, которые вы обучали в другом месте. В этой статье мы рассмотрим, как взять данные предварительно обученной модели и развернуть их в SageMaker. Кроме того, в этом примере мы будем в основном работать с..

Использование машинного обучения для прогнозирования поведения клиентов в кампаниях Starbucks
Обзор продукта Starbucks Capstone Challenge — это проект, реализованный в рамках программы Udacity Data Science Nano Degree. Задача состоит из данных, сгенерированных Starbucks из разных кампаний. Это могут быть такие предложения, как BOGO (Купи один, получи один) или скидки на будущие покупки. Можно ли взять эти данные и превратить в полезные инсайты своих клиентов? Давай выясним. Анализ этой работы можно найти на Github здесь Постановка задачи Существует несколько способов..

Реализация наивного Байеса в Python с использованием scikit-learn
Наивный байесовский алгоритм — вероятностный алгоритм машинного обучения, используемый для задач классификации. Он работает, вычисляя вероятность того, что каждый объект будет связан с определенным классом, а затем использует эти вероятности для прогнозирования класса новой точки данных. Чтобы реализовать Naive Bayes в Python, мы можем использовать библиотеку scikit-learn. Вот простой пример того, как использовать алгоритм Gaussian Naive Bayes для задачи бинарной классификации: from..

Обновите K-Means с Scikit-learn на PySpark
Простой трюк, чтобы сделать ваши K-средние масштабируемыми. Хорошо известное K-Means часто используется для решения проблем неконтролируемой кластеризации. Преимущество этой модели в том, что ее легко реализовать и объяснить, что облегчает общение с бизнесом. В Python он, очевидно, включен в библиотеку Scikit-learn, которая часто выбирается для разработки K-средних. Но у этого решения есть существенный недостаток: оно не масштабируется . Переломный момент в Scikit-learn ближе, чем..

Понимание
Многие алгоритмы машинного обучения полагаются на числовые данные для эффективного выполнения своих функций. Следовательно, категориальные переменные должны быть закодированы в числовую форму с использованием таких методов, как кодирование меток или однократное кодирование, чтобы обеспечить совместимость и точное обучение модели. Кодирование — это процесс преобразования категориальных данных в числовые уникальные данные. это упрощает обработку данных алгоритмом машинного обучения, и мы..

Обучение машинному обучению — часть 1
Руководство по изучению машинного обучения путем внедрения машинного обучения В этой первой статье мы рассмотрим различные важные концепции машинного обучения на примере простой линейной регрессии. Как упоминалось ранее, мы будем работать с контролируемым обучением, так как это упрощает понимание того, что мы собираемся прогнозировать, метки. Итак, сначала давайте представим сценарий, над которым мы собираемся работать, прежде чем углубляться в детали процесса обработки данных. Набор..