Статьи по теме imbalanced-data

Публикации по теме 'imbalanced-data'

Методы обработки несбалансированных наборов данных в машинном обучении

В динамичной среде машинного обучения данные лежат в основе каждой успешной модели. Однако реальный мир часто представляет нам наборы данных, которые далеко не сбалансированы. Несбалансированные наборы данных, характеризующиеся непропорциональным распределением классов, могут создавать серьезные проблемы для алгоритмов машинного обучения. Результирующее смещение в сторону класса большинства может привести к субоптимальной производительности модели, что делает точные прогнозы для..

Несбалансированные данные: 10 проверенных стратегий обработки искаженных данных

Сжатое руководство по обработке дисбаланса классов в данных Вы когда-нибудь пытались предсказать мошенничество с кредитными картами? Это классическая проблема в банковской сфере — предсказать, является ли определенная транзакция по кредитной карте мошеннической или нет. Допустим, у вас есть прошлые записи транзакций по кредитным картам, вы можете построить хорошую классификационную модель, используя эти данные, но когда придет время для правды, вполне возможно, что ваша модель не..

Применение кластеризации в устранении дисбаланса целевого класса классификации — «Пример из практики…

Когда дело доходит до задач классификации в реальных наборах данных, дисбаланс классов является скорее нормой, чем исключением. От моделей машинного обучения, используемых в области медицины, которые могут диагностировать редкие заболевания, до моделей, используемых финансовыми учреждениями в моделировании кредитных рисков для определения потенциальных неплательщиков кредита, сама природа обучающих данных, на которых основаны эти классификаторы, по своей сути несбалансирована. Очевидно, что..

Как справиться с дисбалансом классов без передискретизации

Несбалансированная классификация за пределами повторной выборки, настройки порога или моделей, чувствительных к стоимости. Несбалансированная классификация является актуальной задачей машинного обучения. Эта проблема обычно решается с помощью одного из трех подходов: повторная выборка, модели, чувствительные к стоимости, или настройка порога. В этой статье вы узнаете другой подход. Мы рассмотрим, как использовать кластерный анализ для устранения несбалансированной классификации...

Предотвращение мошенничества — это больше, чем несбалансированный набор данных

Предотвращение мошенничества на крупных сайтах электронной коммерции сильно отличается от соревнований Kaggle. Исследователи данных потратили много времени на обнаружение мошенничества. Блоги по науке о данных заполнены статьями о том, как обрабатывать несбалансированные наборы данных, уравновешивать точность и полноту, а также объяснять результат F1. Эти темы имеют решающее значение для систем обнаружения мошенничества, но они хорошо изучены и, возможно, перегружены. Серьезно,..

Шаги сквозного проекта машинного обучения | Часть-3.2

В этой статье я продолжаю говорить о подготовке данных. Эта статья является четвертой из серии статей , охватывающей каждый этап процесса машинного обучения. Лучше, если вы читали предыдущие статьи, но вы можете просто прочитать эту, если то, что вам нужно, есть здесь. Увеличение данных Увеличение данных — это стратегия получения большего количества помеченных примеров без дополнительной маркировки, поскольку маркировка требует больших затрат времени и средств. Также иногда..

Мой открытый проект по раку шейки матки (1)

Отзыв и точность достигли 98%, измерено более 9000 снимков пациентов… Около двух лет назад я услышал, как друг сказал, что рак шейки матки является третьим по величине раком в мире, около 60 миллионов больных по всему миру. Я начала время от времени следить за проектами ИИ, связанными с раком шейки матки. Это продолжалось в течение 1 года, и до сих пор не было доступной системы искусственного рака шейки матки. Здесь много идей, поэтому я готов попробовать это сам. Уволился 7 месяцев..