Введение

Разделение набора данных на практические и тестовые наборы — важный шаг в разработке машинных моделей и тестировании в мире машинного обучения Глубокое изучение языка Python. Правильная сегментация набора данных позволяет нам точно оценить производительность модели. В этой статье объясняется, как сегментировать наборы данных для обучения и тестирования в машинном обучении Python, а также приводятся четкие примеры и шаги для выполнения этого теста.

Предполагая, что у нас есть 100 000 образцов, а затем мы вводим все 100 000 образцов в модель машинного обучения для всех поездов, где мы тестируем модель? Итак, как узнать, насколько гуманна модель в беспрецедентном количестве данных, и как решить эту проблему?

В этом случае разделение набора данных на обучающий набор и тестовый набор поможет нам оценить производительность модели и предсказать данные, которые она никогда раньше не видела, что будет важным инструментом для оценки эффективности модели на данные, которых он никогда раньше не видел.

В этом случае метод разделения набора данных состоит в том, чтобы разделить набор данных из 100 000 выборок на две части, а именно:

Обучающий набор: он используется для обучения модели машинного обучения, чтобы модель могла изучать и настраивать параметры в соответствии с данными в наборе. Этот раздел содержит большую часть данных, например данные 80 % или 70 %.

Набор для тестирования: он используется для тестирования модели, которую мы практиковали, и его цель — оценить эффективность модели в прогнозировании данных, которые мы никогда раньше не видели. Этот раздел содержит небольшой объем данных, например 20% или 30% от общего объема данных.

Когда мы используем эти два раздела данных для выбора наиболее точной модели и набора тестов при обучении, тестировании и настройке гиперпараметров, мы надеемся получить модель, которая сможет обрабатывать данные, которые мы никогда раньше не видели, и мы столкнемся с новой проблемой.

Проблема в том, что многократное использование тестового набора приводит к тому, что выбранная нами модель работает лучше всего. Предвзятость движется в сторону тестового набора, точно так же, как некоторые модели запоминают тестовый набор, что создает ту же проблему обобщения, то есть мы не можем гарантировать, что наша модель может обрабатывать данные, которые она никогда раньше не видела.

Поэтому мы должны разделить сегментированные данные на три части: обучающий набор, контрольный набор и тестовый набор. Например, 70 000 — это обучающий набор, еще 15 000 — проверочный набор, а 15 000 — тестовый набор.

  1. Обучающий набор используется для ввода и использования обучения.

2. Наборы проверки используются для проверки метрик, чтобы определить, как модель работает после каждого обновления и какая модель работает лучше после завершения тренда.

3. Тестовый набор используется для проверки того, как модель работает с данными, которые никогда раньше не видели, после получения наилучшей модели.

Когда мы используем эти три части в обучении, проверке, корректировке суперпараметра,… для выбора модели, наиболее подходящей для проверочного набора, наконец, мы протестируем тестовый набор, который представляет реальные данные, и как он работает в практическом приложении. когда мы выпустим систему.

Полученная информация должна быть аналогична информации, встречающейся в большинстве случаев реальной жизни. Нет проблем, один тип данных встречается с другим типом данных в реальном использовании, например, данные французские, но на самом деле азиатские, и так далее.

Перед сегментацией данные следует перетасовать или разбить, чтобы все наборы данных имели одинаковое распределение данных или распределение, а не были наклонены (обрезка данных).

На самом деле существует множество видов сегментации данных, и есть популярный режим под названием перекрестная проверка, о котором мы расскажем ниже.

Автор хотел бы поблагодарить вас ❤ за содержание в статье, если есть какая-то ошибка, пожалуйста, извините здесь.

Читать далее…