Выборка — неотъемлемая часть рабочего процесса машинного обучения, которой, к сожалению, часто пренебрегают. Выборку можно использовать для разделения доступных данных для обучения, тестирования и проверки.

Мы можем использовать выборку для извлечения подмножества из большого набора данных. Это может представлять население статистически, экономя время и ресурсы. Понимание различных методов выборки может помочь нам избежать потенциальной систематической ошибки выборки и обеспечить качество выборочных данных.

Существует два семейства выборок: маловероятностная выборка и случайная выборка.

Невероятностная выборка

Невероятностная выборка — это быстрый и простой способ собрать исходные данные, необходимые для запуска проекта. Он включает в себя отбор участников на основе суждения исследователя, удобства или некоторых других критериев. Невероятностная выборка обычно используется, когда совокупность не определена четко. Ниже приведены примеры невероятностной выборки:

Удобная выборка. Здесь образцы данных выбираются в зависимости от их доступности. Это часто используется, когда исследователь хочет быстро и недорого собрать данные.
Выборка методом снежного кома.При выборке методом снежного кома будущие выборки выбираются на основе существующих выборок. Это часто используется, когда доступ к населению ограничен.
Выборка суждения: образцы отбираются на основе суждения экспертов. Этот метод обычно используется, когда исследователь заранее знает население.
Выборка по квотам.Выборки отбираются на основе заранее определенных квот для конкретных подгрупп населения. Его часто используют для обеспечения репрезентативности выборки по определенным характеристикам. Целенаправленная выборка: участники отбираются на основе определенных критериев или характеристик, относящихся к вопросу исследования.

Эти выборки, отобранные по критерию маловероятности, не представляют реальный мир и часто подвержены систематическим ошибкам. Поэтому эти образцы не подходят для использования для выбора данных для целей машинного обучения.

Простая случайная выборка

Это распространенный метод отбора репрезентативной выборки из большей совокупности. Здесь каждый член совокупности имеет равные шансы быть отобранным в качестве выборки. Для этого метода требуется основа выборки, которая представляет собой список всех лиц или элементов совокупности. Для выбора образцов генерируются случайные числа.

Преимущество этого метода в том, что его легко реализовать. Недостатком является то, что редкие категории данных могут не отображаться в вашем выборе.

Стратифицированная выборка

Стратифицированная выборка — это метод, который включает в себя разделение совокупности на подгруппы или страты на основе интересующей характеристики и последующий отбор выборки из каждой подгруппы. Это гарантирует, что выборка репрезентативна для генеральной совокупности, и повышает эффективность для достижения большей точности.

Но не все данные можно разделить на разные группы. Также сложно выполнить стратифицированную выборку для классификации по нескольким меткам, когда каждая выборка может принадлежать нескольким группам.

Взвешенная выборка

Взвешенная выборка обычно используется, когда совокупность неоднородна, а точки данных имеют разные уровни важности. В этом методе точкам данных присваивается вес, и они выбираются пропорционально значению весов.

Этот метод может дать точную репрезентативную совокупность, придавая большее значение релевантным данным. Но выборки могут быть смещены, если веса не назначены должным образом.

Выборка по важности

Выборка по важности используется для оценки свойств конкретного распределения вероятностей с использованием выборок, взятых из другого распределения.
Основная идея выборки по важности заключается в использовании предлагаемого распределения для создания выборок, а затем повторном взвешивании для оценки свойств целевого распределения.
В идеале выбирается распределение предложения, максимально похожее на целевое распределение, чтобы веса были близки к единице, а оценщик имел низкую дисперсию.
Одним из распространенных подходов к выбору распределения предложения является использование простого распределения, такого как равномерное распределение или распределение Гаусса, а затем адаптация параметров распределения для минимизации дисперсии оценщика.

Отбор проб резервуара

Отбор проб из резервуара используется для работы с постоянно поступающими данными. Этот алгоритм состоит из резервуара. Основная идея резервной выборки состоит в том, чтобы поддерживать резервуар из k элементов, случайно выбранных из первых k элементов совокупности. Затем мы выбираем каждый последующий элемент с вероятностью k/i, где i — номер текущего элемента. Мы заменяем случайно выбранный предмет из резервуара вновь выбранным предметом. Все образцы имеют равные шансы быть отобранными. Если мы остановим алгоритм в любой момент, все образцы в пласте будут отобраны с правильной вероятностью.

Заключение

Здесь мы обсудили различные типы методов выборки. Каждый метод имеет свои преимущества и недостатки и подходит для разных сценариев. Очень важно выбрать соответствующий метод выборки, чтобы обеспечить достоверность и надежность моделей. Понимание различных методов выборки может помочь сделать точные выводы из данных.