Я не знаю, где вы живете, но денежные операции здесь, в Бразилии, все еще существуют. Этот вид операции не так безопасен, так как распознать поддельную банкноту не так очевидно. Банки постоянно работают над тем, чтобы повысить безопасность банкнот. Ультрафиолетовые и голографические элементы, водяные знаки и металлические нити, но подделки обновляются с помощью новых технологий.

Ядром этого возможного приложения будет проект машинного обучения, чтобы делать эти прогнозы. Для этого будет использоваться набор данных из OpenML, называемый аутентификацией банкнот, который поможет нам отличить настоящие банкноты от поддельных.

Исследовательский анализ

Этот набор данных был построен с использованием изображений как подлинных, так и поддельных банкнот. Вейвлет-преобразование извлекло из этих изображений такие характеристики, как дисперсия, асимметрия, эксцесс и энтропия. Но для этого проекта будет использоваться упрощенная версия этого набора данных, которая включает только дисперсию (V1) и асимметрию (V2), извлеченные из изображений с помощью вейвлет-преобразования. Обе функции не имеют пропущенных значений и являются непрерывными числовыми значениями. Описание набора данных можно увидеть ниже:

Для визуализации данных мы будем использовать график рассеивания из matplotlib, что позволит нам лучше анализировать данные.

Обучение модели

Поскольку у набора данных нет цели, этот проект включает в себя создание неконтролируемого машинного обучения. Кластеризация K-средних — один из самых простых алгоритмов для получения выводов о наборах данных. Этот алгоритм объединяет точки данных в K кластерах, где каждая точка данных является ближайшей к одному из центроидов K кластеров.

Распределение на графике кажется не слишком разбросанным и не слишком центрированным, а количество экземпляров кажется достаточным, что означает, что стоит попробовать алгоритм кластеризации K-средних, несмотря на то, что форма распределения не сферическая. Поскольку первый признак варьируется от -7,04 до 6,82, а другой от -13,77 до 12,95, может быть интересно применить одинаковую шкалу измерений к обоим признакам, т. е. стандартизировать признаки перед созданием модели.

Чтобы использовать K-средних, мы будем использовать два кластера. Один на подлинные банкноты, а другой на поддельные. Ниже можно визуализировать результаты после кластеризации.

Алгоритм кластеризации K-средних запускает процесс кластеризации путем случайного выбора начальных положений центроидов для вычисления точек, ближайших к центроидам, а затем пересчитывает их. Этот случайный выбор может повлиять на окончательные результаты, поэтому важно проверить, стабилен ли алгоритм для данного набора данных. Чтобы проверить стабильность алгоритма, мы перезапустим его несколько раз и проверим существенные различия в окончательных результатах.

Полученные результаты

После повторного запуска K-средних 12 раз можно увидеть незначительные различия, что позволяет сделать вывод, что алгоритм K-средних стабилен для этого набора данных. Из 1372 точек данных 775 были сгруппированы в кластере 1 и 597 в кластере 2.

Для расчета точности необходимо было бы реализовать тест, но, к счастью, данные из OpenML имеют цель, поэтому мы просто сравниваем найденные нами результаты с целью в этом наборе данных. Найденная точность составила 87,82%, что можно считать хорошим результатом. Чтобы улучшить результаты, совместная работа с двумя другими функциями может повысить точность!

Код этой статьи можно найти здесь. Не стесняйтесь давать мне любые отзывы. Спасибо, что дочитали эту статью до сюда.