О любимых телешоу и почему многомерность данных имеет значение

Я люблю Пингвинов Мадагаскара, особенно сериал. Хотя шоу было предназначено для детей, оно изображает ярких личностей с выдающимися характеристиками и содержит множество анекдотических моментов для взрослой аудитории.

В одной из серий король Жюльен решает вечный вопрос о приоритете: что первично, курица или яйцо? Разговор между ним и его миньоном Морисом выглядит примерно так:

- Это загадка, что съедается первым? Яйцо или курица? Я думаю яйцо, потому что яйцо подают на завтрак.

- Но это не так…

- Так ты думаешь, что сначала едят курицу? Ага! Что ж, в этом случае проще будет взять яйцо.

Хотя это звучит так, как будто он неправильно понял вопрос, король Жюльен ловко ограничивает универсальный набор вероятностей обеденным меню и отвечает в этом контексте. Он также достаточно непредубежден, чтобы принять противоположный ответ из практических соображений по поводу получения яйца. Он просто уменьшает размеры входного пространства, чтобы иметь возможность сосредоточиться на важной функции (в данном случае на процессе еды).

Здесь есть ценный урок: нам нужно определить область нашего внимания в зависимости от наших целей, чтобы получить более точные результаты. С математической точки зрения нам нужно применить уменьшение размерности, чтобы сконцентрировать наши точки интереса.

Уменьшение размеров при распознавании образов

Распознавание образов — одно из самых популярных направлений исследований методов анализа данных в машинном обучении. Поскольку цель этой статьи не состоит в том, чтобы углубляться в проблему выделения признаков для задач классификации, мы быстро перейдем к теме размеров пространства признаков, резюмируя признаки как важные свойства входного пространства, которые дают максимальную информацию для того, чтобы выполнить классификацию. Количество признаков определяет размер пространства признаков и зависит от характера входных данных, а также от цели классификации (т. е. вы можете определить разные признаки из одних и тех же входных данных, если у вас есть разные задачи классификации, такие как категоризация класса объектов). студентов по их интересам в зависимости от курсов, которые они посещают, или по их росту в зависимости от их внешности).

Основываясь на задаче классификации и алгоритме классификатора, некоторые из извлеченных признаков будут иметь лучшую производительность при определении границ классов или различении категорий в пространстве признаков. Поскольку размер пространства признаков напрямую связан с вычислительной сложностью алгоритма классификатора, сокращение количества признаков путем выбора наиболее важных из них упростит общие вычислительные затраты. «Самое важное» — это субъективное качество, и его необходимо определить путем экспериментов с набором данных — возможно, это первое правило машинного обучения: знай свои данные!

Снижение размерности — хорошо известная и широко изучаемая тема в статистике и теории связи. Целью уменьшения размерности является преобразование пространства признаков в подпространство с меньшими размерами. Это упростит критерии выполнения задачи классификации и уменьшит количество вычислений.

Информация и вероятность

Энтропия является мерой беспорядка в системе. Информационная теорема Шеннона говорит нам, что чем менее вероятно событие или символ si, тем больше существует неопределенности и тем больше информации можно получить, если это событие/символ произойдет. Другими словами, событие дает больше информации, если оно нас удивляет. Если событие ожидается, т. е. частота его возникновения высока, оно не дает много информации. Рассмотрим такой пример: если собака кусает человека, это ожидаемо. Если мужчина кусает собаку, это новость, которую стоит рассказать. Энтропия η источника информации с алфавитом X = {x1, x2, . . . , xn} задается следующим уравнением в дискретном пространстве [3]:

или в непрерывном пространстве, обозначенном как [4]:

В большинстве случаев существует большая вероятность того, что между соседними выборками признаковых данных присуща значительная степень корреляции. Цель уменьшения размерности состоит в том, чтобы эффективно сжать большую часть информации пространства признаков в подпространство, с которым проще работать. Чтобы выполнить это сжатие, к пространству признаков применяется операция преобразования. Пространство признаков и операции преобразования обозначаются векторами (или матрицами), и применяются принципы линейной алгебры. Если большая часть информации точно описывается несколькими первыми компонентами преобразованного вектора, то остальные компоненты можно установить равными нулю с небольшой потерей информации. С технической точки зрения, если Y является результатом линейного преобразования T вектора признаков X таким образом, что компоненты Y гораздо менее коррелированы, то Y может быть закодирован более эффективно, чем X.

Особенности, которые уменьшают количество беспорядка, содержат больше информации. Таким образом, минимизация энтропии системы также минимизирует дисперсию классов, распределенных в пространстве. Следовательно, применяемая операция преобразования должна также уплотнять классы в пространстве в дополнение к уменьшению размеров пространства. Критерий энтропии пытается минимизировать энтропию подпространства, чтобы найти оптимальную операцию преобразования.

Для уменьшения размерности были предложены различные методы. Классическими процедурами, используемыми в статистике, являются анализ основных компонентов (PCA) и факторный анализ, оба из которых уменьшают размерность за счет формирования линейных комбинаций признаков. Цель анализа основных компонентов (известного в теории коммуникации как разложение Карунена-Лоэва или PCA-KLE) состоит в том, чтобы найти низкоразмерное представление, учитывающее дисперсию признаков. Цель факторного анализа состоит в том, чтобы найти низкоразмерное представление, учитывающее корреляции между признаками.

Анализ основных компонентов — расширение Karhunen-Loeve

Рекомендации

Список литературы является общим для всех статей этой серии.

[1] https://www.imdb.com/title/tt0892700/

[2] Многие части этой статьи ссылаются на курс профессора З. Докура Олмеза «Распознавание образов с помощью нейронных сетей», написанный более 20 лет назад.

[3] Зе-Ниан Ли, Марк С. Дрю, «Основы мультимедиа», второе издание, 2014 г.

[4] Дуда, Р.О., Харт, П.Е., Сторк, Д.Г., Классификация образов, 2-е издание, Wiley-Interscience, 9 ноября 2000 г.

[4] Дрю Вилимитис, Трюк ядра в классификации опорных векторов, https://towardsdatascience.com/the-kernel-trick-c98cdbcaeb3f

[5] https://www.mathsisfun.com/алгебра/eigenvalue.html

[6] Тестовые изображения взяты из Университета Южной Калифорнии Института обработки сигналов и изображений USC-SIPI Image Database, том 3, https://sipi.usc.edu/database/database.php?volume=misc

[7] https://towardsdatascience.com/face-dataset-compression-using-pca-cddf13c63583

[8] https://www.section.io/engineering-education/image-compression-using-pca/

[9] https://www.mathworks.com/matlabcentral/answers/1761175-with-pca-how-much-of-the-photo-did-i-compress

[10] https://www.youtube.com/watch?v=UnURElCzGc0

[11] Фрагменты кода частично используют следующие ресурсы:

https://www.mathworks.com/matlabcentral/answers/1761175-with-pca-how-much-of-the-photo-did-i-compress

https://www.mathworks.com/matlabcentral/fileexchange/88748-lrotate?s_tid=srchtitle

https://www.mathworks.com/matlabcentral/fileexchange/31710-plotclusters-data-idx-centers-colors