Снижение размерности бывает 2 видов:

  1. Линейная проекция:

1.1 Анализ основных компонентов:

Проецирование точек данных из многомерного пространства в низкоразмерное, чтобы сохранить только самые важные функции, то есть те, которые объясняют различия между экземплярами, что помогает лучше понять структуру набора данных.

1.2 Разложение по сингулярным числам (SVD):

Другой тип линейной проекции, в котором ранг исходной матрицы уменьшается, чтобы сформировать меньшую матрицу, которая имеет только самые важные векторы (имеющие наивысшие сингулярные значения). Линейная комбинация этих векторов может помочь нам вернуть исходную матрицу.

1.3 Случайная проекция:

Подобно SVD, здесь точки данных также проецируются линейно из пространства высокой размерности в пространство низкой размерности, но масштаб расстояний между точками данных сохраняется. Это делается с помощью случайной матрицы Гаусса.

2. Нелинейное уменьшение размерности/ многообразное обучение:

Применяет к данным нелинейное преобразование вместо их линейного проецирования.

2.1 Изомап:

Тип обучения многообразию, при котором изучается внутренняя геометрия многообразия данных путем вычисления «геодезического» или «кривого» расстояния между точками данных и их соседями вместо вычисления евклидова расстояния.

2.2 t-распределенное стохастическое встраивание соседей (t-sne):

Проецирует многомерные данные в 2-х или 3-х измерениях, чтобы преобразованные данные можно было визуализировать в 2-х или 3-х мерном пространстве. Похожие экземпляры данных моделируются вместе в трехмерном пространстве, а разнородные экземпляры моделируются отдельно.

2.3 Изучение словаря:

Изучает разреженное представление (репрезентативные элементы являются двоичными, то есть 0 и 1) данных.

Каждый экземпляр в наборе данных = взвешенная сумма этих репрезентативных элементов. То есть матрица (словарь) в основном заполнена нулевыми весами с небольшим количеством единиц.

Те репрезентативные элементы, которые имеют большее количество единиц = наиболее заметные элементы пространства признаков.

2.4 Анализ независимых компонентов:

Одна из общих проблем с неразмеченными данными заключается в том, что многие независимые сигналы встроены вместе в характеристики, которые нам даны.

Используя анализ независимых компонентов (ICA), мы можем разделить эти смешанные сигналы на отдельные компоненты. После того, как разделение завершено, мы можем реконструировать любую из исходных функций, сложив вместе некоторую комбинацию отдельных компонентов, которые мы сгенерировали.

ICA обычно используется в задачах обработки сигналов (например, для идентификации отдельных голосов в аудиоклипе оживленной кофейни).

2.5 Скрытое распределение Дирихле:

Почему одни части (экземпляры) набора данных похожи на другие? Как мы узнаем об этих ненаблюдаемых элементах, которые являются движущей силой такого сходства?

Вот тут-то и появляется LDA.

Например, рассмотрим текстовый документ с большим количеством слов. Эти слова в документе не являются чисто случайными; скорее, они демонстрируют некоторую структуру. Эта структура может быть смоделирована как ненаблюдаемые элементы.

Эти ненаблюдаемые элементы известны как «темы».

После обучения LDA может объяснить данный документ с небольшим набором тем. И каждая тема состоит из небольшого набора наиболее часто употребляемых слов.

Это скрытая структура, которую LDA может уловить, помогая нам лучше объяснить ранее неструктурированный корпус текста.

Вывод:

В то время как уменьшение размерности помогает сократить исходный набор функций до меньшего набора важных функций. Применяя алгоритмы обучения без учителя, такие как кластеризация, мы можем понять основные закономерности в данных по этому небольшому набору важных функций.

Чтобы узнать больше о кластеризации, перейдите к следующему разделу этой серии.