Оптимизация квантовых вычислений с помощью квантового естественного градиента

Джош Изаак и Натан Киллоран

Наиболее успешными типами квантовых алгоритмов для использования в краткосрочном шумном квантовом оборудовании являются так называемые вариационные квантовые алгоритмы, в которых выбирается параметризованная квантовая схема с малой глубиной, а измеренные математические ожидания используются для создать функцию стоимости. Затем используется классический цикл оптимизации, чтобы найти набор параметров схемы для квантового устройства, который минимизирует эту функцию стоимости. Популярные примеры таких алгоритмов включают вариационный квантовый собственный вычислитель (VQE), алгоритм квантовой приближенной оптимизации (QAOA) и квантовые нейронные сети (QNN).

В самых последних реализациях вариационных квантовых алгоритмов использовались безградиентные или численные классические методы оптимизации, такие как алгоритм Нелдера-Мида. Однако правило сдвига параметров (реализованное в PennyLane) позволяет пользователю автоматически вычислять аналитические градиенты квантовых схем. Это открывает возможность обучать аппаратное обеспечение квантовых вычислений с использованием градиентного спуска, того же метода, который используется для обучения моделей глубокого обучения. Однако в связи с градиентным спуском возник одно предостережение - как выбрать оптимальный размер шага для каждого обновления параметров наших вариационных квантовых алгоритмов, чтобы обеспечить успешную и эффективную оптимизацию?

Это вопрос, который мы рассмотрели в нашей последней статье, совместной с нашими коллегами Джеймсом Стоуксом и Джузеппе Карлео из Института Флэтайрон в Нью-Йорке. Прежде чем мы сможем полностью изучить квантовые последствия, нам нужно будет сделать небольшой крюк и изучить естественный градиентный спуск - идею, впервые предложенную почти два десятилетия назад в области машинного обучения.

Естественный градиент

При стандартном градиентном спуске каждый шаг оптимизации определяется выражением

где L (θ) - стоимость как функция параметров θ, а η - скорость обучения или размер шага. По сути, каждый шаг оптимизации вычисляет направление наискорейшего спуска вокруг локального значения θₜ в пространстве параметров и обновляет θₜ до θ ₜ₊ ₁ этим вектором.

Проблема с описанным выше подходом состоит в том, что каждый шаг оптимизации сильно связан с евклидовой геометрией в пространстве параметров. Выбор параметризации не уникален, и различные параметризации могут искажать расстояния в среде оптимизации.

Например, рассмотрим следующую функцию стоимости L (θ), параметризованную с использованием двух разных систем координат, (θ₀, θ₁) и ( ϕ₀, ϕ₁):

Выполняя градиентный спуск в пространстве параметров (θ₀, θ₁), мы обновляем каждый параметр на одно и то же общее евклидово расстояние в евклидовом пространстве (размер шага), а не принимая во внимание тот факт, что функция стоимости может изменяться с разной скоростью по каждому параметру. Это может привести к тому, что оптимизация будет пытаться найти или даже полностью пропустить минимум.

Вместо этого, если мы выполним изменение системы координат (или повторную параметризацию) функции стоимости, мы можем найти пространство параметров, в котором вариации L одинаковы для разных параметров. Так обстоит дело с новой параметризацией (ϕ₀, ϕ₁); функция стоимости не изменилась, но теперь у нас есть более удобная геометрия для выполнения градиентного спуска и более информативный размер шага. Это приводит к более быстрой сходимости и может помочь избежать застревания оптимизации в локальных минимумах.

Однако что, если мы вообще избегаем градиентного спуска в пространстве параметров? Если вместо этого мы рассмотрим задачу оптимизации как распределение вероятностей возможных выходных значений при заданных входных данных (т. Е. Оценка максимального правдоподобия), лучшим подходом будет выполнение градиентного спуска в пространстве распределения, которое безразмерна и инвариантна относительно параметризации. В результате каждый шаг оптимизации всегда будет выбирать оптимальный размер шага для каждого параметра, независимо от параметризации.

В классическом машинном обучении описанный выше процесс известен как естественный градиентный спуск и был впервые представлен более двух десятилетий назад Amari (1998). Стандартный градиентный спуск изменен следующим образом:

где F - информационная матрица Фишера. Информационная матрица Фишера действует как метрический тензор, преобразуя самый крутой спуск в пространстве евклидова параметров в самый крутой спуск в пространстве распределения.

Квантовый естественный градиент

Аналогичным образом было показано, что стандартная евклидова геометрия неоптимальна для оптимизации квантовых вариационных алгоритмов (Harrow and Napp, 2019). В нашей статье мы использовали тот факт, что пространство квантовых состояний вместо этого обладает инвариантной метрикой, известной как метрический тензор Фубини-Штуди, представленный матрицей g, которую можно использовать для построения квантового аналога. до естественного градиентного спуска:

где g + относится к псевдообратному. Метрический тензор Фубини-Штуди обладает множеством интересных свойств. Например, он сводится к информационной матрице Фишера, когда информация кодируется в ортонормированном базисе. Кроме того, он имеет интригующие теоретические связи с вариационными алгоритмами эволюции мнимого времени, как это было предложено в McArdle et al. (2018) и Юань и др. (2018) .

Оценка метрического тензора на квантовом оборудовании

Хотя полный метрический тензор Фубини-Штуди не может быть вычислен на квантовом оборудовании, на самом деле мы можем вычислить блочно-диагональное приближение. К счастью для нас, оказывается, что блочно-диагональное приближение к метрическому тензору может быть лучше стандартного (или ванильного) градиентного спуска.

Например, рассмотрим следующую вариационную квантовую схему:

Каждый слой соответствует диагональной подматрице метрического тензора Фубини-Штуди, размерность которой определяется количеством параметров в слое. Поскольку имеется два слоя, каждый с двумя параметрами, блочно-диагональная аппроксимация состоит из двух матриц 2 × 2.

Чтобы численно определить эти две матрицы, мы просто создаем подсхемы исходной вариационной схемы в соответствии со следующими двумя правилами:

Обрежьте схему перед каждым слоем.
Выполните измерения с помощью генераторов вентилей в усеченном слое.

Например, для подматрицы, соответствующей первому параметризованному слою, мы обрезаем схему непосредственно перед двумя первыми поворотами вокруг оси z и измеряем соответствующие кубиты в базисе Pauli Z. Используя эти результаты измерений, подматрица g ⁽⁰⁾ просто состоит из всех ковариаций между измерениями.

Затем аналогичная процедура выполняется для вычисления второй подматрицы g ⁽¹⁾, соответствующей второму параметризованному слою:

Вот и все! Теперь мы можем построить блочно-диагональную метрическую аппроксимацию Фубини-Штуди и выполнить квантовый естественный градиентный спуск.

Эта функциональность встроена в последнюю версию PennyLane - просто определите свой QNode вариационной схемы и используйте метод QNode.metric_tensor () для непосредственной оценки блочно-диагонального приближения к исследованию Фубини. тензор непосредственно на квантовом оборудовании. Внутри компании мы также выполняем некоторую оптимизацию измерений, чтобы обеспечить одновременное измерение всех перемещающихся наблюдаемых. Поэтому, если ваша квантовая схема содержит L слоев, для этого расчета требуются только настройки измерения L!

Квантовая оптимизация естественного градиента

В дополнение к новой функциональности метрического тензора, последняя версия PennyLane также поставляется с новым QNGOptimizer, который автоматизирует процесс выполнения квантового естественного градиентного спуска. Просто введите функцию стоимости вариационной схемы и начальные параметры, и оптимизатор автоматически вычислит метрический тензор на каждом шаге. Это потенциально может помочь вам ускорить сходимость ваших вариационных алгоритмов и избежать застревания в локальных минимумах.

Для получения дополнительных сведений, включая пример кода, генерирующего метрический тензор Фубини-Штуди и использующего его для оптимизации вариационной квантовой схемы, обязательно ознакомьтесь с нашим учебником по расширенному квантовому естественному градиенту. Что касается математической специфики, включая подробные выводы, показывающие, что квантовый естественный градиент эквивалентен естественному градиенту в классическом пределе, лучшим ресурсом является наша статья, доступная на arXiv.

Примечание: скоро будет что-то интересное! Следите за подробностями на https://qhack.ai в ближайшие недели.