Повышение производительности PINN с помощью градиентной тренировки

Добро пожаловать в третий блог этой серии, где мы продолжаем наше увлекательное путешествие по изучению шаблонов проектирования нейронных сетей, основанных на физике (PINN).

Как обычно, я буду структурировать этот блог следующим образом:

  • проблема, конкретная проблема, которую пытается решить предлагаемая стратегия;
  • решение, ключевые компоненты предлагаемой стратегии, как она реализуется и почему она может работать;
  • контрольный показатель, какие физические проблемы оцениваются и какова связанная с этим производительность;
  • сильные и слабые стороны, при которых предлагаемая стратегия может быть эффективной, а также подчеркивая ее потенциальные ограничения;
  • альтернативы, другие подходы, предложенные для решения аналогичной проблемы, что обеспечивает более широкий взгляд на возможные решения.

Если вы пропустили предыдущие блоги, вы можете наверстать упущенное в более ранних темах, затронутых в этой серии:

Шаблон проектирования PINN 01: Оптимизация распределения остаточных точек

Шаблон проектирования ПИНН 02: Динамическое расширение интервала решения

В этом третьем блоге мы рассмотрим обучение PINN с повышением градиента, захватывающим слиянием нейронных сетей и алгоритмов повышения градиента. Давайте погрузимся!

1. Краткий обзор бумаги:

  • Название: Обучение ансамблю нейронных сетей, основанных на физике: подход с усилением градиента
  • Авторы: З. Фанг, С. Ван, П. Пердикарис
  • Институты: Пенсильванский университет.
  • Ссылка: arXiv

2. Шаблон проектирования

2.1 Проблема

Наивные PINN, как известно, испытывают трудности при моделировании физических процессов, которые чувствительны к небольшим изменениям входных данных и требуют высокой степени точности для точного отражения их динамики. Примеры таких физических систем включают многомасштабные задачи и задачи с сингулярными возмущениями, которые очень важны для таких областей, как гидродинамика и моделирование климата.

2.2 Решение

Оказывается, с той же проблемой сталкиваются и другие алгоритмы машинного обучения, и многообещающим способом решения этой проблемы является применение метода «Gradient Boosting». Поэтому возникает естественный вопрос: можем ли мы имитировать алгоритм повышения градиента для обучения PINN? Газета дала положительный ответ.

Повышение — это общий алгоритм машинного обучения, который можно кратко выразить в следующей итеративной форме:

На каждом раунде повышения инкрементная модель hₘ(•) выводится и добавляется (с дисконтированием на скорость обучения ρₘ) поверх предиктора из последней итерации fₘ_₁(•), чтобы точность f(•) можно было «повысить».

Теперь, если мы заменим fₘ_₁(•), f(•) и hₘ(•) как нейронные сети, основанные на физике , мы можем реализовать обучение PINN с помощью алгоритма повышения. Схема, демонстрирующая процесс обучения, приведена ниже:

В реализации документа архитектура и гиперпараметры аддитивной модели PINN hₘ(•) заранее определены. Это отличается от исходного алгоритма повышения градиента, поскольку исходный алгоритм использовал бы градиентный спуск для поиска оптимальной формы hₘ(•). Однако авторы заявили, что использование предварительно выбранных hₘ(•) может по-прежнему имитировать поведение алгоритма повышения, но со значительно меньшей вычислительной сложностью.

Согласно численным экспериментам, проведенным в статье, обычно 3–5 PINN достаточно для получения удовлетворительных результатов. Для установки скорости обучения ρₘ предлагается установить начальное значение ρ равным 1 и экспоненциально уменьшить значение ρ по мере увеличения m.

2.3 Почему решение может сработать

Поскольку предлагаемое решение имитирует механизм традиционного «Gradient Boosting», оно автоматически наследует все прелести этого подхода: путем последовательного добавления слабых моделей каждая новая модель способна исправлять ошибки, допущенные предыдущими моделями, таким образом, итеративно улучшение общей производительности. Это делает подход особенно эффективным для сложных задач, таких как задачи с многомасштабными или сингулярными возмущениями.

Между тем, для алгоритма повышения «сильная» модель все еще может быть достигнута, даже если модель компонентов на каждом этапе повышения является относительно «слабой». Преимущество этого свойства заключается в том, что общая модель PINN становится менее чувствительной к настройкам гиперпараметров.

2.4 Контрольный показатель

В документе оценивалась эффективность предложенной стратегии по четырем различным задачам, каждая из которых представляла собой отдельную математическую задачу:

  • Одномерная задача с сингулярным возмущением: задачи с сингулярным возмущением — это особые случаи, когда определенные члены в уравнениях становятся непропорционально малыми или большими, что приводит к различному поведению, которое сложно моделировать. Эти проблемы часто возникают во многих областях науки и техники, таких как гидродинамика, электрические схемы и системы управления.

  • Двухмерное уравнение диффузии с преобладанием конвекции: это уравнение моделирует физические явления, в которых эффект конвекции (перенос из-за объемного движения) намного сильнее, чем эффект диффузии (перенос из-за градиентов концентрации). Эти типы проблем возникают в различных областях, таких как метеорология (где ветер рассеивает загрязняющие вещества) и океанография (где океанские течения переносят тепло).

  • Двумерная задача диффузии с преобладанием конвекции (с криволинейными линиями тока и внутренним пограничным слоем): это более сложный вариант предыдущей задачи, в которой картина течения искривлена, а в проблемной области имеется значительный пограничный слой. Эти сложности требуют более сложного численного подхода и делают задачу более репрезентативной для реальных задач.

  • Двухмерное нелинейное уравнение реакции-диффузии (зависящее от времени): это уравнение моделирует реакции в сочетании с диффузией веществ, но оно также является нелинейным и меняется со временем. Эти типы проблем распространены в таких областях, как биология и химия, где вещества взаимодействуют и распространяются в среде, а скорость реакции может меняться со временем.

Сравнительные исследования показали, что:

  • предложенный алгоритм показал значительное улучшение точности во всех тестовых примерах по сравнению с наивными PINN;
  • предложенный алгоритм показал надежность с небольшой чувствительностью к выбору гиперпараметров.

2.5 Сильные и слабые стороны

👍Сильные стороны

  • Значительно улучшенная точность по сравнению с одним PINN.
  • Устойчивость к выбору сетевой структуры и расположения.
  • Для точной настройки гиперпараметров требуется меньше усилий.
  • Гибкий и может быть легко интегрирован с другими методами PINN.

👎Слабые стороны

  • Не подходит для решения законов сохранения с производными раздутиями (например, невязкое уравнение Бюргерса, задача о ударной трубе Сода и т. д.), что связано с недостаточной чувствительностью решений этих уравнений к потерям УЧП.
  • Ограничения с точки зрения масштабируемости, поскольку для последовательного обучения нескольких нейронных сетей может потребоваться больше вычислительных ресурсов и времени.

2.6 Альтернативы

Поскольку это первая статья, в которой алгоритм бустинга вводится в домен PINN, в настоящее время нет подобной работы, как текущая статья.

Тем не менее, с точки зрения расширения возможностей PINN по моделированию сложных физических процессов в документе особо упоминается работа Кришнаприян и др.. Там стратегия состоит в том, чтобы разделить временную область на подинтервалы, и PINN строятся постепенно для моделирования каждого из подинтервалов (аналогично идее, изложенной в предыдущем блоге).

В текущей статье подход Кришнаприяна сравнивается с недавно предложенным в последнем эталонном тематическом исследовании (раздел 2.4 выше). Результаты показали, что предложенный подход бустинга позволяет снизить ошибку в 4 раза.

3 возможных будущих улучшения

Дальнейшие улучшения предлагаемой стратегии включают исследование оптимальной последовательной комбинации нейронных сетей, смешивание и сопоставление с другими типами архитектур нейронных сетей в итерациях обучения с повышением градиента, а также интеграцию других передовых методов обучения PINN (например, генерация остаточных точек). ) в тренировочную среду повышения градиента.

4 вывода

В этом блоге мы рассмотрели новую парадигму обучения PINN с помощью ансамблевого обучения на основе бустинга. Эта тема очень актуальна, поскольку она расширяет возможности PINN для решения сложных проблем, таких как проблемы с многомасштабными и сингулярными возмущениями.

Как обычно, вот выводы из шаблона проектирования, предложенного в этой статье:

  • [Проблема]: Как повысить способность PINN решать сложные проблемы?
  • [Решение]: Повышение градиента, при котором несколько «слабых» PINN последовательно обучаются для многократного улучшения общей производительности.
  • [Потенциальные преимущества]: 1. Возможность решать сложные задачи для наивного PINN. 2. Меньше усилий по настройке гиперпараметров

Вот еще одна дизайнерская карточка PINN:

Я надеюсь, что вы нашли этот блог полезным😃Если вы хотите узнать больше о шаблонах проектирования PINN, не стесняйтесь проверить предыдущие сообщения:

С нетерпением ждем возможности поделиться с вами новыми идеями в следующих блогах!

Ссылка

[1] Фанг и др., Ансамблевое обучение для нейронных сетей с информацией о физике: подход с повышением градиента, arXiv, 2023.

[2] Кришнаприян и др., Характеристика возможных режимов отказа в физических нейронных сетях, arXiv, 2021.