РЕАЛЬНОЕ ПРИМЕНЕНИЕ СИМВОЛИЧЕСКОЙ РЕГРЕССИИ

Google предлагает новый метод получения аналитических выражений для терминов в вычислениях квантовой механики

Новый метод выводит точные функционалы (элементы квантово-механических расчетов) в символической форме, следовательно, их можно интерпретировать человеком, они дешевы для вычислений и легко интегрируются в существующее программное обеспечение для квантово-механических расчетов.

Не новость, что гигант Alphabet довольно много инвестирует в приложения машинного обучения для науки через такие каналы, как Google Research и Deepmind. В то время как в области химии и биологии AlphaFold, безусловно, является его самым известным проектом, Deepmind также занялся квантово-механическими (QM) вычислениями (моя запись в блоге), а также занимается Google Research.

Расчеты КМ очень важны в химии, поскольку они обеспечивают высочайший уровень детализации электронной плотности, распределения и спинового состояния в молекулах и материалах, всех ключевых элементов, необходимых для моделирования, понимания и прогнозирования их химической активности и физико-химических свойств. из которых доступны классическими методами. Новая работа, которую я здесь комментирую, исходит от Google Research и также посвящена способам улучшения расчетов QM. В частности, Ма и др. разработали новый метод получения символических аналитических форм функционалов DFT.

Что это такое?

По сути, расчеты КМ пытаются описать электронные свойства молекул и материалов из первых принципов, прямо из распределений, состояний и энергий их электронов. Для этого КМ необходимо решить многочастичное уравнение Шредингера для взаимодействующих электронов.

Сегодня наиболее широко используемым методом для выполнения расчетов QM является теория функционала плотности (DFT). DFT требует, чтобы модули каким-то образом обрабатывали взаимодействие нескольких электронов, что достигается с помощью определенных терминов обменной корреляции (XC). Теоретически эти термины должны быть точными, но на практике нет. Следовательно, в большинстве приложений они аппроксимируются числовыми способами, такими как аналитические уравнения, подгоняемые к параметрам, нейронные сети, обученные на основе данных и т. д., с использованием наборов данных о молекулярных свойствах или свойствах материалов.

Большинство доступных XC-функционалов состоят из уравнений, содержащих небольшое количество подогнанных параметров, которые выполняются быстро за счет качества результатов, или сложных выражений с очень большим количеством параметров или даже нейронных сетей черного ящика, которые дают более точные результаты, но на за счет скорости вычислений и интерпретируемости. Кроме того, нейронные сети и другие термины XC, не основанные на аналитических формах, сложно интегрировать в программные пакеты для вычислений DFT.

Работа Ма и др. берет лучшее из обоих миров: в ней используется метод машинного обучения, основанный на символьной регрессии, для построения аналитических уравнений, которые представляют функционалы XC на основе элементарных математических инструкций и других более мелких, уже существующих функционалов. Алгоритм начинается с небольшого набора простых параметров, терминов и, в конечном счете, небольших существующих функционалов, создает совокупность возможных решений и развивает их на протяжении поколений, чтобы получить уравнения, объединяющие все эти ингредиенты в символические выражения, воспроизводящие набор данных, используемый для обучение.

Символическое представление функционалов XC, созданных этим новым методом, выглядит точно так же, как и обычные функционалы XC, используемые в программном обеспечении QM, поэтому их интеграция в программные пакеты проста.

Приложения

Ма и др. назвали процедуру «Символический функциональный эволюционный поиск», так как это то, что она делает: она выводит символическое выражение, описывающее функционал, и выполняет поиск в пространстве форм уравнений и параметров для оптимизации того, насколько хорошо воспроизводятся обучающие данные.

В качестве первого приложения авторы демонстрируют, что их метод может заново открывать простые существующие функционалы с нуля и, кроме того, может получать новые, более точные функционалы, полученные из более простых, но сохраняющие простоту, допускаемую символической регрессией.

Затем они применили свой метод для разработки нового функционала, который они назвали «Google Accelerated Science 22» (GAS22), который работает лучше, чем лучшая зарекомендовавшая себя альтернатива, демонстрирует хорошую численную стабильность и легко интегрируется в существующее программное обеспечение QM. Кроме того, учитывая его простоту, GAS22 поддается всем методам интерпретации, обычно применяемым к функционалам, чтобы понять их работу и ограничения.

Более эффективные функционалы необходимы для повышения качества расчетов QM; в то время как более быстрое выполнение позволяет получить доступ к более крупным системам, то есть с большим количеством атомов, как обычно требуется для обработки биологических систем и кусков материалов. Новый метод и, возможно, другие разработки в этом направлении Google Research (и, конечно, в академическом сообществе, а также в других небольших, но хорошо зарекомендовавших себя компаниях) важны для будущего, когда ученые тратят меньше времени и денег на эксперименты, потому что они могут сначала предсказать свои результаты с большей точностью и быстрее.

Связанные чтения

Препринт в arXiv:



ОБНОВЛЕНИЕ. Препринт был принят после рецензирования в Science Advances:

https://www.science.org/doi/10.1126/sciadv.abq0279

Связанная работа Deepmind:



Другие примеры применения символической регрессии в науке:



www.lucianoabriata.com Пишу и снимаю обо всем, что лежит в сфере моих широких интересов: природа, наука, технологии, программирование и т. д. Стать участником Medium , чтобы получить доступ ко всем его историям (партнерские ссылки платформы, за которые я получаю небольшой доход бесплатно для вас) и подписаться, чтобы получать мои новые истории по электронной почте. Чтобы проконсультироваться по поводу небольших вакансий, посетите мою страницу услуг здесь. Вы можете связаться со мной здесь.