Краткое изложение документов о федеративном обучении, опубликованных на Международной конференции по представительствам в обучении 2021 г.

Введение

Мы все занятые люди, и трудно найти время для изучения докладов на конференциях, чтобы быть в курсе последних исследований в выбранной вами области. Не беспокойтесь, если вы занимаетесь федеративным обучением (FL), я сделал это за вас. Для этой одной конференции. Надеюсь, это сэкономит вам некоторое время, чтобы вы могли быстро отклонить статьи, которые вас не интересуют, и сосредоточиться конкретно на тех, которые вас интересуют, сохраняя при этом общую осведомленность об исследованиях в этой области в более широком смысле. Я включил документы во все устные, в центре внимания и постерные презентации. Со всеми документами ICLR можно ознакомиться здесь. И если вам нужно введение в FL, взгляните на мои более ранние записи в блоге здесь и здесь.

Итак, без лишних слов, в произвольном порядке, вот десять докладов (просто так получилось, что это хорошее круглое число), посвященных FL на ICLR 2021:

1. Федеративное обучение на основе динамической регуляризации

Дурмус Альп Эмре Акар, Юэ Чжао, Рамон Мэйтас, Мэтью Маттина, Пол Ватмаф, Венкатеш Салиграма

Учреждения

Бостонский университет, ARM

Новый алгоритм

FedDyn

Код

Не предоставлено

Резюме авторов в одном предложении

Мы представляем FedDyn, новый метод динамической регуляризации для федеративного обучения, в котором цель риска для каждого устройства динамически обновляется, чтобы гарантировать, что оптимум устройства асимптотически согласуется со стационарными точками глобальных потерь.

Мое резюме

Этот документ наиболее применим к кросс-девайсному FL, поскольку в нем рассматриваются коммуникационные накладные расходы FL. Динамическая регуляризация изменяет условия регуляризации (линейные и квадратичные штрафные условия) в локальной нейронной сети каждого устройства на каждом этапе, чтобы убедиться, что она соответствует глобальному минимуму потерь. Это означает, что на устройстве можно выполнить больше вычислений, прежде чем нужно будет делиться обновлениями, параметрами загрузки и т. д. Авторы демонстрируют эмпирические результаты и улучшают предыдущую SOTA в этой области (SCAFFOLD). Их алгоритм также обладает полезными свойствами работы как в выпуклых, так и в невыпуклых настройках, будучи полностью независимым от неоднородности устройств и устойчивым к большому количеству устройств, частичному участию и несбалансированным данным.

2. Федеративное обучение с помощью апостериорного усреднения: новая перспектива и практические алгоритмы

Маруан Аль-Шедиват, Дженнифер Гилленуотер, Эрик Син, Афшин Ростамизаде

Учреждения

Гугл, КМУ

Новый алгоритм

FedPA

Код

https://github.com/alshedivat/fedpa

Резюме авторов в одном предложении

Новый подход к федеративному обучению, который обобщает федеративную оптимизацию, сочетает локальную выборку на основе MCMC с апостериорным выводом на основе глобальной оптимизации и обеспечивает конкурентоспособные результаты в сложных тестах.

Мое резюме

В этой статье FL преобразуется из проблемы глобальной оптимизации в задачу апостериорного вывода. Но что это на самом деле означает? Ну, если вы вспомните свою байесовскую статистику, апостериорная вероятность — это вероятность параметров, тета, при наличии свидетельства X: P(тета | X), т. е. вероятность чего-то после учета соответствующего фона (априорных) и свидетельства ( вероятность). В этом случае параметры, на которые мы ссылаемся, являются фактическими параметрами модели. Локальный апостериорный вывод выполняется на клиентах для уточнения глобальной оценки апостериорного режима. Метод стохастического градиента цепи Маркова Монте-Карло используется для аппроксимации выборки из локальных апостериорных значений на клиентах. Эта федеративная локальная выборка не позволяет весам локальной модели когда-либо отклоняться слишком далеко от глобального оптимума. FedPA не только приводит к лучшей сходимости модели (более быстрой и с лучшими оптимумами), чем FedAvg (как показано на рисунке ниже), но также выигрывает от увеличения объема локальных вычислений, что делает его особенно привлекательным в условиях нескольких устройств. Наконец, авторы показывают, что FedAvg, по сути, является субоптимальным частным случаем FedPA, и сообщают о результатах SOTA по некоторым эталонным тестам.

3. Адаптивная федеративная оптимизация

Сашанк Дж. Редди, Закари Чарльз, Манзил Захир, Захари Гаррет, Кит Раш, Якуб Конечный, Санджив Кумар, Хью Брендан МакМахан

Учреждения

Google

Новый алгоритм

FedOpt

Код

https://github.com/google-research/federated/tree/master/optimization

Резюме авторов в одном предложении

Мы предлагаем методы адаптивной федеративной оптимизации и подчеркиваем их улучшенную производительность по сравнению с популярными методами, такими как FedAvg.

Мое резюме

Авторы адаптируют оптимизаторы Adam, Adagrad и Yogi для работы в федеративных условиях и показывают, что это улучшает результаты по сравнению с обычным алгоритмом FedAvg с SGD на множестве различных наборов данных. Адаптивная часть оптимизации выполняется на сервере, а на клиентах просто работает обычный SGD. Это гарантирует, что метод имеет ту же стоимость связи, что и FedAvg, и, следовательно, может реально работать в настройках нескольких устройств. Общая версия их алгоритма оптимизации называется FedOpt и показывает, что отрицательная разница средней модели действительно может использоваться в качестве псевдоградиента в общих обновлениях оптимизатора сервера.

4. Достижение линейного ускорения с частичным участием работников в федеративном обучении без IID

Хайбо Ян, Минхонг Фан, Цзя Лю

Учреждения

штат Огайо

Код

Не предоставлено

Резюме авторов в одном предложении

Не предоставлено

Мое резюме

У FL есть хорошее свойство, заключающееся в том, что он имеет линейную зависимость между сходимостью и количеством рабочих, т. е. производительность сходимости увеличивается линейно по отношению к количеству рабочих. Однако это было доказано только с помощью наборов данных IID и/или полного участия работников. Авторы по существу отвечают на то, что ранее было открытым вопросом, и показывают, что это свойство все еще сохраняется в настройках, отличных от IID, и/или при частичном участии работников.

5. Федеративное полууправляемое обучение с межклиентской согласованностью и раздельным обучением

Вонён Чжон, Джэхон Юн, Ынхо Ян, Сон Джу Хван

Учреждения

Корейский передовой институт науки и технологий (KAIST)

Новый алгоритм

FedMatch

Код

https://github.com/wyjeong/FedMatch

Резюме авторов в одном предложении

Мы представляем новую практическую проблему федеративного обучения с дефицитом контроля и изучаем два реалистичных сценария с новым методом решения проблем, включая согласованность между клиентами и непересекающееся обучение.

Мое резюме

Авторы представляют новый алгоритм FedMatch для полуконтролируемого обучения. Они сосредоточены на двух федеративных парадигмах: в одной у каждого клиента есть сочетание размеченных и неразмеченных данных, а в другой — у клиентов есть только неразмеченные данные, а у сервера есть размеченные данные. Двумя основными компонентами алгоритма являются (1) потеря согласованности между клиентами, которая упорядочивает модели, изученные на нескольких клиентах, для вывода одного и того же прогноза, и (2) и декомпозиция параметров, так что модель имеет один набор весов для неконтролируемого обучения и другой набор веса для контролируемого обучения. Они показывают, что их алгоритм превосходит локальное полуконтролируемое обучение и другие наивные базовые уровни на нескольких разных наборах данных в настройках IID и без IID.

6. FedBN: объединенное обучение функциям, не относящимся к IID, с помощью локальной пакетной нормализации

Сяосяо Ли, Мэйруи Цзян, Сяофэй Чжан, Майкл Камп, Ци Доу

Учреждения

Принстон, CUHK, штат Айова, Монаш

Новый алгоритм

FedBN

Код

https://github.com/med-air/FedBN

Резюме авторов в одном предложении

Мы предлагаем новый и эффективный метод агрегирования федеративного обучения, обозначенный как FedBN, который использует локальную пакетную нормализацию для эффективного решения малоизученной проблемы, связанной с неоднородным распределением признаков, или смещением признаков.

Мое резюме

Пакетная нормализация (BN) — важный и в настоящее время повсеместно распространенный компонент архитектуры нейронных сетей, улучшающий сходимость и стабильность модели. Однако было проделано мало работы по адаптации слоев BN к федеративным настройкам, вместо этого они либо обычно удаляются, либо обрабатываются наивно, как обычные слои. В этой статье предлагается удивительно простое, но эффективное решение, заключающееся в том, что слои BN включаются в модель, но просто не синхронизируются с глобальной моделью, так что каждая локальная модель имеет свои персонализированные слои BN. Это повышает производительность по сравнению со стандартным FedAvg, особенно с данными, не относящимися к IID, где это помогает смягчить изменения функций. Однако одно предостережение заключается в том, что все эксперименты проводятся только с двухслойной нейронной сетью.

7. FedBE: применение ансамбля байесовских моделей для федеративного обучения

Хун-Ю Чен, Вэй-Лунь Чао

Учреждения

штат Огайо

Новый алгоритм

FedBE

Код

Не предоставлено

Резюме авторов в одном предложении

Не предоставлено

Мое резюме

В этой статье рассматривается байесовский вывод для части агрегации моделей FL. Алгоритм авторов, FedBE, может быть простым дополнением к обычному алгоритму FedAvg (или любому другому). Единственное отличие заключается в шаге агрегирования, который использует байесовское ансамблирование для получения наилучшего среднего вместо простого среднего арифметического. Их результаты наиболее убедительны, когда FedBE сочетается со стохастическим усреднением веса, где мы видим значительные улучшения по сравнению с базовыми показателями. Важно отметить, что эти улучшения также демонстрируются с более глубокими архитектурами, такими как ResNets, на данных, отличных от IID. Одно предостережение, однако, заключается в том, что их алгоритм основан на некоторых вычислениях, выполняемых сервером на небольшой части немаркированных данных. Это вполне может быть неосуществимым предположением для многих ситуаций.

8. FedMix: аппроксимация смешивания при среднем расширенном федеративном обучении

Техрим Юн, Сумин Шин, Сон Джу Хван, Ынхо Ян

Учреждения

КАИСТ

Новый алгоритм

FedMix

Код

Не предоставлено

Резюме авторов в одном предложении

Мы представляем новую федеративную структуру Mean Augmented Federated Learning (MAFL) и предлагаем эффективный алгоритм Federated Mixup (FedMix), который показывает хорошую производительность в сложных ситуациях, не связанных с iid.

Мое резюме

В этой статье представлены новая структура и алгоритм, которые снова решают проблему данных, отличных от IID, — на этот раз с увеличением данных. Их работа основана на алгоритме MixUp, который представляет собой простой метод увеличения данных с использованием линейной интерполяции между двумя парами вход-метка. Их общая структура, Mean Augmented Federated Learning (MAFL), основана на FedAvg, но с одним отличием: в дополнение к совместному использованию параметров модели клиенты также совместно используют усредненные (или пюре, как это называют авторы) данные. Затем каждый клиент по существу распаковывает данные других клиентов в каждом раунде и тренируется с ними вместе со своими локальными данными. Проблема здесь, конечно, в том, что это не очень федерация для среды FL, и необходимо найти компромисс в отношении конфиденциальности. Алгоритм FedMix, основанный на этой структуре, улучшает наивную производительность MAFL за счет более систематического приближения к глобальному MixUp. FedMix и наивная реализация превосходят FedAvg и FedProx в сценариях без IID в наборах данных CIFAR и FEMNIST. Одним из важных недостающих элементов в этом исследовании является риск конфиденциальности, который, по словам авторов, выходит за рамки этой работы.

9. HeteroFL: федеративное обучение с эффективными вычислениями и коммуникациями для разнородных клиентов

Энмао Диао, Цзе Дин, Вахид Тарох

Учреждения

Дьюк, Миннесота

Новый алгоритм

HeteroFL

Код

https://github.com/dem123456789/HeteroFL-Computation-and-Communication-Efficient-Federated-Learning-for-Heterogeneous-Clients

Резюме авторов в одном предложении

В этой работе мы предлагаем новую интегрированную среду обучения под названием HeteroFL для обучения разнородных локальных моделей с различной вычислительной сложностью.

Мое резюме

Одно из основных требований или допущений FL заключается в том, что все модели имеют одинаковую архитектуру нейронной сети. HeteroFL ставит под сомнение это предположение и показывает, что можно адаптировать FL к сценариям, в которых разные клиенты имеют разные архитектуры. Однако это не полная переработка FL в том виде, в каком мы его знаем. Все клиенты имеют различные подмножества весов глобальной модели, и цель по-прежнему состоит в совместном обучении этой глобальной модели. Глубина модели сохраняется одинаковой для всех моделей, что означает, что изменяется количество нейронов в каждом слое. Авторы демонстрируют результаты с использованием архитектур CNN, PreResNet18 и Transformer.

10. Персонализированное федеративное обучение с оптимизацией модели первого порядка

Майкл Чжан, Каран Сапра, Санджа Фидлер, Серена Юнг, Хосе М. Альварес

Учреждения

Стэнфорд, NVIDIA

Новый алгоритм

FedFomo

Код

Не предоставлено

Резюме авторов в одном предложении

Мы предлагаем новую структуру федеративного обучения, которая эффективно вычисляет персонализированную взвешенную комбинацию доступных моделей для каждого клиента, превосходя существующую работу по персонализированному федеративному обучению.

Мое резюме

Вместо того, чтобы вносить изменения в FL, чтобы сделать глобальную модель более надежной, FedFomo предлагает решить проблему данных, отличных от IID, путем персонализации локальной модели. Глобальной модели нет. Вместо этого на каждом этапе каждый клиент получает обновления от подмножества других клиентов в зависимости от того, насколько этот клиент выиграет от этих параметров. Это подтверждается производительностью на наборе проверки на каждом клиенте. В идеале каждый клиент отправлял бы свою модель каждому другому клиенту, но затраты на связь, вероятно, были бы непомерно большими, даже в небольшой межсистемной среде. Вместо этого количество моделей ограничено, и используется схема выборки для выборки различных моделей в зависимости от того, насколько они помогли в предыдущих раундах. Их метод превосходит другие существующие решения.

Следующие документы не посвящены непосредственно FL, но они связаны с этой областью, поэтому я включил их ниже:

1. CaPC Learning: конфиденциальное и частное совместное обучение

Кристофер А. Шокетт-Чу, Натали Дюллеруд, Адам Дзедзич, Юньсян Чжан, Сомеш Джа, Николя Паперно, Сяо Ван

Учреждения

Торонто, Институт Вектора

Новый алгоритм

CapC

Код

https://github.com/cleverhans-lab/capc-iclr

Резюме авторов в одном предложении

Метод, который позволяет сторонам улучшать свои собственные локальные гетерогенные модели машинного обучения в условиях совместной работы, где необходимо сохранять как конфиденциальность, так и конфиденциальность, чтобы предотвратить как явный, так и неявный обмен личными данными.

Мое резюме

Предлагаемая альтернатива FL для улучшения локальной модели на основе частных данных. Обеспечивает совместную работу без обмена данными или параметрами модели, а разные клиенты могут иметь совершенно разные модели. Вместо этого они будут сотрудничать, запрашивая друг у друга метки входных данных, в отношении которых они не уверены. В парадигме активного обучения одна сторона задает запросы в виде образцов данных, а все остальные вместе дают ответы в виде предсказанных меток. Каждая модель может использоваться как на этапе запроса, так и на этапе ответа, при этом запрашивающая сторона чередуется между разными участниками протокола. Эта работа основана на PATE, частном объединении ансамблей учителей, и опирается на HE, MPC и DP для обеспечения необходимых гарантий конфиденциальности. Авторы демонстрируют эффективность своей модели на обширных экспериментах. Однако в экспериментах не проводится сравнение с FL.

2. Для индивидуального обучения нужны лучшие функции (или гораздо больше данных

Флориан Трэмер, Дэн Боне

Учреждения

Стэнфорд

Код

https://github.com/framer/Handcrafted-DP

Резюме авторов в одном предложении

Линейные модели с созданными вручную функциями превосходят сквозные CNN для дифференциального частного обучения

Мое резюме

Решает проблему, заключающуюся в том, что DP добавляет слишком много шума, что делает модели CNN непригодными для использования и хуже, чем линейные модели. Они показывают, что ручная обработка функций с помощью ScatterNet значительно повышает производительность CNN, но они по-прежнему в основном хуже, чем линейные модели с функциями, созданными вручную. В принципе, в этой области еще далеко.

Резюме

Итак, чему мы научились? Что ж, основное внимание, похоже, было сосредоточено на повышении производительности данных, не относящихся к IID, с множеством очень интересных идей, затрагивающих различные аспекты, от BatchNorm и регуляризации до оптимизаторов и агрегации моделей. Даже там, где это не было в центре внимания, в большинстве статей все равно сообщались результаты по данным, не относящимся к IID, и это было приятно видеть. О, у нас также есть целая куча новых алгоритмов, названия которых мы должны запомнить: FedMix, FedMatch, FedFomo, FedBE, FedBN, FedOpt, FedDyn, FedPA и HeteroFL. Старайтесь не отставать.

Первоначально опубликовано на https://amin-nejad.github.io 17 мая 2021 г.