Архитектура и вес - два важных аспекта искусственных нейронных сетей. Архитектура сродни врожденному человеческому мозгу и содержит начальные настройки нейронной сети, такие как гиперпараметры, уровни, соединения узлов (или проводки) и т. Д. Между тем веса - это относительная сила различных соединений между узлами после обучения модели, которые могут быть можно сравнить с человеческим мозгом, который научился, например, умножать числа или говорить по-французски.

Как и в случае давних дебатов «природа против воспитания», исследователи ИИ хотят знать, играет ли архитектура или вес основную роль в производительности нейронных сетей. Ударом по стороне «воспитания» исследователи Google продемонстрировали, что нейронная сеть, которая не изучила веса посредством обучения, все же может достигать удовлетворительных результатов в задачах машинного обучения.

Исследователи Google Brain Адам Гайер и Дэвид Ха заявили, что их идея была вдохновлена ​​ранним поведением, которое развилось в природе, объясняя в сообщении в блоге: «В биологии ранние виды - это те, чьи детеныши уже обладают определенными способностями с момента рождения. Есть свидетельства того, что детеныши ящериц и змей уже обладают способностью убегать от хищников. Вскоре после вылупления утки могут плавать и есть самостоятельно, а индейки могут визуально распознавать хищников ».

Большинство исследований в области машинного обучения за последние десятилетия были связаны с проектированием соответствующих архитектур нейронных сетей для конкретных задач - например, сверточных нейронных сетей для задач компьютерного зрения и распознавания образов или рекуррентных нейронных сетей с длинной краткосрочной памятью для обработки временных рядов. данные, такие как речь и язык.

Цель нового исследования - найти нейронные сети, не зависящие от веса (WANN) с сильными индуктивными смещениями, которые могут выполнять различные задачи, используя только случайные начальные параметры. Процесс состоит из следующих этапов:

Шаг 1. Исследователи создают группу нейронных сетей с простейшей архитектурой - без скрытых узлов и только частично связанные входы и выходы;

Шаг 2. Каждая сеть оценивается в ходе нескольких развертываний, при этом при каждом развертывании назначаются разные общие значения веса (-2, -1, -0,5, +0,5, +1, +2);

Шаг 3. Сети ранжируются по их производительности и сложности;

Шаг 4. Исследователи изменяют топологии сети с наивысшим рейтингом одним из трех способов:

  • Вставьте новый узел;
  • Подключить ранее не подключенные узлы;
  • Переназначить функцию активации для скрытого узла, включая как обычные (например, линейный, сигмовидный, ReLU), так и более экзотические (гауссовский, синусоидальный, ступенчатый);

Шаг 5. Каждая измененная сеть повторяет шаги со 2 по 5.

Исследователи оценили WANN по трем задачам непрерывного контроля (CartPoleSwingUp, BipedalWalker-v2 и CarRacing-v0) со случайными весовыми параметрами, и результаты можно найти в таблице ниже. Например, классический эталонный тест для нелинейного управления CartPoleSwingUp состоит из шеста, который действует как перевернутый маятник, прикрепленного к тележке. Цель модели - управлять движением тележки, чтобы повернуть шест в вертикальное и сбалансированное положение.

Исследователи обнаружили, что результаты были на удивление хорошими, поскольку модели WANN с наиболее эффективными значениями общего веса достигли вертикального полюса в задаче CartPoleSwingUp только после нескольких колебаний.

Исследователи также применили WANN к задаче контролируемой классификации изображений и обнаружили, что сеть без силовой тренировки может достичь точности 82,0% ± 18,7% по набору данных MNIST. На Reddit Ха прокомментировал: «Мы также думали, что результат 80–90% (хороший или плохой) кажется достаточно интересным для сети, инициализированной со случайными весами, особенно по сравнению со случайной точностью».

Документ вызвал оживленную дискуссию в Твиттере и Reddit. В то время как некоторые авторы считают, что исследование отражает интересную сторону нейронных сетей, другие утверждают, что необученные нейронные сети совершенно непрактичны на практике.

Результаты экспериментов также доказали, что WANN не подходят для сверточных нейронных сетей, что было ожидаемым результатом.

Авторы статьи предполагают, что их выводы могут помочь решить ряд сложных проблем машинного обучения. «Эффективное обучение моделей, основанных на дискретных компонентах или использующих механизмы адаптивных вычислений с градиентными методами, остается сложной областью исследований. Мы надеемся, что эта работа будет стимулировать дальнейшие исследования, которые облегчат открытие новых архитектур, которые не только обладают индуктивными предубеждениями для практических областей, но также могут быть обучены с помощью алгоритмов, которые могут не требовать вычисления градиента ».

Прочтите статью в этом интерактивном блоге.

Журналист: Тони Пэн | Редактор: Майкл Саразен

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Подпишитесь на нас в Twitter @Synced_Global, чтобы получать ежедневные новости об ИИ!

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.