В этой статье рассматривается точка зрения, противоположная статье профессора Гэри Маркуса «Искусственный интеллект застрял. Вот как двигаться вперед», опубликованном в New York Times.



Хотя я признаю достоинства основного аргумента о том, что академические исследовательские лаборатории часто испытывают нехватку денег, а у промышленности в целом нет ни особых стимулов, ни часто амбиций или мужества, чтобы мыслить за узкими рамками своих немедленных денежных доходов; Последние несколько лет были весьма увлекательными для меня как исследователя в том смысле, что я наблюдал более тесный обмен идеями и людьми между академическими кругами и промышленностью. Решение, на мой взгляд, заключается в укреплении различных аспектов этого сотрудничества, а не в разработке новой модели.

Я принимаю точку зрения исследователя/предпринимателя, перешедшего из научных кругов в промышленность, и пытаюсь создать лабораторию/группу исследователей компьютерного зрения для изучения приложений компьютерного зрения и машинного обучения для решения проблем и изучения новых возможностей в среде. фотографии (https://www.eyeem.com/tech).

Что сейчас работает

Что интересно, так это то, что несколько различных настоящих исследовательских лабораторий в промышленности (Google Brain/DeepMind, FAIR, OpenAI, MSR) и т. д. структурированы по модели, сильно вдохновленной и синхронизированной с академической моделью. Их основной упор делается на публикацию идей, содействие воспроизводимым исследованиям, выпуск наборов данных (которые являются основным активом) и кода.

Чтобы привести пример, несколько лет назад, когда я был аспирантом/постдоком, большую часть своего времени я тратил на повторную реализацию связанных рабочих идей, написание различных оптимизаторов и т. д. или просто на компиляцию кода, написанного для другой платформы, что, по-видимому, неизменно. зависят от различных эзотерических библиотек. Теперь этот процесс стал намного проще благодаря поддержке хорошо протестированных и задокументированных библиотек. Например, библиотеки, которые мы используем в моей группе: Tensorflow (разработанная внутри Google, с большим количеством людей, вносящих свой вклад в .contrib), pytorch (разработанная внутри FAIR, с большим количеством активных исследователей и практиков, продвигающих релизы по запросу) и Theano (Uni Montréal, при поддержке такого же возбужденного сообщества) сделал этот процесс намного более эффективным. Теперь я провожу в этом процессе день или два, а не недели.

Это в равной степени относится и к воплощению идеи в прототип. Например: для разных проектов, на разных стадиях я с нуля реализовал SVM, Random Forest, дескрипторы SIFT, MLP и т.д. Все это многонедельные усилия. На данный момент это от 1 до 2 строк кода Python (ура!). Я помню, как в EPFL (около 7–8 лет назад) ходил популярный миф, где я делал свой постдок, что сверточные нейронные сети могут быть обучены только избранным небольшим количеством людей, которые были учениками профессора Яна Лекуна. . Тем не менее, новый студент-бакалавр может обучить такую ​​​​сеть благодаря всем интересам и открытиям, отныне представленным в виде учебных пособий и демонстрационных кодов.

Другой факт, который я заметил, также касается таких конференций, как CVPR/NIPS, характер бесед, которые я веду между коллегами-исследователями, остался тем же, что и до глубокого обучения (хотя сам масштаб этих конференций резко увеличился); это все еще остается о более новых идеях, последствиях, возможных поворотах и ​​​​расширениях. Это контрастирует с общедоступными сведениями о работе в области компьютерного зрения и машинного обучения в Google/Microsoft/Facebook/и Apple (?) :-) несколько лет назад, которые в основном держались в коммерческой тайне.

Основное возражение

Думайте как сообщество, а не как изолированная академическая группа

«Необходимо слишком много отдельных компонентов, чтобы одна лаборатория могла решить эту проблему. Полное решение будет включать в себя достижения в обработке естественного языка (например, разбор предложений на слова и фразы), представление знаний (например, объединение содержания предложений с другими источниками знаний) и вывод (восстановление того, что подразумевается, но не написано). Каждая из этих задач представляет собой работу на всю жизнь любой отдельной университетской лаборатории».

На мой взгляд, именно здесь можно максимально использовать возможности исследовательского сообщества. Я, в первую очередь, исследователь компьютерного зрения, и меня интересует пространство между тем, как мы взаимодействуем с визуальными элементами с помощью языка, и абстрактными (безъязыковыми?) мыслями о визуальных элементах (примером является наша работа по персонализированной эстетике: https://devblogs .nvidia.com/parallelforall/personalized-aesthetics-machine-learning/ ). Это включает в себя глубокое размышление и активную работу по представлению и выводу знаний, как упоминалось в статье. Хотя опыт нашей группы в основном сосредоточен на компьютерном зрении; публикации, взаимодействия, код и наборы данных, выпущенные исследовательским сообществом в этом направлении, сделали эту задачу доступной для нас; и дал нам возможность думать об этих проблемах в нашей собственной перспективе и повествовании. Мы должны думать об этих проблемах как о сообществе, но не обязательно об одной группе.

Отличия от ЦЕРН

В отличие от поиска частиц в ЦЕРН (или гравитационных волн в LIGO), нынешнее состояние исследований ИИ все еще находится в относительно зачаточном состоянии, чтобы гарантировать «целенаправленный» поиск международными организациями. То есть у нас нет эквивалента достоверного постулата, такого как лоно Хиггса или гравитационные волны, для проведения поиска такого масштаба.

Он также не требует аппаратного обеспечения такого масштаба. Я пускаю слюни на возможность доступа к GPU-кластерам масштаба ATLAS; но это я инфантилен. Постулаты, которые у нас есть в отношении ИИ (например, как справиться с неконтролируемым обучением), можно перепроверить с помощью относительно гораздо меньшего набора оборудования, хотя и с ограниченным набором данных. На мой взгляд, будет очень интересно обучить сети кодировщика-декодера в стиле VAE/GAN из нескольких триллионов точек данных, но является ли это фундаментальной проблемой, которую нам нужно решить в данный момент для понимания/моделирования интеллекта? Здесь есть много интересных вопросов, на которые нам нужно ответить; например, каковы возможности обобщения модели в стиле VAE/GAN; они запоминают или имеют интересные возможности обобщения. Но я хочу сказать, что это не те вопросы, на которые мы можем ответить, имея масштаб или объем. По моему опыту, различные группы подходят к проблеме в различных формах, как правило, это лучший способ достичь оптимального ответа (подумайте обо всем вкладе различных групп с точки зрения архитектуры, нелинейностей, схем дискретизации, функций потерь и т. д., которые обычно используется в обученной архитектуре глубокого обучения в наши дни).

Текущее горлышко бутылки

Доступ к данным, доступ к вычислительным ресурсам и количество высококвалифицированных исследователей, работающих над фундаментальными по своей природе проблемами, остается текущим узким местом для роста этой области. На данный момент, как с промышленной, так и с академической точки зрения, создание крупномасштабных исследовательских лабораторий ИИ за пределами богатых наличными корпорациями (у которых есть несколько миллиардов долларов карманных денег) по-прежнему является трудной задачей и рискованным делом. Нельзя отрицать, что угроза А.И. быть собственностью привилегированного меньшинства реально.

Тем не менее, это то, что исследовательское сообщество может активно решать, оставаясь верным чувству открытости и приверженности чистому удовольствию узнавать что-то в качестве основных критериев. Честно говоря, я более оптимистично отношусь к нашей области, чем я был 4-5 лет, нам просто нужно поддерживать идею исследований в прямом смысле этого слова!