GPT-3: мощное новое начало

Нейронная сеть, генерирующая текст, с самой большой на сегодняшний день обученной моделью

OpenAI GPT-3 - это мощная нейронная сеть, генерирующая текст, предварительно обученная на самом большом на сегодняшний день корпусе текста, способная к сверхъестественным предсказуемым текстовым ответам на основе его входных данных, и в настоящее время является самой мощной из созданных языковых моделей.

GPT - это аббревиатура от G активного P переобученного T преобразователя. GPT-2, объявленный в феврале 2019 года OpenAI, был обучен на наборе данных WebText, который содержал более 8 миллионов документов или 38 ГБ текстовых данных, извлеченных из материалов Reddit. В ноябре 2019 года вышла финальная версия GPT-2, содержащая предварительную тренировку по 1,5 млрд параметров.

Для сравнения, GPT-3 был обучен 175 миллиардам параметров и менее триллионам слов, в результате чего его предшественник GPT-2 с 1,5 миллиардами параметров выглядел в миниатюре в одну сотую размера. И обратите внимание, что GPT-2 был официально выпущен менее чем годом ранее, в ноябре 2019 года. Следующей по величине моделью является T5 от Google, который имеет всего 11 миллиардов параметров.

Чем он хорош?

Возможности GPT-3 в предсказании текста и языка невероятны. Он может писать функционирующий код, может отвечать диалогами, звучащими по-человечески, генерировать изображения, писать статьи, художественные рассказы, книги или даже выполнять повседневную задачу по написанию электронной почты.

Прогнозы не всегда идеальны, поскольку один GPT-3 на самом деле не понимает, что означают эти слова. Прочтите - Есть ограничения?

Простыми словами

В простейшем случае GPT-3 берет фразу входящего текста и предсказывает, каким должен быть следующий текст на выходе. Этот тип машинного обучения не «думает», он обрабатывает вводимый текст на основе ранее обученных данных и переводчиков времени выполнения.

Предварительное обучение проводится на огромном наборе данных, включая общедоступный Интернет, сборник книг и Википедию. Значительно расширяя примеры для обучения, он улучшает качество и производительность своего ответа. Будучи настолько большим, GPT-3 оценивался в колоссальные 5 миллионов долларов на обучение, что ставит под сомнение масштабируемость затрат в будущем, следующих версиях GPT-3.

Один из основных наборов обучающих данных, используемых для обучения GPT-3, был взят из CommonCrawl «», который представляет собой свободно доступный общедоступный набор данных, состоящий из обходов общедоступной сети, содержащих почти триллион слов. CommonCrawl составлял 60% веса тренировок и вводил более 400 миллиардов токенов.

Разбивка набора данных и распространение обучения

dataset       tokens        weight in training
-----------   -----------   ------------------
CommonCrawl   410 billion   60% 
WebText2      19 billion    22%
Books1        12 billion    8%
Books2        55 billion    8%
Wikipedia     3 billion     3%

Почему больший набор данных лучше?

Недавняя работа продемонстрировала существенный выигрыш по многим задачам и тестам НЛП за счет предварительного обучения на большом корпусе текста с последующей тонкой настройкой для конкретной задачи. Хотя этот метод обычно не зависит от задачи в архитектуре, он по-прежнему требует точной настройки наборов данных для конкретных задач, состоящих из тысяч или десятков тысяч примеров. Напротив, люди, как правило, могут выполнять новую языковую задачу всего на нескольких примерах или с помощью простых инструкций - то, что современные системы НЛП все еще в значительной степени с трудом справляются. Здесь мы показываем, что масштабирование языковых моделей значительно улучшает независимую от задачи производительность, требующую нескольких операций, а иногда даже достигает конкурентоспособности с помощью предшествующих современных подходов к тонкой настройке. В частности, мы обучаем GPT-3, авторегрессивная языковая модель с 175 миллиардами параметров, что в 10 раз больше, чем у любой предыдущей не разреженной языковой модели, и проверка ее производительности в режиме нескольких снимков.

Источник arvix 2005.14165v4.

Есть ограничения?

Да, создатели GPT-3 признают ограничения. В области синтеза текстов:

При синтезе текста, хотя общее качество высокое, образцы GPT-3 все же иногда семантически повторяются на уровне документа, начинают терять связность в достаточно длинных отрывках, противоречат самим себе и иногда содержат предложения или абзацы, не являющиеся последовательными.

Для сравнения, люди способны сохранять устойчивую мысленную точку зрения, тогда как GPT-3 может терять фокус и «забывать» в течение более длинных переходов.

В рамках дискретных языковых задач, таких как «физика здравого смысла»:

В области дискретных языковых задач мы неофициально заметили, что GPT-3, похоже, испытывает особые трудности с «физикой здравого смысла», несмотря на хорошие результаты с некоторыми наборами данных (такими как PIQA [BZB + 19]), которые тестируют эту область. В частности, GPT-3 испытывает трудности с вопросами типа «Если я положу сыр в холодильник, он расплавится?».

Из этого отрывка не ясно, можно ли смягчить «физику здравого смысла» в будущем путем обучения на наборах физических данных.

И эта общая и важная проблема, связанная с предвзятостью в большинстве систем глубокого обучения:

Наконец, GPT-3 имеет некоторые ограничения, общие для большинства систем глубокого обучения - его решения нелегко интерпретировать, он не обязательно хорошо откалиброван в своих прогнозах на новых входных данных, о чем свидетельствует гораздо более высокая дисперсия в производительности, чем у людей, на стандартных тестах. и он сохраняет предвзятость данных, на которых его обучали.

Заключение

GPT-3 - это значительный шаг вперед, но в большей степени с точки зрения масштаба, поскольку он имеет во многом ту же архитектуру, что и GPT-2. На самом деле речь идет о проверке гипотезы о масштабировании языковых моделей для значительного повышения производительности.

Некоторые из наиболее многообещающих областей - GPT-3 как инструмент расширенного творчества, написание в целом, генерация кода или второй пилотный проект. Это не ИИ, который захватит мир, но следует помнить о нем как о важном моменте.