Расширенное внимание: ключ к трансформерам стоимостью в миллиард токенов

Такие трансформеры, как GPT-3, продемонстрировали потрясающие возможности в языковом моделировании и генерации текста. Но осталось одно ограничение — их сложность квадратичных вычислений делает невозможным обработку чрезвычайно длинных последовательностей. Теперь это меняется с появлением LONGNET.

В новой статье исследователи из Microsoft Research предлагают LONGNET, архитектуру-трансформер, которая может масштабироваться до более чем 1 миллиарда токенов. Это представляет собой выдающийся прорыв, учитывая, что современные модели сегодня максимально работают с последовательностями в 100 000 токенов или около того.

Как работает ЛОНГНЕТ

Ключевым нововведением в LONGNET является новый механизм внимания, называемый «расширенным вниманием». Стандартное внимание трансформатора равномерно распределяется по всем жетонам ввода. Но расширенное внимание экспоненциально распределяет меньше внимания по мере увеличения расстояния между токенами.

Это означает, что он фокусируется именно на локальных зависимостях, в то время как более приблизительно фиксирует глобальную информацию. Авторы доказывают, что это снижает сложность до линейной, теряя при этом только логарифмическое разрешение между удаленными токенами.

LONGNET также сегментирует последовательность на фрагменты и параллельно применяет расширенное внимание к ним. Это обеспечивает гибкость, позволяющую сбалансировать эффективность и диапазон контекста.

Значительные улучшения в масштабе

Эксперименты демонстрируют возможности LONGNET. В тестах языкового моделирования он превосходит базовые преобразователи, такие как Sparse Transformer. Что еще более важно, он легко масштабируется до последовательностей в 32 000 и более.

За счет параллелизма между графическими процессорами LONGNET может достигать поразительной длины в 1 миллиард токенов с почти постоянным временем выполнения. По сути, это полностью снимает ограничение длины. Сравните это с ванильными трансформерами, которые все еще борются с квадратичными затратами в более длительных контекстах.

Почему это важно

Возможность обрабатывать такие огромные последовательности открывает совершенно новые возможности:

  • Обработка всего корпуса текстов как единой последовательности для дополнительного обучающего сигнала.
  • Использование всего Интернета в качестве контекста для веб-моделирования.
  • Предоставление огромного объема памяти для захвата большего количества шагов рассуждений.
  • Включение обучения несколькими выстрелами с помощью массивных подсказок.

Это также указывает на то, что преобразователям может не потребоваться фундаментальная модернизация для обработки длинных последовательностей. С такими оптимизациями, как рассеянное внимание, можно раскрыть всю их мощь.

Конечно, необходима дальнейшая работа по масштабированию моделей и обучению возможностям LONGNET. Но это ключевой первый шаг в снятии оков с трансформаторных вводов.

Сообщество ИИ взволновано последствиями LONGNET. Какие еще творческие варианты использования вы могли бы представить для контекстов трансформаторов с триллионами токенов? Дай мне знать в комментариях!