Основные моменты из учебных пособий ACL 2019

Здесь Nina @ Lab41 делится некоторыми яркими моментами первого дня 57-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL), которое проходило с 28 июля по 2 августа 2019 года. Это было дождливое воскресенье (28 июля) во Флоренции, в Фортецца да Баззо. Неплохой день, чтобы потратить на некоторые исключительно хорошо организованные обучающие программы!

Уроки были разделены на утреннее и дневное занятия. Утром я посетил Модели скрытой структуры для НЛП, которые представили Андре Мартинс, Цветомила Михайлова, Никита Нангиа и Влад Никулае. Днем я посетил Неконтролируемое межъязыковое НЛП, о котором будет рассказано в моем следующем сообщении в блоге. Оба были очень организованными, целенаправленными, подробными и понятными учебниками по соответствующим предметам. TL; DR ниже, за которым следуют более подробные основные моменты:

TL;DR:

Язык имеет структуру (см. Примеры ниже). Чтобы включить языковую структуру в глубокие нейронные сети, нам необходимо представить ее в скрытом пространстве.

Есть 2 проблемы, присущие представлению структуры языка в скрытом пространстве:

Высокая размерность возможных структур означает, что структура не может поместиться в памяти, и мы не можем зацикливаться на структуре или ее скрытом пространстве. Например, размер возможного дерева синтаксического анализа растет экспоненциально с увеличением количества слов в предложении.
Поскольку существует только одно правильное представление структуры, оно моделируется функцией argmax. Argmax закодирован в горячем режиме, поэтому его нельзя дифференцировать: градиент обращается в ноль, потому что производная горизонтальной линии равна 0.

Три подхода, подробно описанные ниже, позволяют решить эту проблему: стохастические скрытые переменные (например, с обучением с подкреплением), суррогаты градиента и непрерывная релаксация для сквозных дифференцируемых моделей. Эти подходы использовались в ряде задач НЛП для структурированного языка, включая анализ тональности, логический вывод естественного языка, языковое моделирование, машинный перевод и семантический анализ. Если вы хотите узнать больше, продолжайте читать ниже!

Такие подходы, как конвейеры структурированного прогнозирования, бывают быстрыми и изменяемыми, но требуют лингвистических аннотаций для каждого компонента. Таким образом, ошибки распространяются по конвейеру. Новые подходы, такие как сквозное обучение, устраняют эти ограничения, но с обучением представлению скрытые представления становятся неструктурированными.

Скрытые структуры позволяют создавать структурированные скрытые представления, обеспечивают интерпретируемость и позволяют вводить предшествующие знания в качестве структурированного предубеждения. Подход со скрытой структурой позволит вам достичь производительности, аналогичной BERT / Transformer, с меньшим количеством параметров!

В неструктурированных моделях скрытая переменная (z) является категориальной переменной. В структурированном объекте представление структуры z может быть представлено как битовый вектор, например, в приведенном ниже примере анализа зависимостей:

Однако вычисление наиболее вероятной структуры - это очень многомерный argmax:

С этим связаны две проблемы: высокая размерность означает, что структура (структуры) не может поместиться в памяти, и мы не можем выполнить цикл по s или z. Argmax закодирован в горячем режиме, поэтому его нельзя дифференцировать. Градиент обращается в ноль, потому что производная горизонтальной линии равна 0.

Есть 5 подходов к работе с дискретными скрытыми переменными; выделенные полужирным шрифтом рассматриваются в руководстве:

1. Подготовьте внешний классификатор.

2. Многозадачное обучение

3. Стохастические скрытые переменные - например, с использованием обучения с подкреплением

4. Суррогаты градиента

5. Непрерывное расслабление, создание сквозных дифференцируемых моделей

Структурированные представления

Вышеупомянутый маргинальный многогранник визуализирует взаимосвязь между битовыми векторами и маргинальным распределением возможных битовых векторов. Маржинальные распределения (μ) представляют собой выпуклые комбинации этих структурированных объектов: среднее значение z по множеству возможных отношений зависимости. Поскольку наиболее вероятной структурой является многомерный argmax, мы должны либо создавать инкрементные структуры, либо разлагать на части.

В приведенном выше примере документ (u) представлен как среднее значение вложений (E) для input (x); s дает вам структурированное представление, например, темы (z). Представление (v) используется для прогнозирования выходной метки регрессора (ŷ). Зеленые стрелки для обратного распространения показывают проблему исчезающего градиента: обратное распространение, проходящее через argmax.

Вот метод интуиции +, который вы можете использовать для трех подходов к обходу обратного распространения через argmax:

Стохастические скрытые переменные

Этот подход работает, потому что стохастичность не позволяет производной ∂z / ∂s быть равной нулю. Один из таких подходов, использующий обучение с подкреплением, обходит использование argmax, давая вознаграждение за правильную функцию. Таким образом, модель учится, получая вознаграждение и распространяя это вознаграждение в обратном направлении, а не вычисляя argmax. Стохастические методы скрытых переменных выводят скрытую структуру через маргинализацию.

Один из методов, который вы можете использовать: SPINN с REINFORCE - SPINN - это нейронная сеть интерпретатора синтаксического анализатора с расширенным стеком, а REINFORCE - это семейство методов RL, которые напрямую обновляют веса политики с помощью определенного правила.

Учитывая пару предложение-метка (x, y) и известное дерево синтаксического анализа z, мы можем сделать прогноз ŷ (z; x) и совместно изучить политику модели структурированного прогнозирования (π (z | x), оптимизируя ожидаемые потери . Парсер SPINN - это синтаксический анализатор сдвига-уменьшения на основе переходов: он принимает дискретное решение о сдвиге или уменьшении. SPINN смотрит на два верхних элемента стека (предыдущие слова в предложении) и верхний элемент буфера ( следующее слово). Если синтаксический анализатор выбирает REDUCE, TreeLSTM объединяет два верхних элемента стека. В противном случае выбор SHIFT перемещает элемент буфера в следующую строку стека. Подход RL удаляет синтаксический контроль и вознаграждается с помощью последующей задачи синтаксического анализа предложений. Вознаграждение дается только в том случае, если полное предложение проанализировано правильно.

Хотя эта проблема поддается RL из-за бинарной природы результатов (правильных или нет), этот подход имеет 2 ограничения: высокая дисперсия градиентов и коадаптация.

Наиболее зрелый подход этого типа устраняет эти ограничения, опираясь на ванильный метод SPINN-REINFORCE с использованием PPO (Proximal Policy Optimization, RL-модель политического градиента), входной зависимой переменной управления и градиентной нормализации (Havrylov et al., 2019) ). Такой подход может решить игрушечную математическую задачу LISTops, но не английский. Следующие два метода показали большую эффективность, чем проблемы с игрушками.

Суррогаты градиента

Этот подход обходит недифференцируемую z = argmax (η), делая вид, что z является некоторой непрерывной суррогатной функцией (µ˜). Поскольку это непрерывная функция, она дифференцируема. Суррогатная функция по существу создает обходной путь для argmax, но только в обратном направлении. Это отличается от следующего подхода, непрерывной релаксации, в котором argmax заменяется дифференцируемой функцией.

Самый простой метод, который вы можете использовать, - это тождественная функция: на прямом проходе μ˜ (η) = η, а на обратном проходе производная - это единичная функция I. Вы также можете установить μ˜ (η) = softmax (η).

Одним из наиболее зрелых подходов этого типа является вариант сквозной оценки (STE): (Martins and Niculae, 2019). Этот подход использует обновление персептрона с индуцированной аннотацией, и его также можно использовать в качестве альтернативы REINFORCE (в вышеупомянутом подходе стохастических скрытых переменных).

Есть несколько других суррогатов градиента, которые полагаются на аппроксимацию: например, выборка по Гамбелю с Perturb-and-MAP и Perturb-and-Parse допускает обратное распространение с прямой оценкой с идентичностью.

Постоянное расслабление, создание сквозных дифференцируемых моделей

Этот подход работает, потому что вы создали вероятностное распределение с центром в argmax, которое теперь можно дифференцировать. Вероятностное распределение дает некоторую вероятность для каждого варианта, где argmax дает вероятность 0 для всех, кроме варианта с максимальной вероятностью.

Один из методов, который вы можете использовать, - это вычисление маргиналов, которые дифференцированно ослабляют MAP (максимальный апостериорный вывод). Маржиналы похожи на softmax для структурированных объектов. Альтернативой вычисления маргиналов является SparseMAP: регуляризованный подход. Эта регуляризация обеспечивает некоторую дискретность. Это очень желательно для уменьшения высокой размерности структурного представления, поскольку только одна из структур является правильной.

Вот обзор подходов, направленных на устранение исчезающего градиента и высокую размерность моделирования скрытых структур:

Если вы хотите встретиться с Lab41 на будущих конференциях по НЛП, машинному обучению или искусственному интеллекту, сообщите нам об этом ниже или отправьте сообщение в наш твиттер @ _lab41

Lab41 - это испытательная лаборатория Кремниевой долины, в которой эксперты из разведывательного сообщества США (IC), академических кругов, промышленности и In-Q-Tel собираются вместе, чтобы лучше понять, как работать с большими данными и, в конечном итоге, использовать их.