EconoBERT: преодоление разрыва между НЛП и экономикой

За последний месяц я решил начать личный вклад, связывающий две области моих «экспертиз» (в кавычках, потому что вы никогда не должны определять себя как специалиста): обработка естественного языка и экономика. Потратив много времени на поиски исследований и статей, посвященных применению НЛП в экономике, я обнаружил, что оно очень старомодно, мало актуально и трудно для понимания более широкого сообщества. Я решил сделать первый шаг к открытию НЛП для экономики.

В этой статье обсуждается одна моя заявка на HuggingFace: EconoBert. Это доработанная версия ванильного BERT на выступлениях центральных банков, вырезанных на веб-сайте Банка международных расчетов. Таким образом, вложения EconoBert лучше представляют словарь, используемый в экономике. Вскоре я представлю вторую производную модель поверх первой : эконо-предложение. Он будет направлен на обеспечение лучших вложений для задач подобия, что означает, что он лучше охватывает общие темы в экономике.

TLDR:

Я построил BERT для экономистов.

Ссылки модели: https://huggingface.co/samchain/EconoBert

Ссылка на набор данных: https://huggingface.co/datasets/samchain/BIS_Speeches_97_23

Почему НЛП x экономика?

Экономика — увлекательная наука, находящаяся на границе многих областей. Это требует от людей изучения и понимания сложных систем, подразумевающих агентов, которые ведут себя более или менее логично. Его роль в нашем современном обществе растёт (нет мнения, к лучшему это или к худшему). 2008 и 2012 годы были годами, когда мы глубоко осознали, насколько плохи могут быть дела, когда экономика не регулируется.

Экономика во многом опирается на количественные методы. Подавляющее большинство студентов-экономистов (если не все) знакомы с тестами, моделями и даже некоторыми методами машинного обучения. Экономика становится все более и более сложной, требуя все более передовых и сложных методов для решения этих проблем. Первоначально имея опыт работы в экономике, я могу сказать, что это привело меня к науке о данных, а теперь и к глубокому обучению. У экономики правильное мышление.

Что еще более интересно, так это невероятное количество текстовых данных в поле. Поскольку мониторинг экономики является ключевым, освещение выводит множество отчетов, комментариев, статей и выступлений. Этот объем данных не может оставаться неиспользованным или подвергаться дистилляции в глобальном наборе данных, что делает его менее конкретным. Следовательно, необходимо повысить ценность этих файлов, находящихся в одиночестве в Интернете, в офисах и на SharePoint. В экономике есть правильные данные.

Можно найти некоторые статьи, в которых экономисты пробуют некоторые инструменты NLP, такие как методологии TF-IDF, LDA или Word2Vec для исследований. Немногие достигают признания и еще меньше достигают регулярного использования в полевых условиях. Экономика еще не достигла нужной зрелости.

Экономика должна вступить в эпоху НЛП/трансформеров, особенно после последнего выпуска GPT-4, LLaMa и других LLM. Использование такой модели может значительно улучшить многие исследования и анализ. Однако не все экономисты согласны ни с этими технологиями, ни с вариантами их использования. Этот сдвиг потребует обязательств со стороны обоих сообществ (глубоко обучающихся и экономистов) и целей SMART. Экономика может достичь этой стадии.

Первый ход:

В качестве первого шага я решил выпустить одну простую модель, которая до сих пор может найти множество приложений в различных областях экономики. Используемый корпус документов представляет собой полный отказ от речей BIS, представляющих 18 000 речей от 119 государственных финансовых учреждений.

ЭконоБерт:

EconoBert стремится адаптировать BERT к конкретному словарю экономики, используя выступления центральных банков в качестве обучающих данных. У этого решения есть две причины:

Выступления центральных банков, как правило, охватывают широкий круг тем (инфляция, финансовая стабильность, занятость, процентные ставки, банковское дело, ВВП, кризис…)
Речи произносятся часто, что позволяет легко обновлять модель и адаптировать ее к текущим тенденциям.

EconoBERT — это отлаженная модель знаменитой базовой берты без оболочки на основе 12 000 выступлений представителей центральных банков, представляющих приблизительно 33,8 млн токенов. Подробная информация о процедуре доступна на карточке модели: https://huggingface.co/samchain/EconoBert.

Соответствующий набор данных также доступен на HuggingFace: https://huggingface.co/datasets/samchain/BIS_Speeches_97_23.

Краткосрочная, среднесрочная и долгосрочная философия:

Короткий:

Цель состоит не в том, чтобы создать второй HuggingFace для экономики или какого-либо дублирования работы. Основная цель — использовать существующие библиотеки, фреймворки и любые материалы с точки зрения экономиста. Каждая модель будет опубликована на HuggingFace. Я хочу выпустить различные BERT-подобные модели (и некоторые модели суммирования текста) в кураторском наборе данных с общими задачами обучения (MLM, ответы на вопросы, суммирование текста…). Кроме того, очень важно иметь многоязычные модели и наборы данных, которые обеспечивают более широкое и справедливое представление экономических проблем.

Середина:

Можно поставить две цели.

Первой целью является предоставление простых API, аннотированных наборов данных, визуализаций и инструментов, которые могут использовать новички или люди, не интересующиеся программированием. Многие приложения можно найти, обратившись к ученым и государственным учреждениям (тематическое моделирование, настроения, квартальные сводки…).

Во-вторых, нужно заняться текущей тенденцией LLM и попытаться определить задачи, которые подходят для небольшого LLM (например, LLaMa 7B) для экономики. Этот второй пункт для меня определенно неясен и может быть не сохранен.

Длинный:

На мой взгляд, в долгосрочной перспективе цель состоит в том, чтобы упростить переход к мультимодальности между временными рядами (с которыми всегда сталкиваемся мы, экономисты) и текстами (с которыми всегда сталкиваемся мы, глубоко обучающиеся). Эта конечная цель должна быть определена лучше, но она определенно станет отправной точкой эпохи.

Конечно, эти вехи не обязательно связаны между собой и могут меняться с течением времени. Однако достижение мультимодальной модели, использующей временные ряды и тексты в едином пространстве представления, кажется мне мечтой и огромным потенциалом.

Как присоединиться к движению?

Эта статья была написана мной и только мной на данный момент. Выраженные взгляды и мнения являются моими собственными.

Однако я был бы более чем рад обсудить и обменяться мнениями со студентами, профессионалами, экономистами, банкирами, политиками и вообще со всеми, кто испытывает энтузиазм по поводу этого проекта.

Позже я увижу, в зависимости от того, найдет ли эта статья отклик, как структурировать долгосрочное сообщество.

Всем респект и нлпномика начинается :)