За последний месяц я решил начать личный вклад, связывающий две области моих «экспертиз» (в кавычках, потому что вы никогда не должны определять себя как специалиста): обработка естественного языка и экономика. Потратив много времени на поиски исследований и статей, посвященных применению НЛП в экономике, я обнаружил, что оно очень старомодно, мало актуально и трудно для понимания более широкого сообщества. Я решил сделать первый шаг к открытию НЛП для экономики.
В этой статье обсуждается одна моя заявка на HuggingFace: EconoBert. Это доработанная версия ванильного BERT на выступлениях центральных банков, вырезанных на веб-сайте Банка международных расчетов. Таким образом, вложения EconoBert лучше представляют словарь, используемый в экономике. Вскоре я представлю вторую производную модель поверх первой : эконо-предложение. Он будет направлен на обеспечение лучших вложений для задач подобия, что означает, что он лучше охватывает общие темы в экономике.
TLDR:
Я построил BERT для экономистов.
Ссылки модели: https://huggingface.co/samchain/EconoBert
Ссылка на набор данных: https://huggingface.co/datasets/samchain/BIS_Speeches_97_23
Почему НЛП x экономика?
Экономика — увлекательная наука, находящаяся на границе многих областей. Это требует от людей изучения и понимания сложных систем, подразумевающих агентов, которые ведут себя более или менее логично. Его роль в нашем современном обществе растёт (нет мнения, к лучшему это или к худшему). 2008 и 2012 годы были годами, когда мы глубоко осознали, насколько плохи могут быть дела, когда экономика не регулируется.
Экономика во многом опирается на количественные методы. Подавляющее большинство студентов-экономистов (если не все) знакомы с тестами, моделями и даже некоторыми методами машинного обучения. Экономика становится все более и более сложной, требуя все более передовых и сложных методов для решения этих проблем. Первоначально имея опыт работы в экономике, я могу сказать, что это привело меня к науке о данных, а теперь и к глубокому обучению. У экономики правильное мышление.
Что еще более интересно, так это невероятное количество текстовых данных в поле. Поскольку мониторинг экономики является ключевым, освещение выводит множество отчетов, комментариев, статей и выступлений. Этот объем данных не может оставаться неиспользованным или подвергаться дистилляции в глобальном наборе данных, что делает его менее конкретным. Следовательно, необходимо повысить ценность этих файлов, находящихся в одиночестве в Интернете, в офисах и на SharePoint. В экономике есть правильные данные.
Можно найти некоторые статьи, в которых экономисты пробуют некоторые инструменты NLP, такие как методологии TF-IDF, LDA или Word2Vec для исследований. Немногие достигают признания и еще меньше достигают регулярного использования в полевых условиях. Экономика еще не достигла нужной зрелости.
Экономика должна вступить в эпоху НЛП/трансформеров, особенно после последнего выпуска GPT-4, LLaMa и других LLM. Использование такой модели может значительно улучшить многие исследования и анализ. Однако не все экономисты согласны ни с этими технологиями, ни с вариантами их использования. Этот сдвиг потребует обязательств со стороны обоих сообществ (глубоко обучающихся и экономистов) и целей SMART. Экономика может достичь этой стадии.
Первый ход:
В качестве первого шага я решил выпустить одну простую модель, которая до сих пор может найти множество приложений в различных областях экономики. Используемый корпус документов представляет собой полный отказ от речей BIS, представляющих 18 000 речей от 119 государственных финансовых учреждений.
ЭконоБерт:
EconoBert стремится адаптировать BERT к конкретному словарю экономики, используя выступления центральных банков в качестве обучающих данных. У этого решения есть две причины:
- Выступления центральных банков, как правило, охватывают широкий круг тем (инфляция, финансовая стабильность, занятость, процентные ставки, банковское дело, ВВП, кризис…)
- Речи произносятся часто, что позволяет легко обновлять модель и адаптировать ее к текущим тенденциям.
EconoBERT — это отлаженная модель знаменитой базовой берты без оболочки на основе 12 000 выступлений представителей центральных банков, представляющих приблизительно 33,8 млн токенов. Подробная информация о процедуре доступна на карточке модели: https://huggingface.co/samchain/EconoBert.
Соответствующий набор данных также доступен на HuggingFace: https://huggingface.co/datasets/samchain/BIS_Speeches_97_23.
Краткосрочная, среднесрочная и долгосрочная философия:
Короткий:
Цель состоит не в том, чтобы создать второй HuggingFace для экономики или какого-либо дублирования работы. Основная цель — использовать существующие библиотеки, фреймворки и любые материалы с точки зрения экономиста. Каждая модель будет опубликована на HuggingFace. Я хочу выпустить различные BERT-подобные модели (и некоторые модели суммирования текста) в кураторском наборе данных с общими задачами обучения (MLM, ответы на вопросы, суммирование текста…). Кроме того, очень важно иметь многоязычные модели и наборы данных, которые обеспечивают более широкое и справедливое представление экономических проблем.
Середина:
Можно поставить две цели.
Первой целью является предоставление простых API, аннотированных наборов данных, визуализаций и инструментов, которые могут использовать новички или люди, не интересующиеся программированием. Многие приложения можно найти, обратившись к ученым и государственным учреждениям (тематическое моделирование, настроения, квартальные сводки…).
Во-вторых, нужно заняться текущей тенденцией LLM и попытаться определить задачи, которые подходят для небольшого LLM (например, LLaMa 7B) для экономики. Этот второй пункт для меня определенно неясен и может быть не сохранен.
Длинный:
На мой взгляд, в долгосрочной перспективе цель состоит в том, чтобы упростить переход к мультимодальности между временными рядами (с которыми всегда сталкиваемся мы, экономисты) и текстами (с которыми всегда сталкиваемся мы, глубоко обучающиеся). Эта конечная цель должна быть определена лучше, но она определенно станет отправной точкой эпохи.
Конечно, эти вехи не обязательно связаны между собой и могут меняться с течением времени. Однако достижение мультимодальной модели, использующей временные ряды и тексты в едином пространстве представления, кажется мне мечтой и огромным потенциалом.
Как присоединиться к движению?
Эта статья была написана мной и только мной на данный момент. Выраженные взгляды и мнения являются моими собственными.
Однако я был бы более чем рад обсудить и обменяться мнениями со студентами, профессионалами, экономистами, банкирами, политиками и вообще со всеми, кто испытывает энтузиазм по поводу этого проекта.
Позже я увижу, в зависимости от того, найдет ли эта статья отклик, как структурировать долгосрочное сообщество.
Всем респект и нлпномика начинается :)