Каждый год исследователи публикуют в среднем * более 7000 научных работ, в которых признается Wellcome Trust. В наших рекомендациях говорится, что исследователь, финансируемый Wellcome, должен прямо указывать номер гранта во всех результатах исследования. Однако в действительности по крайней мере четверть публикаций, признающих Wellcome, не связаны с номером гранта. Это означает, что при рассмотрении академических результатов нашего портфеля финансирования наши аналитики и менеджеры предупреждают, что четверть публикаций не учтена. Ниже приводится типичное заявление-подтверждение, в котором не упоминается номер гранта:

Чтобы решить эту проблему, команда специалистов по науке о данных Wellcome объединилась с командой Strategy & Data Insight для поиска недостающих звеньев. Мы разработали модель машинного обучения, которая сканирует публикацию с отсутствующими ссылками и прогнозирует наиболее вероятный грант, который ее выпустил. Теперь, когда мы находимся на последних этапах проекта, мы можем сказать, что рассчитываем с высокой степенью уверенности восстановить не менее 60% недостающих звеньев. Это означает, что теперь мы знаем, как наше финансирование способствовало созданию 17 000 ранее невостребованных публикаций!

Wellcome Link

Общая идея Wellcome Link проста: учитывая публикацию, которая признает Wellcome, но не упоминает номер гранта, какой грант в нашей базе данных грантов, скорее всего, предоставил его? Например, глядя на дату публикации статьи, мы можем искать гранты, присужденные в «совместимые» даты, независимо от того, являются ли авторы публикации также обладателями грантов, или искать гранты по аналогичным темам. Это действительно то, что аналитикам приходилось делать в прошлом из-за отсутствия ссылок на гранты, с некоторыми дополнительными подсказками, которые могут быть получены из отчетов о грантах. Связывание вручную - не лучшее использование времени аналитика, и его сложно применять последовательно. Здесь может помочь машинное обучение.

Мы провели два семинара с коллегами из разных отделов Wellcome, пытаясь воссоздать процесс увязки грантов и публикаций. Для каждой публикации мы просили двух рецензентов попытаться угадать, по какому гранту она была выпущена. Это сгенерировало золотой набор правильных пар и помогло нам оценить, сколько времени требуется на выполнение задачи. Несмотря на субъективность темы, мы увидели, что рецензенты соглашаются с правильной ссылкой до 80% публикаций.

Модель сходства между грантом и публикацией

Тогда наша идея заключалась в том, чтобы использовать механизм подобия текста, чтобы разработать модель машинного обучения, которая может автоматически проверять, насколько грант похож на публикацию. Вот схематическое изображение нашей первой идеи:

Эта модель не совсем подходит для готовой продукции! Некоторые соображения:

  • На практике мы не вычисляем сходства между всеми парами грантов и публикаций. Мы предварительно фильтруем гранты, у которых есть подходящие авторы, и исключаем тех, чья дата выходит за пределы допустимого диапазона, чтобы мы могли сузить «возможный» набор. Этот шаг представляет собой естественный способ фильтрации поиска, который, кроме того, значительно снижает вычислительные затраты (наивный подход для вычисления сходств будет иметь порядок O (G x P), где G - количество грантов, а P - количество публикаций. )
  • Вместо того, чтобы объявлять для связывания все пары выше порогового значения, мы сначала сортируем рекомендации данной публикации и выбираем самые верхние из них, превышающие пороговое значение. Это придает проблеме "информационный поиск".
  • Поскольку правильный рейтинг связанных грантов является наиболее важным результатом (т. Е. Мы хотим, чтобы в первую очередь были отсортированы наиболее похожие гранты), мы решили оптимизировать область под кривой, типичный показатель рейтинга.

Есть много способов преобразовать тексты, чтобы вычислить сходство. На этапе оценки проекта мы решили поэкспериментировать с тремя из них: простой базовый план (TF-IDF); метод глубокого обучения на основе трансформатора, БЕРТ; и доработанная версия Берта, обученного на научном корпусе SciBERT. Для BERT и SciBERT мы использовали замороженные веса предварительно обученных моделей.

Наша гипотеза заключалась в том, что SciBERT превзойдет базовые показатели TF-IDF, поскольку было показано, что он превосходит современные достижения во многих задачах естественного языка в научной литературе. Ниже приведены результаты одного из начальных экспериментов:

Соответствие @ N означает, что правильный грант был среди первых N предположений. Ни одна из моделей не работала особенно хорошо, и, что удивительно, SciBERT не смог превзойти базовый уровень TF-IDF. Что еще более важно, площадь под кривой была очень плохой для трех моделей, и установка универсального порога была непрактичной, отчасти из-за проклятия размерности.

Обучение с учителем

В предыдущей модели была одна часть информации, которая использовалась в значительной степени недостаточно. Мы просто вычисляли вектор на основе текстов грантов / публикаций и вычисляли метрику сходства. Реальность использовалась только для оценки модели!

Как я уже упоминал в начале текста, в четверти публикаций отсутствует ссылка. Это означает, что оставшиеся 75% публикаций можно использовать в качестве достоверных данных для обучения контролируемой модели. Эта модель должна предсказать, является ли пара публикация-грант семантически подобной или нет. Наиболее похожая задача в литературе по обработке естественного языка для этого называется Семантическое текстовое сходство. Таким образом, мы построили модель семантического сходства, используя BERT и SciBERT в качестве слоев. Код для этой модели доступен в нашей библиотеке WellcomeML (быстрый пример см. В документации).

Вот схема контролируемой модели:

Некоторые соображения:

  • Основополагающие данные состоят только из «положительных» пар связанных публикаций / грантов. Чтобы обучить модель семантического сходства, нам нужно выбрать «отрицательные» примеры из множества несвязанных пар. Это нужно делать очень осторожно, иначе проблема станет слишком простой (например, если отрицательные образцы получены от совершенно разных субъектов). Существует несколько способов создания разумных отрицательных образцов, в том числе с использованием TF-IDF. В нашем случае мы выбрали пары грантов и пабов, которые определенно не связаны между собой, но принадлежат одним и тем же авторам. Таким образом мы убедились, что наша модель изучает действительно «сложную» задачу.
  • Помимо текста, в модель также указываются даты публикации и гранта, что интуитивно должно повысить ее эффективность. Например, мы точно знаем, что большинство публикаций происходит в последний год гранта. Вероятно, из-за наших предварительных фильтров (мы загружаем только те пары моделей, у которых есть совместимая дата), эта функция лишь незначительно улучшила область под кривой. Однако возможность добавления метаданных для обучения модели трансформеров полезна в долгосрочной перспективе и для других возможных приложений, поэтому мы решили сохранить ее.

На этот раз доработанная модель SciBERT превзошла все три модели без учителя, причем первое предположение было правильным в 60% случаев, а первые три - в 74% (после 5 предложений наблюдалось плато). Что еще более важно, модель может возвращать значимые оценки достоверности, которые фактически отражают вероятность того, что пара связана. Его площадь под кривой была выше 92%, что означает, что мы можем свободно менять чувствительность на специфичность по мере необходимости.

Заключительные замечания и предостережения

Во время разработки этого проекта мы оценили алгоритмическую справедливость (включая превосходный Контрольный список Deon) и провели семинары с основными заинтересованными сторонами. Были подняты и решены несколько важных вопросов, таких как справедливость на разных этапах карьеры и группы грантов, отсутствующие в анализе. В частности, нам не хватает двух групп. Во-первых, мы можем связывать только публикации, авторы которых непосредственно вовлечены, и определенные виды финансовой деятельности может быть труднее связать (например, обладатель гранта на оборудование и ресурсы может не быть признан исследованием с использованием этого ресурса, даже если он признает сам ресурс). Во-вторых, алгоритм охватывает только публикации, подтверждающие Wellcome Trust (но не номер гранта). Он не учитывает несвязанные публикации, которые не даже признают Wellcome, для которых у нас нет оценки.

Поскольку основной целью этого проекта было создание заслуживающей доверия связи между публикацией и грантом, мы решили установить очень высокий порог и максимизировать точность. Для развертывания конвейер, который автоматически обновляет промежуточную базу данных с помощью прогнозируемых ссылок, может быть запущен вручную или по расписанию с помощью Арго (в будущем мы планируем внедрить процесс с участием человека в цикле, в котором рецензенты могут автоматически отмечать ссылки). Информация из этой базы данных затем объединяется группой разработки данных с другими источниками и предоставляется внутри компании вместе с оценками достоверности. Аналитики или любой другой член внутреннего сообщества Wellcome могут затем использовать прогнозы, помогая улучшить наше понимание академических результатов, полученных за счет грантов.

Код модели семантического сходства, упомянутый в этом сообщении блога, доступен на WellcomeML. Прочтите документацию для примера использования