Возможность OCR для NLP, которая извлекает информацию из неструктурированного текста с помощью комбинации инструментов с открытым исходным кодом и облачных инструментов.

Всего за 3 месяца команда Healthfirst Data Science разработала надежную возможность оптического распознавания символов (OCR) для обработки естественного языка (NLP), сочетающую инструменты с открытым исходным кодом и новые современные сервисы искусственного интеллекта, доступные от Amazon. Мы используем Amazon Textract (OCR) и Amazon Comprehend Medical (NLP) для извлечения информации из неструктурированного текста, которая ранее хранилась в медицинских записях пациентов.

Медицинские карты пациентов содержат кладезь клинически значимой информации (такой как важные демографические характеристики, медицинские условия и лекарственные препараты), которые могут значительно улучшить координацию оказания медицинской помощи, повысить качество результатов и обеспечить соответствующее возмещение для участников Healthfirst. Healthfirst уже осознает значительную ценность для бизнеса с помощью этой новой возможности, и мы находимся только в пилотной фазе. Мы нашли примерно один недокументированный диагноз на каждые две обработанные диаграммы!



Healthfirst Data Science

Мы - междисциплинарная команда ученых, аналитиков данных, статистиков, технологов и клинических экспертов, одержимых данными! Мы поддерживаем план медицинского обслуживания на основе данных, который улучшает жизнь 1,4 миллиона жителей Нью-Йорка, и у нас есть опыт в Социальных детерминантах здоровья и Плане реадмиссии по всем причинам.

Гибридная архитектура Healthfirst OCR для конвейера NLP

Гибридная архитектура не только сочетает в себе инструменты с открытым исходным кодом и облачные инструменты, но также включает компоненты, написанные на разных языках программирования (включая Java и Python). Это позволяет Healthfirst гибко использовать наши решения и никогда по-настоящему не влюбляться в ограничения какой-либо конкретной структуры, шаблона или языка программирования.

Конвейер OCR в NLP начинается с оболочки Amazon Textract OCR (2), которая считывает PDF-файлы из озера данных Healthfirst в Amazon S3 (1) и преобразует каждый PDF-файл в XML-файл, который хранится в отдельной подпапке в Amazon S3 ( 3), содержащий текст. Оболочка Amazon Textract OCR написана на языке Python и работает на инстансе Amazon EC2. Amazon Textract - это служба распознавания текста на основе машинного обучения, которая выполняет классификацию текста при анализе объектов и обладает широкими возможностями настройки. Это позволяет пользователю не только выбирать типы объектов (например, блоки ячеек, страницы, строки и т. Д.) Для извлечения пар ключ-значение из множества различных текстовых форматов, но также выбирать эти пары ключ-значение на основе определенный порог уверенности, который Amazon Textract также обеспечивает для каждой обнаруженной сущности.

Затем каждый файл XML обрабатывается оболочкой GATE (4). Оболочка GATE написана на Java-коде и также работает в инстансе Amazon EC2. GATE - это аббревиатура от General Architecture for Text Engineering. GATE, разработанный инженерами из Шеффилдского университета в Англии, представляет собой платформу с открытым исходным кодом для создания приложений НЛП. В рамках GATE есть несколько плагинов, в том числе Amazon Comprehend Medical (5) и Metamap (6):

  • Amazon Comprehend Medical - это служба NLP на основе машинного обучения, которая выполняет распознавание именованных сущностей (помимо прочего) для медицинских состояний и лекарств. Дополнительная информация об Amazon Comprehend Medical включена в следующий раздел.
  • Metamap - это метатезаурус для Unified Medical Language System (UMLS). Metamap действует как набор различных баз медицинских знаний, отображая медицинские термины, содержащиеся в корпусе, в UMLS (например, CPT, SNOMED и т. Д.).

Команда Data Science разработала дополнительный интеллект, окружающий эти плагины внутри оболочки GATE, которая включает в себя газеттиры (7) - это просто причудливое слово для словаря - и правила НЛП (8). Словари сопоставляют текстовые описания диагнозов с диагностическими кодами МКБ-10, а правила НЛП помогают распознавать демографические объекты (такие как Healthfirst Member ID, CMS Medicare Beneficiary ID и National Provider ID).

После того, как вся обработка завершена с помощью оболочки GATE, у нас есть наши демографические и диагностические кандидаты для участников Healthfirst, доступные в файле CSV в отдельной подпапке Amazon S3 (9). Специалисты по обработке и анализу данных могут запрашивать и анализировать эти файлы с помощью Amazon Redshift (10).

Теперь мы продемонстрируем несколько различных методов распознавания диагнозов по именованным объектам.

Обнаружение диагноза с помощью Amazon Comprehend Medical

Давайте посмотрим на мощь Amazon Comprehend Medical.

Напомним, что Amazon Comprehend Medical - это сервис, основанный на машинном обучении, поэтому у него есть модели, которые предсказывают вероятность того, что термины в корпусе будут распознаны как диагноз или медицинское состояние (среди других сущностей). Comprehend Medical выводит вероятностную оценку достоверности вместе с каждым распознанным объектом, аналогично Textract.

Обратите внимание, что Amazon Comprehend Medical хорошо работает с сокращениями диагнозов. В приведенном выше примере Comprehend Medical распознает гипертонию, сокращенно «HTN», как диагноз. Таким образом, модель приблизительно на 97% уверена, что гипертония, сокращенно «АГ», является диагнозом.

То же самое для ХОБЛ ниже.

Amazon Comprehend Medical также может обнаруживать полные текстовые описания диагнозов, например, нефролитиаза. См. ниже.

И ожирение. Вы уловили картину.

Обнаружение диагноза с помощью правил НЛП

Сравните популярный подход Amazon Comprehend Medical к машинному обучению с методами на основе правил, которые обнаруживают и сопоставляют буквальные совпадения текстовых описаний диагнозов, найденных в корпусе, с кодами МКБ-10. В приведенном выше примере вы можете видеть, что текст «Индекс массы тела (ИМТ) 40.0» соответствует коду МКБ-10 Z6841.

Правила НЛП написаны на языке JAPE. Подумайте о правилах JAPE NLP так же, как о регулярных выражениях. Методы, основанные на правилах, отлично подходят для разработки кодовых отображений ICD-10. Функция, которая пока недоступна для пользователей Amazon Comprehend Medical.

Заключение

Конвейер OCR от Healthfirst к НЛП все еще находится на этапе подтверждения концепции. Команда Healthfirst Data Science поделилась отзывами с командой Amazon, стоящей за Textract. Ознакомьтесь с пресс-релизом Amazon Общедоступность Textract, в котором упоминается наша возможность OCR для NLP!

Мы уже доказали ценность этой возможности и очень надеемся на ближайшее будущее. Последствия, которые эта технология будет иметь для бизнеса в области здравоохранения, очень многообещающие! #gamechanger

При поддержке наших деловых партнеров из Healthfirst мы планируем получить сокровищницу клинически значимой информации из медицинских записей пациентов и других хранилищ клинических данных, используя нашу надежную функцию распознавания текста в НЛП.