Как специалист по машинному обучению (ML) или специалист по данным, ваша цель часто состоит в том, чтобы оценить вопросы бизнеса или исследования при рассмотрении новых идей, прежде чем углубляться в них. Визуализация мозга (ВМ), особенно функциональная, широко применяется для изучения состояния мозга при различных состояниях или заболеваниях. Он часто используется для прогнозирования и диагностики многих заболеваний головного мозга. Часто проблема машинного обучения формулируется как регрессия/классификация или сегментация по пространственным/временным данным, но с некоторыми соображениями.

Конечная цель исследований BI — преобразовать исследования и результаты в терапевтические продукты. Этот перевод может стать трудной задачей для функциональной бизнес-аналитики по многим причинам [1]. Это может показаться странным со всеми достижениями в области наук о жизни. Я постараюсь выложить несколько наблюдений из работы в неврологии.

Во-первых, давайте рассмотрим данные BI со стороны машинного обучения.

Визуализация мозга

BI — это набор методов для измерения состояний и свойств мозга. (BI) можно разделить на структурную и функциональную визуализацию. Структурная визуализация измеряет статические свойства мозга, такие как толщина коры, объемы областей мозга, структурная связь между областями мозга. Существует несколько известных подходов к структурной визуализации, включая магнитно-резонансную томографию (МРТ), диффузионно-тензорную томографию (ДТИ) и компьютерную томографию (КТ). Обычно такие данные представлены трехмерными изображениями/матрицами или иногда разреженными трехмерными матрицами. ML занимается классификацией/регрессией или сегментацией данных (например, прогнозирование болезни Альцгеймера на основе МРТ или сегментации опухоли на основе компьютерной томографии). С другой стороны, функциональный BI связан с измерением состояния мозга (активации) с течением времени. Примеры функционального BI включают магнитоэнцефалографию (МЭГ), электроэнцефалограмму (ЭЭГ), позитронно-эмиссионную томографию (ПЭТ) и функциональную МРТ (фМРТ). Данные обычно представляются в виде 4D-матриц для фМРТ и ПЭТ (3D-мозг x 1D-время) или 2D-матриц (количество каналов x 1D-время) для ЭЭГ и МЭГ. В некоторых случаях данные BI представляются в виде табличных данных после извлечения сводной информации из обработанных данных. Например, структурные данные могут быть дополнительно обобщены как средние объемы после анализа мозга на области с использованием атласов мозга. Данные фМРТ можно представить в виде парных корреляций (функциональной связи) между областями мозга.

Сбор и обработка данных BI — это очень сложные задачи обработки сигналов, требующие значительных знаний в предметной области. При работе с BI, особенно с функциональным BI, можно заметить пару моментов.

Четыре важных момента, о которых должен знать каждый ученый/инженер машинного обучения:

Наличие и доступность данных

Наборы эталонных данных (например, MNIST, CelebA, LM1B и т. д.) являются основой для разработки и продвижения исследований в области машинного обучения. Доступность данных в области наук о жизни является общей проблемой для исследований машинного обучения. Тем не менее, проблема хорошо выражена в BI, особенно с функциональной стороны. Большинство наборов данных в BI имеют ограниченное количество выборок (в лучшем случае несколько тысяч), и большинство крупномасштабных когорт данных BI, таких как UK Biobank (50K-100K) [2], ENIGMA [3] и ABCD [4] требуют определенной академической принадлежности в дополнение к значительным взносам (например, UK Biobank). Для сравнения, многие данные по геномике находятся в свободном доступе в некоторых крупных репозиториях, таких как ENCODE [5], GEO[6], 4DN [7] и так далее. Я должен сказать, что дефицит данных в области BI происходит по разным причинам, связанным с высокой стоимостью сбора данных и идентифицируемостью участников. Но часть проблем с BI исходит от исследователей, которые иногда не любят делиться данными. Лишь недавно предпринимались попытки собрать и систематизировать опубликованные рабочие данные в одном месте (например, ENIGMA).

Природа вопросов

Одна из фундаментальных проблем с BI заключается в том, может ли ML ответить на вопрос исследования или нет. При использовании ML для решения задач BI предполагается, что данные BI несут сигнал, связанный с болезнью или состояниями. Это может быть верно для некоторых заболеваний головного мозга, которые вызывают значительные структурные и функциональные изменения в мозге, таких как рак мозга, болезнь Альцгеймера и болезнь Паркинсона. Однако для многих болезней, которые не оказывают существенного влияния, обнаружение сигналов болезни может быть сложной задачей, особенно с использованием функционального BI. Это очевидно, если подумать о том, насколько различен наш мозг. Было бы довольно сложно поставить диагноз (распознавание образов) путем сканирования чьего-то мозга, чтобы заявить о диагнозе, если симптомы не являются доминирующими.

Кроме того, многие нарушения головного мозга выражаются в виде изменений на уровне молекул, клеток и тканей, которые затем проявляются различными путями альтерации, приводящими к структурным и функциональным изменениям в головном мозге. Таким образом, ML может быть сложно обнаружить сигналы о болезни из данных BI, если они не дополнены предварительной биологической информацией. Чтобы усложнить проблемы ОД в BI, некоторые психические расстройства могут проявляться по-разному в зависимости от каждого участника (например, тревога и депрессия).

Проблемы и воспроизводимость данных BI

BI как технология все еще нова и требует серьезной настройки. Данные должны пройти десятки шагов предварительной обработки. Кроме того, данные очень чувствительны к калибровке сканера и конфигурации оборудования. Одной из ежедневных проблем являются дрейфы сканера, которые часто необходимо учитывать. Таким образом, с точки зрения ML это накладывает ограничение, поскольку ML во многих случаях опирается на уже обработанные данные; таким образом, трудно построить общие модели, как в классификации изображений или обработке естественного языка (NLP). Кроме того, никто не может спорить о кризисе воспроизводимости в функциональной области BI [8, 9]. Из-за небольшого размера выборки и различий в конвейерах предварительной обработки часто было трудно воспроизвести многие исследования изображений, что усложняло создание надежных моделей машинного обучения.

Доступность общедоступных моделей бизнес-аналитики

Можно заметить, что существует не так много тестов для проверки или сравнения различных моделей ML или даже для переноса обучения в конкретной предметной области в BI. Ученым в области машинного обучения часто приходится доверять текущим моделям, которые у них есть, и оптимизировать их, а не оптимизировать другие модели. Совместное использование моделей, по крайней мере, поможет BI продвинуться дальше. BI может извлечь очень хорошие уроки из AlphaFold2; После того, как DeepMind опубликовала свою модель, был достигнут огромный прогресс в предсказании структуры белка и даже в воспроизведении подобных алгоритмов, таких как OpenFold и RoseTTAFold. Точно так же ML-геномные домены проделали большую работу, предложив множество моделей для общественности.

Вот пять вопросов, которые должны задать инженеры машинного обучения перед запуском проектов бизнес-аналитики.

Вопросы, которые должен задать каждый специалист по машинному обучению перед запуском проекта бизнес-аналитики

1. Сколько точек данных содержится в исследовании и каков тип данных? Это очевидный вопрос, но, учитывая сложность данных бизнес-аналитики и потенциальные вариации, его следует подчеркнуть с самого начала.

Сценарий: исследование с n участниками фМРТ с целью машинного обучения разделить участников на здоровых и нездоровых. Ученые машинного обучения должны спросить, сколько участников участвует в исследовании. Будет ли разработка ML работать на сводной статистике обработанных данных (табличных данных) или обработанных данных BI (3D или 4D). Последнее требует значительного количества образцов [тысячи] [8].

2. Поступали ли все данные с одного и того же сканера/оборудования? Все ли данные прошли через один и тот же конвейер предварительной обработки?

Сценарий: совместное исследование с n участниками ЭЭГ, собранными из трех лабораторий в течение двух лет (возможные различия в конвейере предварительной обработки + дрейф оборудования).

3. На что влияют ковариаты?

Сценарий. МРТ-исследование с широким диапазоном возрастных групп. Специалисты по машинному обучению должны знать, что возраст, пол, образование и т. д. оказывают значительное влияние на данные BI, и им следует планировать тщательную проверку [например, стратифицированную перекрестную проверку]).

4. Есть ли скрытые ковариаты? (требуется участие эксперта в предметной области).

Сценарий: фМРТ-исследование с хорошим размером выборки, позволяющее отличить участников с тревогой от здоровых. Встревоженные участники, как правило, много двигаются в сканерах, создавая так много артефактов и изменений в сигнале по сравнению со здоровыми участниками. Таким образом, алгоритм ML может выбрать это; модель машинного обучения может научиться различать спокойных и движущихся участников, но не узнать, встревоженный мозг или нет. Ученые машинного обучения должны исследовать скрытые ковариаты.

5. Соответствует ли первоначальный анализ данных литературным данным?

Сценарий. Исследование ЭЭГ с большим количеством образцов показывает высокую альфа-активность в определенной области мозга, что не согласуется с литературными данными. Ученые машинного обучения должны спросить, соответствует ли первоначальный анализ литературным данным, что служит проверкой здравомыслия. Как правило, прежде чем продвигаться далеко с ML, следует установить истину на земле). С помощью инструментов объяснимости моделей, таких как SHAP [10] или LIME [11], ученые ML должны подтвердить выводы из литературы.

Заключение

Я пролил свет на некоторые проблемы, с которыми сталкиваются приложения МО в бизнес-аналитике и которые связаны с нехваткой данных, сложностью бизнес-аналитики и отсутствием совместного использования данных. Я выделил некоторые проблемы, с которыми могут столкнуться исследователи машинного обучения при обработке данных BI, и ряд вопросов следует задать заранее, прежде чем углубляться в проекты BI. Хотя я не предоставил решения для каждого из пяти вопросов, эти вопросы заставят ученых машинного обучения принять решение об алгоритмах и стратегиях проверки. Хотя некоторые проблемы трудно решить в BI, крупномасштабные инициативы по работе с данными и более широкий доступ к данным могут помочь смягчить препятствия в BI.

Автор

Обада Аль Зуби, доктор философии. Ученый в области биомедицинских данных и машинного обучения, заинтересованный в решении проблем машинного обучения в области геномики, нейровизуализации и обработки сигналов.

Ссылки

[1] «Возвращение к сомнениям в исследованиях нейровизуализации», Nature Neuroscience, 05 июля 2022 г., 2022 г.

[2] К. Садлоу, Дж. Галлахер, Н. Аллен, В. Берал, П. Бертон, Дж. Данеш, П. Дауни, П. Эллиотт, Дж. Грин и М. Лэндрей, «Биобанк Великобритании: открытый ресурс доступа для выявления причин широкого спектра комплексных заболеваний среднего и пожилого возраста», PLoS Medicine, vol. 12, нет. 3, стр. e1001779, 2015.

[3] Томпсон П.М., Джаханшад Н., Чинг Ч.Р., Салминен Л.Е., Томопулос С.И., Брайт Дж., Баун Б.Т., Бертолин С., Бралтен Дж., Бруин В.Б., «ЭНИГМА и глобальная неврология: десятилетие исследования мозга в норме и при патологии в более чем 40 странах», Translational psychiatry vol. 10, нет. 1, стр. 1–28, 2020.

[4] Б. Дж. Кейси, Т. Каннонье, М. И. Конли, А. О. Коэн, Д. М. Барч, М. М. Хайтцег, М. Э. Соулс, Т. Теслович, Д. В. Делларко и Х. Гараван, «Исследование когнитивного развития мозга подростков (ABCD): получение изображений на 21 сайте», Развитие когнитивной нейронауки, vol. 32, стр. 43–54, 2018.

[5] Дж. Р. Экер, В. А. Бикмор, И. Баррозу, Дж. К. Причард, Ю. Гилад и Э. Сегал, «ENCODEобъяснение», Nature vol. 489, нет. 7414, стр. 52–54, 2012.

[6] Т. Барретт, С. Э. Уилхайт, П. Леду, К. Евангелиста, И. Ф. Ким, М. Томашевский, К. А. Маршалл, К. Х. Филлиппи, П. М. Шерман и М. Холко, «NCBI GEO: архив наборов данных функциональной геномики — обновление», Исследование нуклеиновых кислот, vol. 41, нет. D1, стр. D991-D995, 2012.

[7] С. Б. Рейфф, А. Дж. Шредер, К. Кырли, А. Косоло, К. Баккер, С. Ли, А. Д. Вейт, А. К. Балашов, К. Вицтум и В. Ронкетти, «Портал данных 4D Nucleome как ресурс для поиск и визуализация тщательно подобранных ядерных данных», Nature Communications, vol. 13, нет. 1, стр. 1–11, 2022.

[8] С. Марек, Б. Терво-Клемменс, Ф. Дж. Калабро, Д. Ф. Монтес, Б. П. Кей, А. С. Хатум, М. Р. Донохью, В. Форан, Р. Л. Миллер и Т. Дж. Хендриксон, «Воспроизводимые исследования ассоциаций всего мозга требуют тысяч людей. », Nature, vol. 603, нет. 7902, стр. 654–660, 2022.

[9] Р. Э. Келли-младший и М. Дж. Хоптман, «Воспроизводимость в визуализации мозга», 3, MDPI, 2022, с. 397.

[10] С.М. Лундберг, С.-И. Ли, «Единый подход к интерпретации предсказаний моделей», Advanced in Neuron Information Systems, vol. 30, 2017.

[11] М. Т. Рибейро, С. Сингх и К. Гестрин, «Почему я должен вам доверять?» Объясняя предсказания любого классификатора». стр. 1135–1144.