Глубокое обучение принесло прорывы в анализе изображений, видео, речи и текста [1]. Это также привлекло много интересов в биологии [2]. Некоторые приложения глубокого обучения в биологии показали, что оно значительно и убедительно превосходит традиционные методы машинного обучения во многих задачах. диагностика заболеваний по данным изображений [3], определение вариантов [4], обнаружение регуляторных элементов ДНК [5] и др.

Тем не менее, одна область все еще находится в зачаточном состоянии, а именно контролируемое обучение с использованием транскриптомных данных. Транскриптомика и другие -омики имеют многообещающие перспективы в биологии и медицине. понимание болезни, обнаружение мишеней для лекарств/биомаркеров, стратификация пациентов и т. д.

Глубокое обучение оказалось очень успешным для сквозного контролируемого обучения, и потенциально можно применять глубокое обучение для прогнозирования фенотипов (например, типа, подтипа, стадии и прогрессирования заболевания) с использованием целых транскриптомов. В идеале модель должна быть способна обнаруживать сложные сигналы от многих генов и их взаимодействия непосредственно из целых транскриптомов и избегать смещения и вариаций, возникающих при фильтрации и выборе «подходящих» генов в традиционном анализе дифференциальной экспрессии, корреляционном анализе, моделях машинного обучения и ручном анализе. выбор основан на предварительных знаниях.

Однако транскриптомные данные не имеют таких привилегий, как успешные приложения глубокого обучения в биологии, которые обычно имеют либо большое количество образцов, либо небольшое количество входных признаков. Например. Задача обнаружения регуляторных элементов ДНК имеет только несколько пар оснований нуклеиновых кислот, закодированных одним горячим кодом, в качестве одного входного образца. Вместо этого транскриптомные данные содержат более 20 000 генов, кодирующих белок, и еще больше некодирующих генов, и, как правило, имеют очень небольшие размеры выборки и содержат большие систематические источники вариаций, несмотря на быстрый прогресс в технологиях секвенирования.

Высокая размерность и шум затрудняют успешное применение любого алгоритма машинного обучения при анализе транскриптомных данных. Умные алгоритмы и методы обработки данных могут решить эти проблемы. Например, хотя и не для транскриптомных данных, модель глубокого обучения, обученная только на 30 изображениях (515X512 пикселей), достигла высокой точности в сегментации биомедицинских изображений [6], используя инновационный алгоритм U-net и чрезмерное увеличение данных.

Уже предпринимаются попытки адаптации алгоритмов глубокого обучения для обучения с учителем на основе транскриптома, которые можно разделить на три категории.

  • нейронная сеть с прямой связью (FNN)
  • 2-мерная сверточная нейронная сеть (2D CNN)
  • сверточная сеть графа (GCN)

FNN, возможно, является самой простой идеей использования глубокого обучения для контролируемого обучения на основе транскриптома. Просто возьмите все значения экспрессии на уровне гена или транскрипта в качестве входного слоя и при необходимости добавьте несколько полностью связанных скрытых слоев. Он может иметь преимущества по сравнению с традиционными методами машинного обучения, поскольку БНС может обучаться практически любой функции в соответствии с теоремой универсального приближения [7].

Переоснащение, вероятно, является основной проблемой моделей FNN на основе транскриптома. Прямое применение многоуровневой FNN для отличия образцов рака от контрольных не превзошло более простую и линейную модель LASSO [8]. Может помочь уменьшение количества входных переменных, например. только с использованием дифференциально экспрессируемых генов [8, 9] или «генов-ориентиров», определенных в проекте LINCS [10], и агрегации генов на уровне путей [10]. В другом исследовании размерность уменьшилась за счет использования автоэнкодера для преобразования транскриптомных данных в представление с меньшим размером, а затем была применена FNN (часть кодировщика) и другие методы обучения с учителем [11]. Эта стратегия хорошо зарекомендовала себя в задаче обнаружения рака молочной железы. Вместо того, чтобы уменьшать размер входных данных, была разработана творческая идея, глубокая сеть прямой связи со встроенным графом (GEDFN), чтобы изменить полносвязную архитектуру FNN на разреженно связанную [12]. В GEDFN нейрон в первом скрытом слое представляет собой ген, аналогичный входному слою. Нейроны между первыми двумя слоями связаны, только если они имеют известные отношения взаимодействия генов (GGI). (Отношения GGI могут быть представлены графом, в котором гены являются узлами, а их функциональные взаимодействия — ребрами. Граф обычно называют генной сетью, например сетью регуляции генов, сетью белок-белковых взаимодействий и сетью коэкспрессии. сеть может быть извлечена из существующих баз данных или получена из различных источников данных.) GEDFN продемонстрировал хорошие результаты как в моделировании, так и в прогнозировании статуса рецептора эстрогена при раке молочной железы [12].

С другой стороны, CNN уже реализовала идеи разреженных взаимодействий и совместного использования параметров, поэтому для CNN могут не потребоваться сложные процедуры уменьшения размерности. CNN был алгоритмом, который вызвал прорывы в глубоком обучении [13], и его мощные возможности для изучения локальных стационарных структур и составления их для формирования многомасштабных иерархических паттернов могут быть использованы для анализа транскриптомных данных.

В частности, информация о генотипе передается на уровень фенотипа через богатую иерархию биологических подсистем, которые могут быть представлены иерархическими путями или иерархической безмасштабной генной сетью [14]. Кроме того, гены в одном и том же локальном пути или сетевом модуле часто имеют сходные паттерны экспрессии. Критическая часть использования CNN для контролируемого обучения на основе транскриптома заключается в том, как организовать гены так, чтобы они могли быть локально и иерархически связаны как пиксели в изображениях.

Существующие идеи использования CNN для контролируемого обучения на основе транскриптома ограничены в 2D CNN, который заключается в преобразовании транскриптома в данные, подобные изображениям, либо на основе положения генов в хромосоме [15], либо на пути KEGG [16]. Не имеет смысла использовать 2D CNN для линейно упорядоченных генов, основанных на положении хромосомы, которая по существу представляет собой одномерную последовательность. OmicsMapNet разместил гены в двумерной древовидной карте с четырехслойной иерархией на основе путей KEGG и показал некоторые многообещающие результаты по идентификации подтипа рака головного мозга [16].

Третий тип идей, GCN, оперирует сверткой и объединением на графе [17], в данном случае на генной сети.

Помимо генной сети, многие другие типы данных могут быть представлены в виде графов, например. химическая структура, социальная сеть, всемирная паутина и граф знаний, и GCN является одной из новых областей в сообществе машинного обучения. Потенциально любой из алгоритмов обучения с учителем на основе GCN может быть применен к транскриптомным данным, но только в одном исследовании была изучена осуществимость [18]. Авторы пришли к выводу, что GCN полезен для данных с небольшим объемом входных данных, но использование всех генов не сработало. Кроме того, производительность очень сильно зависит от качества графики. Я также пробовал пару алгоритмов GCN, но ни один из них не был лучше, чем случайное угадывание (результаты не показаны). Тем не менее, алгоритмы GCN все еще находятся в стадии быстрого развития и показали многообещающие результаты в других областях. Стоит продолжать преследование.

В общем, есть некоторые исследования в этой области, но я пока не нашел каких-либо значительных или убедительных результатов. В то же время столько идей ранее не проверялось, по крайней мере, не публиковалось. Я также подтверждаю некоторые из моих собственных идей. Я верю, что прорывы придут очень скоро (хотя вряд ли от меня).

Еще одна важная концепция заключается в извлечении соответствующих генов из модели для обнаружения мишеней для лекарств и биомаркеров. Интерпретируемость в настоящее время является постоянной темой исследований в области глубокого обучения, мы можем позаимствовать многие идеи из передовых исследований, например. карта значимости.

Ссылки

[1] Ю. ЛеКун, Ю. Бенжио и Г. Хинтон, «Глубокое обучение», Nature, vol. 521, нет. 7553, стр. 436–44, 28 мая 2015 г., doi: 10.1038/nature14539.

[2] Т. Чинги др., «Возможности и препятствия для глубокого изучения биологии и медицины», Journal of The Royal Society Interface,vol. 15, нет. 141, с. 20170387, 2018.

[3] J. De Fauwet al., «Клинически применимое глубокое обучение для диагностики и направления при заболеваниях сетчатки», Nature Medicine,vol. 24, нет. 9, с. 1342, 2018.

[4] Р. Поплини др., «Универсальный вызывающий SNP и вариант с малым делением, использующий глубокие нейронные сети», Nature Biotechnology,vol. 36, с. 983, 24.09.2018, doi: 10.1038/nbt.4235.

[5] Б. Алипанахи, А. Делонг, М. Т. Вейраух и Б. Дж. Фрей, «Предсказание специфичности последовательности ДНК- и РНК-связывающих белков с помощью глубокого обучения», Nature Biotechnology,vol. 33, с. 831, 27.07.2015, doi: 10.1038/nbt.3300.

[6] О. Роннебергер, П. Фишер и Т. Брокс, «U-net: сверточные сети для сегментации биомедицинских изображений», Международная конференция по обработке медицинских изображений и компьютерным вмешательствам, 2015 г. : Springer, стр. 234–241.

[7] Б. К. Чаджи, «Аппроксимация с помощью искусственных нейронных сетей», Факультет наук, Университет Etvs Lornd, Венгрия,vol. 24, с. 48, 2001.

[8] Д. Урда, Дж. Монтес-Торрес, Ф. Морено, Л. Франко и Дж. М. Херес, «Глубокое обучение для анализа данных экспрессии генов RNA-Seq», Международная рабочая конференция по искусственным нейронным сетям. , 2017: Springer, стр. 50–59.

[9] К. К. Вонг, Р. Ростомили и С. Т. Вонг, «Обнаружение прогностических генов у пациентов с глиобластомой с использованием глубокого обучения», Cancers,vol. 11, нет. 1, с. 53, 2019.

[10] А. Алипер, С. Плис, А. Артемов, А. Уллоа, П. Мамошина и А. Жаворонков, «Приложения глубокого обучения для прогнозирования фармакологических свойств лекарств и перепрофилирования лекарств с использованием транскриптомных данных», Molecular фармацевтика,vol. 13, нет. 7, стр. 2524–2530, 2016.

[11] П. Данаи, Р. Гейни и Д. А. Хендрикс, «Подход к глубокому обучению для обнаружения рака и идентификации соответствующих генов», в Тихоокеанском симпозиуме по биокомпьютерам 2017, 2017: World Scientific, стр. 219–229.

[12] Ю. Конг и Т. Ю, «Графическая сеть с глубокой прямой связью для классификации исходов заболеваний и выбора признаков с использованием данных об экспрессии генов», Bioinformatics,vol. 34, нет. 21, стр. 3727–3737, 2018.

[13] А. Крижевский, И. Суцкевер и Г. Э. Хинтон, «Классификация Imagenet с помощью глубоких сверточных нейронных сетей», в Достижения в системах обработки нейронной информации, 2012 г., стр. 1097–1105.

[14] А.-Л. Барабаси и З. Н. Олтвай, «Сетевая биология: понимание функциональной организации клетки», Nature Reviews Genetics,vol. 5, нет. 2, с. 101, 2004.

[15] Б. Лю и А. Хак, «Классификация типов опухолей на основе глубокого обучения с использованием данных об экспрессии генов», Материалы Международной конференции ACM 2018 г. по биоинформатике, вычислительной биологии и информатике здравоохранения, 2018 г. : ACM, стр. 89–96.

[16] С. Ма и З. Чжан, «OmicsMapNet: преобразование данных omics для использования преимуществ глубокой сверточной нейронной сети для обнаружения», препринт arXiv arXiv:1804.05283,2018.

[17] М. Хенафф, Дж. Бруна и Ю. ЛеКун, «Глубокие сверточные сети на графоструктурированных данных», препринт arXiv arXiv:1506.05163,2015.

[18] Ф. Дутил, Дж. П. Коэн, М. Вайс, Г. Деревянко и Ю. Бенжио, «На пути к сверткам экспрессии генов с использованием графов взаимодействия генов», препринт arXiv arXiv:1806.06975,2018.