С момента идентификации и последующего секвенирования количество доступных последовательностей SARS-Cov-2 продолжает расти. Это непрерывное наблюдение сделало возможным быстрое обнаружение различных вариантов. В зависимости от количества и важности изменений его генетической информации такие варианты классифицируются на три группы.

Вариант под наблюдением (VUM), «вариант с генетическими изменениями, которые, как предполагается, влияют на характеристики вируса, с некоторыми признаками того, что он может представлять риск в будущем, но доказательства фенотипического или эпидемиологического воздействия в настоящее время неясны».

Интересующий вариант (VOI) — это «вариант с генетическими изменениями, которые, как прогнозируется или известно, влияют на характеристики вируса, такие как трансмиссивность, тяжесть заболевания, ускользание от иммунного ответа, ускользание при диагностике или терапии. И установлено, что они вызывают значительную передачу инфекции среди населения или множественные кластеры COVID-19 во многих странах с увеличением относительной распространенности наряду с увеличением числа случаев заболевания с течением времени или другие очевидные эпидемиологические воздействия, свидетельствующие о возникающем риске для глобального общественного здравоохранения».

И вызывающий озабоченность вариант (VOC) соответствует всем критериям, которые должны быть определены как VOI, но с одной или несколькими из следующих характеристик. «Увеличение трансмиссивности или пагубные изменения в эпидемиологии COVID-19. Повышение вирулентности или изменение клинической картины заболевания. Или снижение эффективности медико-социальных мер или доступных диагностик, вакцин, терапевтических средств».

Определения этих вариантов были взяты с веб-сайта ВОЗ и периодически корректируются. Каждый вариант приписывается родословной или устанавливается как новый с использованием разных методов. Затем группа экспертов обсуждает имеющуюся информацию и представляет ее общественности.

Вычислительные методы идентификации и классификации вариантов

Есть два основных инструмента, используемых для поиска конкретной линии последовательности SARS-Cov-2. Первый — Nextstrain, проект с открытым исходным кодом, целью которого является отслеживание данных о патогенном геноме. На его веб-сайте мы можем найти последний анализ последовательностей SARS-Cov-2. Основным компонентом этого анализа является филогенетическое дерево SARS-Cov-2. Сделать его центральным инструментом, используемым для понимания эволюции вируса. А также для обнаружения новых вариантов.

Для построения филогенетического дерева Nextstrain использует инструмент под названием TreeTime. Он находит приблизительную конфигурацию максимального правдоподобия филогенетического дерева с большими выравниваниями последовательностей в качестве входных данных. Но этот процесс является дорогостоящим в вычислительном отношении, отнимает много времени и будет полезен только в том случае, если анализируемая последовательность является новой.

Чтобы обойти неизвестные новизны, инструмент Pangolin предоставляет модель машинного обучения для классификации неизвестных последовательностей SARS-Cov-2 до уже известных. Стремление отфильтровать большой объем последовательностей из-за генетического наблюдения. Этот классификатор использует однократное кодирование последовательности SARS-Cov-2 и родословных в качестве меток.

Представление последовательности

Входные данные, используемые различными инструментами, представляют собой некоторые из многих способов представления последовательности для вычислительных приложений. Горячее кодирование последовательности, возможно, является самым простым из представлений. В случае биологической последовательности каждое из оснований заменяется на вектор размера четыре, а тип основания кодируется 1 в соответствующем положении. Затем каждое основание в последовательности кодируется той же процедурой, в результате чего получается массив формы (4, длина последовательности).

Другой распространенной схемой представления является использование k-меров или фрагментов последовательности размером k в качестве представления. Эти k-меры можно использовать для определения нового одноразового кодирования. Или частота k-mer может использоваться как другая форма для представления последовательности.

Частота каждого k-мера будет зависеть от того, как разделена последовательность. Если последовательность разделить на неперекрывающиеся фрагменты, будет (длина последовательности // размер k-мера) фрагментов. В то время как скользящее окно приведет к фрагментам (длина последовательности — размер км). При использовании скользящей схемы возникает интересное свойство. Каждый фрагмент содержит k-1 совпадающих оснований, совпадающих с графом Де Брейна. Используя схему связности графа Де Брейна, мы можем добавить отношение связности между последовательными k-мерами.

Другая форма кодирования отношения связности — это разделение последовательности на 2k-меры. Затем фрагменты разбиваются на k-меры и добавляются связи между обоими k-мерами. При такой схеме теряется порядок соединений. Но к представлению добавляется частота таких связей. А также возможность кодировать более крупные фрагменты k-mer.

Обе схемы связности нацелены на кодирование реляционной информации между различными символами или k-мерами, которые существуют в последовательности, а не самим символом или k-мером.

Используя графы для численного определения последовательности, мы можем использовать множество различных матричных представлений графов. Степень узла неориентированного графа Де Брейна будет равна удвоенной частоте каждого k-мера. В то время как матрица смежности покажет частоту каждого соединения в последовательности.

Представление низкой размерности

Из графического представления последовательности можно создать несколько наборов данных. Первым и самым простым может быть набор данных, содержащий k-мерные частоты последовательности. Складывание различных k-меров до 4-меров каждой последовательности приводит к четырем видимым кластерам на графике.

Использование этого метода уменьшения размерности приводит к четким кластерам в данных. Но следствием резкого уменьшения размерности данных является количество потерянной информации. Еще одним вариантом уменьшения размерности данных является вариационный автоэнкодер (VAE). В VAE низкоразмерное представление будет вести себя как нормальное распределение. Кроме того, усвоенное представление может содержать биологически значимую информацию.

Кодирование VAE данных k-mer приводит к ряду кластеров, выровненных по оси X. Между парой кластеров появляется четкое разделение между кластерами, а другие сливаются.

Чтобы использовать графическое представление последовательностей, можно построить новый набор данных, вычислив разницу между матрицами смежности из обеих схем связности. И переставляя разные матрицы в одну.

Создание двумерного массива, который можно использовать как одноканальное изображение. Это позволяет кодировать информацию о соединении, а также кодировать более крупные k-меры. Из этого набора данных можно использовать сверточный вариационный автокодер, чтобы найти лучшее низкоразмерное представление данных.

Результирующее низкоразмерное пространство этого нового автоэнкодера приводит к поведению, аналогичному предыдущему. За исключением того, что кластеры хорошо определены по оси x.

Скрытое представление.

Основным преимуществом VAE является небольшое скрытое представление, которое можно использовать для других задач. Кластеры, полученные из предыдущих автокодировщиков, могли представлять один вариант или кодировать другой вид информации. Кроме того, скрытое пространство кодирует некоторый смысл, присущий данным. Например, в наборе данных лиц скрытое пространство может кодировать выражение лица (счастливое/грустное) или позу лица (вверх, вниз, влево, вправо).

Как частота k-меров, так и представления, основанные на связности k-меров, моделируют последовательность в целом. Предотвращение реконструкции последовательности. Тем не менее, по-прежнему можно обнаружить предвзятость в отношении конкретных кодонов или какого-либо другого закодированного значения. В предыдущем посте PCA-анализ данных о частоте k-меров привел к кластерам, содержащим последовательности из одного географического происхождения. Следовательно, вполне возможно, что скрытые измерения кодируют какую-то географическую кодировку. Хотя другим вариантом может быть какое-то кодирование времени.

Хотя это не единственные возможные варианты, именно их можно протестировать с помощью доступных метаданных последовательности. Чтобы визуально закодировать различные функции, я представляю схему цветового кодирования. В случае географических местоположений одинаковые цвета будут обозначать одно и то же место. Однако похожие цвета не будут иметь никакого географического сходства. Это не относится к кодированию времени, похожие цвета будут представлять более близкие периоды. Время будет закодировано как номер недели, независимо от того, первый это или второй год пандемии. Схема временного кодирования будет основываться на дате выделения образца.

Кроме того, разные модели будут переименованы, модель PCA будет называться Катя. Простой вариационный автоэнкодер будет называться Нина. И сверточный автоэнкодер Маша.

Географическое кодирование.

С точки зрения географической кодировки ни Катя, ни Нина, ни Маша не могут найти какой-то конкретной закономерности. Отчасти это может быть связано с сильно предвзятым характером набора данных. Хотя он содержит последовательности из разных частей мира, около 85% данных относится к населению США.

Кодирование времени

По времени Катя может разделить пандемию на два конкретных периода. Хотя есть некоторое смешивание, это может быть связано с циклическим временным кодированием. Поскольку последняя часть года ближе к начальной, используйте этот подход.

Между тем, Нина также может разделять данные на определенные периоды, а также добавляет структуру и ограничения к данным. Ось x из этого скрытого представления, по-видимому, кодирует некоторую форму временного кодирования.

Маша также может кодировать в представлении какую-то временную или сезонную информацию. Однако каждый кластер, по-видимому, содержит оба периода, смешанные внутри кластера. Но обученная сеть не может разделить эти два периода времени на отдельные кластеры. Кластеры в крайних точках оси x, кажется, начинают разделяться на кодирование с низким и высоким временем. Дальнейшее усовершенствование этой модели может привести к чередованию кодирования с низким и высоким временем.

Кластерный анализ.

Выполнение кластеризации K-средних на Кате подтверждает первоначальные наблюдения за временным кодированием. Кластеры содержат последовательности, отобранные в первом полугодии для одного кластера и в оставшееся второе полугодие для второго. Кроме того, оба кластера начинают сливаться в середине года.

В то время как Нина, добавляя структуру к данным, кажется, что каждый кластер перемещается во времени. Показаны два шага перехода между наиболее удаленными и густонаселенными кластерами.

Хотя Маша не может разделить на кластеры, зависящие от времени, гистограммы каждого кластера подтверждают визуализацию временного кодирования. Каждый кластер в Маше содержит информацию об обоих периодах.

Варианты.

До этого момента модели кодировали временную или сезонную информацию в последовательности SARS-Cov-2. Однако оставшееся измерение также может кодировать информацию о вариантах. Для проверки этой идеи используются два подхода. В первом случае каждая линия ящеров представляет один цвет. В то время как второй состоит из двоичного кодирования, в котором ветви линии A и B представлены разными цветами. Поскольку набор данных состоит в основном из последовательностей из линий A или B.

Используя это простое цветовое кодирование, все три модели могут кодировать варианты независимо от цветовой схемы. И эта конкретная кодировка очень похожа на временную кодировку, найденную ранее.

Это предполагает, что каждая ветвь в классификации панголинов представляет собой вариант с лучшими эволюционными характеристиками в определенное время года. Если это так, то должна быть разница в пропорции использования определенных нуклеотидов в последовательности. Индекс смещения использования кодонов или содержание GC являются некоторыми примерами признаков, используемых для проверки биологической адаптации. Но для получения точных результатов эти функции необходимо рассчитать по открытой рамке считывания. Но из-за ограничения того, как анализируется последовательность, возможно, многие из закодированных признаков в последовательности могут быть потеряны. Поэтому простым подходом будет проверка частоты каждого из различных оснований в последовательности.

Вычисление гистограммы использования нуклеотидов из одного кластера в Nina и сравнение ее с остальными дает небольшие сдвиги в частоте. Последовательности SARS-Cov-2, собранные во второй половине года, содержат меньше цитозина по сравнению с оставшимся периодом. В то время как обратное верно для тимина/урацила.

Выполнение аналогичного анализа на Маше приводит к аналогичным сдвигам в цитозине и тимине/урациле. Однако сдвиг в содержании цитозина или тимина/урацила, по-видимому, больше по сравнению со сдвигом, наблюдаемым у Нины. Но это снова оставляет ось X без четкой интерпретации того, какую информацию кодирует.

Поскольку данные содержат большое количество последовательностей случаев Covid-19 в США, возможно, ось x кодирует какую-то географическую специфику для этого места. Построение геолокации каждого кластера в первой и второй половине года приводит к чередованию. Цифры представляют каждый кластер, цвета представляют высоту, а оси x и y представляют долготу и широту.

Однако эта чередующаяся картина не соответствует кластерам внутри Маши. Но это простое наблюдение намекает на то, что ось X внутри Маши кодирует какую-то географическую или экологическую переменную.

Предвзятость данных.

Даже когда три разные модели могут кодировать временную информацию и информацию об окружающей среде. Возможности обобщать и экстраполировать общие выводы могут быть затруднены предвзятостью, представленной в данных. Данные за первый год пандемии составляют лишь 10% от общего числа. Это делает анализ сильно смещенным в сторону второго года пандемии.

Географически данные могут быть сгруппированы по густонаселенным районам внутри США. Также мне не удалось загрузить геолокацию некоторых городов в метаданных. Это снижает способность делать прогнозы от Маши, единственной модели, которая демонстрирует некоторое сходство с своего рода кодированием окружающей среды.

Однако я признаю, что различные модели могут помочь нам лучше понять развитие пандемии Covid-19. И они с точностью описывают пандемию в США.

Из трех моделей можно сделать три ключевых вывода. Сезонный компонент, возможно, закодированный как переход от линии А к линии Б. Сдвиг в использовании цитозина с высокого содержания в первой половине года на низкое содержание. Также сдвиг в тимин/урацил зеркально. И попадание в географическое или экологическое кодирование.

Сезонность и адаптация

Сезонные тенденции являются одним из отличительных признаков многих инфекционных заболеваний. В отношении вспышки COVID-19 Caetano-Anolles и соавторы показали существование циклического паттерна мутаций в RBD-домене шиповидного белка. Этот циклический паттерн также отражает циклический паттерн внутри последовательности SARS-Cov-2.

Другой циклический образец мутации можно сделать вывод, изучив различные отчеты о геномном наблюдении в Мексике. В первой половине года большинство отобранных последовательностей принадлежало к основной линии В. В то время как во второй половине и подсчете линия B начала вытесняться линией A.

Причины перехода от одной линии к другой и сезонные тенденции являются предметом постоянных исследований. Одной из гипотез может быть сезонная адаптация вируса к хозяину. В легочной ткани около 2000 различных генов активируются ночью и 1500 генов активируются днем. Такое поведение также повторяется в течение сезона. Легочная ткань по-разному экспрессирует около 20% генов, по крайней мере, в течение одного сезона. Затем вирус, адаптируясь к доступным ресурсам для копирования своего генетического материала, переходит из одной линии в другую. Это оставляет период для адаптации к новым доступным ресурсам. Как только этот период адаптации завершится, вирус сможет распространяться более эффективно.

Если этот процесс адаптации имеет место, он может происходить в пределах одного и того же хоста или с небольшими приращениями на разных хостах. И может объяснить колебательное поведение различных волн пандемии. Делая это естественным и циклическим процессом цикла популяции вируса. Необходимым шагом для работы этой модели является наличие коинфекций внутри одного хозяина. Случаи выявления коинфекций остаются единичными. Однако сообщения о коинфекциях в разных частях мира становятся все более частыми.

Cattoir сообщил о единичных случаях коинфекции в отношении бельгийского пациента. Мохаммед Бакур С. Аль-Шухаиб сообщил о нескольких случаях коинфекции в Вавилоне, Ирак. При этом Акимкин сообщил о пациенте, у которого в разное время брали пробы через инфекцию. Оба образца были секвенированы, и основная родословная различалась между образцами.

Коинфицирование различными штаммами вируса растет среди ученых. Поскольку события рекомбинации могут иметь место, приводя к новым и другим штаммам вируса. Ву и его сотрудники собрали последовательности, чтобы проанализировать признаки коинфекции. В результате были получены образцы с признаками коинфекции двух или трех разных линий. Тем не менее, соотношение случаев коинфекции резко падает в середине года.

Даже когда этот вывод может противоречить некоторым предыдущим идеям. Повторный анализ прочитанной последовательности на наличие признаков коинфекции может помочь понять, имеет ли место ежегодный динамический процесс адаптации.

Экологические и сезонные обработки.

Аналоги нуклеозидов являются одним из наиболее распространенных фармакологических средств лечения вирусных заболеваний. В случае Covid-19 ремдесивир, пожалуй, является наиболее широко известным противовирусным средством. В метаанализе Сюэ показал, что ремдесивир связан с лучшим клиническим исходом. Тем не менее, даже при численном снижении смертности оно не было статистически значимым. Если проанализировать общее содержание аденина, молекулярного аналога Ремдесивира. Мы видим, что на гистограмме есть небольшое отклонение, указывающее на бимодальное распределение.

Но если мы посмотрим на распределение аденина внутри разных кластеров у Маши, то только один кластер содержит последовательности с высоким и низким содержанием аденина. Это может указывать на то, что может существовать подмножество Covid-19, более восприимчивое к ремдесивиру. И эта восприимчивость специфична для конкретной среды.

Четкое определение использования нуклеотидов между различными кластерами, возможно, является наиболее полезной информацией. Этот сдвиг можно использовать для лечения, как описано выше. Другой вариант лечения можно найти при смене цитозина или тимина/урацила. Литературы об использовании аналогов цитозина для лечения ковида мало. Однако снижение риска госпитализации среди ВИЧ-инфицированных может указывать на возможность использования таких противовирусных препаратов. Исследования в Испании и Германии выявили снижение риска госпитализации, а также большинство случаев были классифицированы как легкие. В обоих исследованиях участники получали противовирусное лечение, содержащее по крайней мере один аналог цитозина. В то время как в случае тимина/урацила софосбувир является основным изучаемым противовирусным препаратом. Мета-анализ Чи-Ченг Лая показал, что софосбувир увеличивает скорость выздоровления и снижает смертность.

Сезонные и экологические закономерности внутри последовательности SARS-Cov-2 могут быть приняты во внимание для дальнейшего тестирования эффективности различных методов лечения. Клинические испытания и непрерывные исследования по этой теме являются единственными методами точной настройки возможных методов лечения.

Воспроизводимость моделей

В этом посте был проанализирован ряд моделей, чтобы понять, как низкоразмерное представление данных последовательности кодирует биологически значимую информацию. Каждая модель может быть обучена без использования узкоспециализированного оборудования. И они уже продемонстрировали свою способность понимать и делать некоторые выводы из последовательностей. Кроме того, для двух вариационных моделей более или менее охарактеризовано только одно скрытое измерение. Это оставляет достаточно места, чтобы добавить больше метаданных к вновь секвенированным штаммам SARS-Cov-2 или попытаться добавить больше к уже существующим. Улучшение или разработка новых генеративных моделей может привести к шаблонам, которые приводят к применимым действиям. От прогнозов возможного исхода до управления ресурсами.

Также этот пост представляет собой дополнение к серии Kaggle наборы данных и блокноты. Различные наборы данных можно загружать или использовать для анализа на платформе. В то время как записные книжки представляют собой исследовательский анализ набора данных k-mer, а также различных нейронных сетей и параметров обучения, используемых для определения и обучения различных моделей. Скрипты, используемые для фильтрации последовательностей, создания наборов данных и обучения нейронных сетей, можно найти на моем GitHub, нажав здесь. Основное отличие Kaggle от Github — количество эпох, используемых для обучения Маши. Огромное спасибо Кэти Грин за подписку в качестве приглашенного участника, надеюсь, вы не разочаруетесь. И если вы хотите поддержать меня, чтобы я продолжил эту работу по машинному обучению, основанную на тако, рассмотрите возможность присоединения к Medium в качестве рекомендованного участника, нажав здесь. Вы можете получить доступ ко всему контенту на платформе, в то время как часть платы будет напрямую поддерживать меня. Пожалуйста, оставайтесь в безопасности и поговорите с вами в следующем.

Рекомендуемое чтение.

Назначение эпидемиологических линий при возникающей пандемии с использованием инструмента pangolin, Эволюция вируса, том 7, выпуск 2, ноябрь 2021 г.,

Следующий штамм: отслеживание эволюции патогенов в реальном времени, Биоинформатика, том 34, выпуск 23, 1 декабря 2018 г., страницы 4121–4123

TreeTime: филодинамический анализ максимального правдоподобия. Эволюция вируса. 2018;4(1):vex042. Опубликовано 8 января 2018 г.

Сезонное поведение COVID-19 и его галектиноподобный виновник вирусного шипа Каэтано-Анольес, К.; Эрнандес, Н .; Могол, Ф .; Томашевский, Т .; Caetano-Anollés, G.. Methods Microbiol. ; 2021.

Хашим, HO; Мохаммед, М.К.; Муса, MJ; Абдуламеир, HH; Альхаснави, А.Т.; Хассан, С.А.; Аль-Шухаиб, М.Б.С. Неожиданная коинфекция различными штаммами SARS-CoV-2 у пациентов с COVID-19. Препринты 2020 г., 2020090375 (doi: 10.20944/preprints202009.0375.v1).

ECCMID ABSTRACT 04978, История болезни: 90-летняя женщина, зараженная двумя VoC CoVID-19: 20I/501Y.V1 и 20H/501Y.V2.

Самойлов А.Е., Каптелова В.В., Бухарина А.Ю. et al. История болезни: смена доминирующего штамма при двойной инфекции SARS-CoV-2. BMC Infect Dis21, 959 (2021 г.). https://doi.org/10.1186/s12879-021-06664-w

Геномные доказательства дивергентных коинфекций линий SARS-CoV-2

Ханг-Ю Чжоу, Е-Сяо Ченг, Линь Сюй, Цзя-Ин Ли, Чен-Юэ Тао, Чен-Ян Цзи, На Хань, Ронг Ян, Ялин Ли, Айпин Ву

bioRxiv 2021.09.03.458951; дои: https://doi.org/10.1101/2021.09.03.458951

Лай К.С., Чен Ч., Ван С.И., Чен К.Х., Ван Ю.Х., Сюэ П.Р. Клиническая эффективность и безопасность ремдесивира у пациентов с COVID-19: систематический обзор и сетевой метаанализ рандомизированных контролируемых исследований. J Antimicrob Chemother. 2021;76(8):1962–1968. дои: 10.1093/jac/dkab093

Хартер, Г., Спиннер, К.Д., Ройдер, Дж. и др. COVID-19 у людей, живущих с вирусом иммунодефицита человека: серия случаев из 33 пациентов. Infection48, 681–686 (2020 г.). https://doi.org/10.1007/s15010-020-01438-z

Джулия дель Амо, Роза Поло, Сантьяго Морено и др. Заболеваемость и тяжесть течения COVID-19 у ВИЧ-позитивных лиц, получающих антиретровирусную терапию: когортное исследование. Ann Intern Med.2020;173:536–541. [Epub перед печатью, 26 июня 2020 г.].doi:10.7326/M20–3689

Софосбувир/даклатасвир в лечении инфекции COVID-19: метаанализ Chan, Huan-Tee et al. Журнал инфекций, том 82, выпуск 4, e34 — e35