Потенциальный подход к машинному обучению, который может помочь контролировать COVID-19

Успешно отправлено на: https://innovate.mygov.in/covid19/

Примечание. Примечание. Мой подход будет сосредоточен на решении проблем, с которыми Индия (моя родная страна) сталкивается при оценке воздействия COVID-19. . Но приведенный ниже метод можно легко обобщить, поскольку другие затронутые страны также сталкиваются с такими же проблемами, как и в Индии.

Кроме того, я применил этот подход к машинному обучению, принимая во внимание опыт сильно инфицированных и наиболее пострадавших стран, таких как Италия, Испания, Великобритания, США, и очень успешных стран в борьбе с пандемией COVID-19, таких как Южная Корея; Китай-Ухань, Австралия, ОАЭ!

Содержание?

  1. Решение основных проблем / задач по контролю за распространением COVID-19 + количество погибших в Индии и других странах?
  2. Моя предложенная идея / решение
  3. Формулировка и решение проблемы машинного обучения для решения вышеуказанных проблем
  4. Возможный подход / решение машинного обучения
  5. Это постоянное решение?

1: Решение основных проблем / задач по контролю за распространением COVID-19 + число погибших в Индии и других странах?

- Проблема в следующем:

Отсутствие целенаправленного тестирования !!!

1.1. Почему важно тестирование

  • Тестирование позволяет инфицированным людям знать, что они инфицированы. Это может помочь им получить необходимую помощь и принять меры по снижению вероятности заражения других. Люди, которые не знают, что они инфицированы, могут не оставаться дома и тем самым рисковать заразить других.
  • Тестирование также имеет решающее значение для адекватного ответа на пандемию. Это позволяет нам понять распространение болезни и принять научно обоснованные меры, чтобы замедлить распространение болезни.
  • К сожалению, возможности тестирования на COVID-19 по-прежнему остаются низкими во многих странах, включая ИНДИЮ и во всем мире. По этой причине у нас до сих пор нет четкого представления о распространении пандемии.

Как работает тест на COVID-19: здесь

1.2. Каким должен быть порог тестирования?

Чтобы найти это, нам нужно понять визуализацию. Я также прикрепил ссылку на всю записную книжку ipython ниже.

Источник данных: https://ourworldindata.org/

  • Такие страны, как Китай-Ухань, Южная Корея, Австралия, до сих пор преуспевали в сглаживании кривой распространения COVID-19, потому что они увеличили test_per_million в соответствии с их населением_per_million.

Ясно, что из приведенной выше визуализации мы можем сделать вывод, что для контроля распространения COVID-19, (test_per_million ≥ Population_per_million * 100) означает, что население в 1 миллион человек нуждается как минимум в 100 тестах.

Такие страны, как Индия, США, Великобритания, Испания, Италия, не смогли соответствовать вышеуказанным критериям тестирования и все еще борются с пандемией COVID-19, даже с тестирование_на_миллион ›население_на_миллион.

1.3. Какие проблемы возникают при увеличении количества тестов на миллион для ИНДИИ и других стран? И зачем он нужен в кратных количествах?

  • Индия и другие пострадавшие страны имеют ограниченные ресурсы здравоохранения. В Индии на 10 000 человек приходится восемь врачей по сравнению с 41 в Италии и 71 в Южной Корее.
  • Ранняя стадия заболевания (первые 1–3 дня) с вирусной нагрузкой слишком мала, чтобы ее можно было обнаружить. Это приводит к ложноотрицательному результату и, следовательно, требует нескольких тестов / индивидуумов, что в конечном итоге приводит к тому, что test_per_million должен быть как минимум больше или равен 100-кратному значению population_per_million, что мы можем узнать из данных других успешных стран.
  • Тестирование - это ручной процесс, который приводит к обработке и человеческим ошибкам.

Почему нам не хватает тестов на COVID-19 (подробно): здесь

2: Предлагаемая мной идея / решение

Итак, если проблема в отсутствии целенаправленного тестирования !!! Тогда решение пандемии COVID-19 - не что иное, как:

«Тестовый тест Тест, а затем карантин»

Но я уже упоминал, что проблемы с увеличением количества тестов не очень тривиальны, особенно когда ИНДИЯ и другие страны, даже США, Великобритания, Италия, Иран, также имеют минимальные ресурсы здравоохранения и имеют ту же проблему.

В компьютерных науках широко распространена поговорка: «Лучшие решения - самые простые!». Нам нужно за очень короткое время увеличить количество тестов на миллион, и здесь я предлагаю свою идею / решение этой проблемы:

Мы должны уделять первоочередное внимание тестированию с использованием приоритетной автоматизированной системы тестирования (PbATS) с использованием машинного обучения и искусственного интеллекта. Это помогает расставить приоритеты при тестировании и помогает определить приоритетность предоставления ограниченных медицинских услуг.

Используя PbATS, мы классифицируем население на основе их ввода. Допустим, мы делим население на три категории следующим образом:

Категория 1 (Самостоятельный карантин): они либо не затронуты, либо все еще не отображают системы, но подвержены влиянию (ложноотрицательные результаты). Он в основном содержит незатронутые и некоторые ложноотрицательные случаи. Следовательно, им необходимо будет периодически проходить PbATS до определенного срока.

Категория 2 (приоритет тестирования): эта категория содержит несколько ложноотрицательных результатов, но симптомы уже начали проявляться и, следовательно, требуется ручное тестирование.

Категория 3 (приоритетные медицинские услуги). В эту категорию входят люди с высокой вероятностью заражения COVID-19, поэтому они должны находиться в строгом карантине и иметь приоритетную больницу. Сервисы.

Примечание. Этот механизм PbATS будет представлять собой подход AI / ML, с помощью которого мы классифицируем эти три категории на основе исторических данных обо всех прошлых пациентах с COVID-19. И, как мы все знаем, «Все модели машинного обучения ошибочны и только некоторые полезны» - учитывая это также, мое решение содержит несколько попыток для категории 1 и категории 3, поскольку для второй категории уже существует ручное тестирование.

Кроме того, количество категорий и периодичность можно точно определить с помощью экспертов домена / экспертов по COVID-19.

3. Формулировка и решение проблемы машинного обучения, направленной на решение вышеуказанных проблем.

Теперь, чтобы вышеуказанное решение работало, нам нужен надежный PbATS. Теперь я продемонстрирую потенциальный подход к созданию этой PbATS с использованием методов машинного обучения.

Формулировка проблемы машинного обучения: нам необходимо распределить совокупность по категориям на основе ее характеристик (возраст, пол), симптомов и истории путешествий.

Рабочий процесс решения: после того, как этот PbATS будет готов, каждый должен пройти этот PbATS, заполнив свои данные в цифровом виде или с помощью волонтера (чтобы минимизировать ошибки), а затем врачи могут легко определить приоритеты услуг тестирования / здравоохранения и может выбрать, кого поместить в карантин. Это помогает врачам и правительству остановить COVID-19 с минимальными ресурсами здравоохранения.

В конечном итоге этот механизм PbATS косвенно поможет правительству и поставщикам медицинских услуг увеличить test_per_million в соответствии с популяцией_per_million, необходимым для остановки распространения COVID-19.

4. Возможный подход / решение машинного обучения

4.1: Данные? Для этого я взял данные, очистил их (с помощью методов интеллектуального анализа текста) и объединил их. Источники данных:

Вот как выглядят необработанные данные:

4.2: После очистки данных:

4.3. Затем я разработал следующие функции:

  • Преобразуйте возрастной диапазон (60–65) в его среднее значение (62,5).
  • Добавлен date_past_onset_symptoms (dpos), который представляет собой разницу в количестве дней ч / б date_confirmation и date_onset_symptoms.
  • Добавлен флаг travel_history (th) на основе операции между travel_history_dates и travel_history_locations.
  • Наконец, объедините все функции как один главный-симптом / смешанный-симптом из всей точки данных. Почему я это сделал, станет более очевидным позже.

4.4: Окончательный набор данных:

4.5: Обработка естественного языка (NLP) для основного симптома

Затем я применил все стандартные техники НЛП для векторизации главного симптома. Я использовал BoW + W2V (Word2Vec-gensim). Я использую W2V, потому что мне нужно сгруппировать симптомы на основе отношения (не сходства и количества), что помогает в процессе кластеризации.

Я использовал BoW вместо TF-IDF, потому что в нашем наборе данных не так много редко встречающихся слов, которые нуждаются в большей важности.

4.6. Кластеризация машинного обучения:

Наконец, я выполнил кластеризацию с помощью KMeans ++ (наиболее общего назначения). Количество кластеров, которые мы получаем с помощью метода локтя, также равно 3 (по совпадению), но его также можно изменить, используя гораздо больше знаний о предметной области!

4.7: Результаты / Облако слов:

Окончательные категории:. Как видно из вышеупомянутых облаков слов основных симптомов, мы можем приблизительно разделить подверженные группы населения на следующие категории:

Категория 3 (Приоритет медицинских услуг): [Возраст от 30 до 75 лет] + [лихорадка, кашель, респираторный, насморк, боль в горле, пневмония, головная боль, стеснение в груди с dpos ›4 ] + [th-1 в основном активные истории путешествий]

Категория 2 (приоритет теста): [возраст от 0 до 75 лет] + [лихорадка, кашель, недомогание, пневмония, скованность, суставная, мышечная болезненность с dpos от 1 до 3 ] + [th-0/1 активные или неактивные истории путешествий]

Категория 1 (Самостоятельный карантин): [Возраст от 0 до 75] + [лихорадка, кашель, слабость, диарея, головокружение, озноб с dpos от 1 до 3] + [th-0 в основном неактивные истории путешествий, но также есть некоторые активные истории путешествий]

обучение. Как мы видим, структура симптомов (смешанные симптомы) зависит от возраста, в основном в случае COVID-19. и становится серьезным с dpos. Мои усилия заключались в том, чтобы обнаружить эти закономерности только для определения приоритетности тестирования с использованием PbATS.

Аналогичная реализация: здесь

5: Это постоянное решение?

Просто нет! Вышеупомянутое решение помогает только ИНДИИ и другим странам остановить распространение COVID-19 с ограниченными услугами здравоохранения. И, следовательно, помогает в сдерживании Sars-CoV-2.

Это постоянное решение - вакцины, подготовка которых требует недель и даже месяцев. Этот пробел можно легко устранить также с помощью ML / AI, найдя вакцину с использованием комбинации существующих вирусных вакцин (Sars-1, испанский грипп) и т. Д., Используя методы ML / AI.

И последнее. Да, описанный выше подход решает проблемы с ограниченными ресурсами здравоохранения. Тем не менее, такие страны, как Индия и другие, должны иметь не менее 30-40% населения на миллион ресурсов здравоохранения (кровати / вентиляторы) для категории 3.

Привет, это Бурхануддин Бхопалвала. Этот блог - мой небольшой вклад в борьбу против COVID-19, особенно распространенного в ИНДИИ.

Отправлено на: https://innovate.mygov.in/covid19/

Вы можете связаться со мной напрямую по адресу электронной почты:
[email protected]

Блоги:

PS:

  • Запросы относительно наборов данных - я сделал и набор данных, и код веб-скрейпинга, написанный на nodeJS с открытым исходным кодом, доступный на моем GitHub.
  • Что касается сотрудничества, напишите мне напрямую.
  • Это оригинальный блог. Читатели могут найти это в других информационных бюллетенях Data Science (upGrad, DS news), а также (переизданных!).