Потенциальный подход к машинному обучению, который может помочь контролировать COVID-19
Успешно отправлено на: https://innovate.mygov.in/covid19/
Примечание. Примечание. Мой подход будет сосредоточен на решении проблем, с которыми Индия (моя родная страна) сталкивается при оценке воздействия COVID-19. . Но приведенный ниже метод можно легко обобщить, поскольку другие затронутые страны также сталкиваются с такими же проблемами, как и в Индии.
Кроме того, я применил этот подход к машинному обучению, принимая во внимание опыт сильно инфицированных и наиболее пострадавших стран, таких как Италия, Испания, Великобритания, США, и очень успешных стран в борьбе с пандемией COVID-19, таких как Южная Корея; Китай-Ухань, Австралия, ОАЭ!
Содержание?
- Решение основных проблем / задач по контролю за распространением COVID-19 + количество погибших в Индии и других странах?
- Моя предложенная идея / решение
- Формулировка и решение проблемы машинного обучения для решения вышеуказанных проблем
- Возможный подход / решение машинного обучения
- Это постоянное решение?
1: Решение основных проблем / задач по контролю за распространением COVID-19 + число погибших в Индии и других странах?
- Проблема в следующем:
Отсутствие целенаправленного тестирования !!!
1.1. Почему важно тестирование
- Тестирование позволяет инфицированным людям знать, что они инфицированы. Это может помочь им получить необходимую помощь и принять меры по снижению вероятности заражения других. Люди, которые не знают, что они инфицированы, могут не оставаться дома и тем самым рисковать заразить других.
- Тестирование также имеет решающее значение для адекватного ответа на пандемию. Это позволяет нам понять распространение болезни и принять научно обоснованные меры, чтобы замедлить распространение болезни.
- К сожалению, возможности тестирования на COVID-19 по-прежнему остаются низкими во многих странах, включая ИНДИЮ и во всем мире. По этой причине у нас до сих пор нет четкого представления о распространении пандемии.
Как работает тест на COVID-19: здесь
1.2. Каким должен быть порог тестирования?
Чтобы найти это, нам нужно понять визуализацию. Я также прикрепил ссылку на всю записную книжку ipython ниже.
Источник данных: https://ourworldindata.org/
- Такие страны, как Китай-Ухань, Южная Корея, Австралия, до сих пор преуспевали в сглаживании кривой распространения COVID-19, потому что они увеличили test_per_million в соответствии с их населением_per_million.
Ясно, что из приведенной выше визуализации мы можем сделать вывод, что для контроля распространения COVID-19, (test_per_million ≥ Population_per_million * 100) означает, что население в 1 миллион человек нуждается как минимум в 100 тестах.
Такие страны, как Индия, США, Великобритания, Испания, Италия, не смогли соответствовать вышеуказанным критериям тестирования и все еще борются с пандемией COVID-19, даже с тестирование_на_миллион ›население_на_миллион.
1.3. Какие проблемы возникают при увеличении количества тестов на миллион для ИНДИИ и других стран? И зачем он нужен в кратных количествах?
- Индия и другие пострадавшие страны имеют ограниченные ресурсы здравоохранения. В Индии на 10 000 человек приходится восемь врачей по сравнению с 41 в Италии и 71 в Южной Корее.
- Ранняя стадия заболевания (первые 1–3 дня) с вирусной нагрузкой слишком мала, чтобы ее можно было обнаружить. Это приводит к ложноотрицательному результату и, следовательно, требует нескольких тестов / индивидуумов, что в конечном итоге приводит к тому, что test_per_million должен быть как минимум больше или равен 100-кратному значению population_per_million, что мы можем узнать из данных других успешных стран.
- Тестирование - это ручной процесс, который приводит к обработке и человеческим ошибкам.
Почему нам не хватает тестов на COVID-19 (подробно): здесь
2: Предлагаемая мной идея / решение
Итак, если проблема в отсутствии целенаправленного тестирования !!! Тогда решение пандемии COVID-19 - не что иное, как:
«Тестовый тест Тест, а затем карантин»
Но я уже упоминал, что проблемы с увеличением количества тестов не очень тривиальны, особенно когда ИНДИЯ и другие страны, даже США, Великобритания, Италия, Иран, также имеют минимальные ресурсы здравоохранения и имеют ту же проблему.
В компьютерных науках широко распространена поговорка: «Лучшие решения - самые простые!». Нам нужно за очень короткое время увеличить количество тестов на миллион, и здесь я предлагаю свою идею / решение этой проблемы:
Мы должны уделять первоочередное внимание тестированию с использованием приоритетной автоматизированной системы тестирования (PbATS) с использованием машинного обучения и искусственного интеллекта. Это помогает расставить приоритеты при тестировании и помогает определить приоритетность предоставления ограниченных медицинских услуг.
Используя PbATS, мы классифицируем население на основе их ввода. Допустим, мы делим население на три категории следующим образом:
Категория 1 (Самостоятельный карантин): они либо не затронуты, либо все еще не отображают системы, но подвержены влиянию (ложноотрицательные результаты). Он в основном содержит незатронутые и некоторые ложноотрицательные случаи. Следовательно, им необходимо будет периодически проходить PbATS до определенного срока.
Категория 2 (приоритет тестирования): эта категория содержит несколько ложноотрицательных результатов, но симптомы уже начали проявляться и, следовательно, требуется ручное тестирование.
Категория 3 (приоритетные медицинские услуги). В эту категорию входят люди с высокой вероятностью заражения COVID-19, поэтому они должны находиться в строгом карантине и иметь приоритетную больницу. Сервисы.
Примечание. Этот механизм PbATS будет представлять собой подход AI / ML, с помощью которого мы классифицируем эти три категории на основе исторических данных обо всех прошлых пациентах с COVID-19. И, как мы все знаем, «Все модели машинного обучения ошибочны и только некоторые полезны» - учитывая это также, мое решение содержит несколько попыток для категории 1 и категории 3, поскольку для второй категории уже существует ручное тестирование.
Кроме того, количество категорий и периодичность можно точно определить с помощью экспертов домена / экспертов по COVID-19.
3. Формулировка и решение проблемы машинного обучения, направленной на решение вышеуказанных проблем.
Теперь, чтобы вышеуказанное решение работало, нам нужен надежный PbATS. Теперь я продемонстрирую потенциальный подход к созданию этой PbATS с использованием методов машинного обучения.
Формулировка проблемы машинного обучения: нам необходимо распределить совокупность по категориям на основе ее характеристик (возраст, пол), симптомов и истории путешествий.
Рабочий процесс решения: после того, как этот PbATS будет готов, каждый должен пройти этот PbATS, заполнив свои данные в цифровом виде или с помощью волонтера (чтобы минимизировать ошибки), а затем врачи могут легко определить приоритеты услуг тестирования / здравоохранения и может выбрать, кого поместить в карантин. Это помогает врачам и правительству остановить COVID-19 с минимальными ресурсами здравоохранения.
В конечном итоге этот механизм PbATS косвенно поможет правительству и поставщикам медицинских услуг увеличить test_per_million в соответствии с популяцией_per_million, необходимым для остановки распространения COVID-19.
4. Возможный подход / решение машинного обучения
4.1: Данные? Для этого я взял данные, очистил их (с помощью методов интеллектуального анализа текста) и объединил их. Источники данных:
- Https://ourworldindata.org/coronavirus
- Https://www.kaggle.com/tags/covid19
- Https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200323-sitrep-63-covid-19.pdf?sfvrsn=d97cb6dd_2
Вот как выглядят необработанные данные:
4.2: После очистки данных:
4.3. Затем я разработал следующие функции:
- Преобразуйте возрастной диапазон (60–65) в его среднее значение (62,5).
- Добавлен date_past_onset_symptoms (dpos), который представляет собой разницу в количестве дней ч / б date_confirmation и date_onset_symptoms.
- Добавлен флаг travel_history (th) на основе операции между travel_history_dates и travel_history_locations.
- Наконец, объедините все функции как один главный-симптом / смешанный-симптом из всей точки данных. Почему я это сделал, станет более очевидным позже.
4.4: Окончательный набор данных:
4.5: Обработка естественного языка (NLP) для основного симптома
Затем я применил все стандартные техники НЛП для векторизации главного симптома. Я использовал BoW + W2V (Word2Vec-gensim). Я использую W2V, потому что мне нужно сгруппировать симптомы на основе отношения (не сходства и количества), что помогает в процессе кластеризации.
Я использовал BoW вместо TF-IDF, потому что в нашем наборе данных не так много редко встречающихся слов, которые нуждаются в большей важности.
4.6. Кластеризация машинного обучения:
Наконец, я выполнил кластеризацию с помощью KMeans ++ (наиболее общего назначения). Количество кластеров, которые мы получаем с помощью метода локтя, также равно 3 (по совпадению), но его также можно изменить, используя гораздо больше знаний о предметной области!
4.7: Результаты / Облако слов:
Окончательные категории:. Как видно из вышеупомянутых облаков слов основных симптомов, мы можем приблизительно разделить подверженные группы населения на следующие категории:
Категория 3 (Приоритет медицинских услуг): [Возраст от 30 до 75 лет] + [лихорадка, кашель, респираторный, насморк, боль в горле, пневмония, головная боль, стеснение в груди с dpos ›4 ] + [th-1 в основном активные истории путешествий]
Категория 2 (приоритет теста): [возраст от 0 до 75 лет] + [лихорадка, кашель, недомогание, пневмония, скованность, суставная, мышечная болезненность с dpos от 1 до 3 ] + [th-0/1 активные или неактивные истории путешествий]
Категория 1 (Самостоятельный карантин): [Возраст от 0 до 75] + [лихорадка, кашель, слабость, диарея, головокружение, озноб с dpos от 1 до 3] + [th-0 в основном неактивные истории путешествий, но также есть некоторые активные истории путешествий]
обучение. Как мы видим, структура симптомов (смешанные симптомы) зависит от возраста, в основном в случае COVID-19. и становится серьезным с dpos. Мои усилия заключались в том, чтобы обнаружить эти закономерности только для определения приоритетности тестирования с использованием PbATS.
Аналогичная реализация: здесь
5: Это постоянное решение?
Просто нет! Вышеупомянутое решение помогает только ИНДИИ и другим странам остановить распространение COVID-19 с ограниченными услугами здравоохранения. И, следовательно, помогает в сдерживании Sars-CoV-2.
Это постоянное решение - вакцины, подготовка которых требует недель и даже месяцев. Этот пробел можно легко устранить также с помощью ML / AI, найдя вакцину с использованием комбинации существующих вирусных вакцин (Sars-1, испанский грипп) и т. Д., Используя методы ML / AI.
И последнее. Да, описанный выше подход решает проблемы с ограниченными ресурсами здравоохранения. Тем не менее, такие страны, как Индия и другие, должны иметь не менее 30-40% населения на миллион ресурсов здравоохранения (кровати / вентиляторы) для категории 3.
Привет, это Бурхануддин Бхопалвала. Этот блог - мой небольшой вклад в борьбу против COVID-19, особенно распространенного в ИНДИИ.
Отправлено на: https://innovate.mygov.in/covid19/
Вы можете связаться со мной напрямую по адресу электронной почты:
[email protected]
Блоги:
- Блоги для средних и больших объемов данных / машинного обучения / искусственного интеллекта: https://medium.com/@burhanuddinbhopalwala.cse
- Блоги сообщества разработчиков программного обеспечения: https://dev.to/burhanuddinbhopalwala
PS:
- Запросы относительно наборов данных - я сделал и набор данных, и код веб-скрейпинга, написанный на nodeJS с открытым исходным кодом, доступный на моем GitHub.
- Что касается сотрудничества, напишите мне напрямую.
- Это оригинальный блог. Читатели могут найти это в других информационных бюллетенях Data Science (upGrad, DS news), а также (переизданных!).