Часть I Сбор данных

Как использование алгоритма машинного обучения для прогнозирования продолжительности жизни может помочь в принятии решений в области социальных инвестиций

Работая в неправительственной организации, занимающейся качеством жизни пожилых , я всегда сталкиваюсь с инициативами, направленными на повышение ожиданий и повышение качества жизни граждан. Ожидаемая продолжительность жизни - один из наиболее важных факторов при принятии решения о завершении жизненного цикла.
Многие из этих инициатив требуют финансовых вложений, и поэтому необходимо решить, какой инициативе уделять первоочередное внимание.

В этом проекте я подхожу к задаче прогнозирования продолжительности жизни как к задаче контролируемого машинного обучения.

Я использовал методологию CRISP DM (отраслевой стандартный процесс CRoss для интеллектуального анализа данных). Это модель процесса с шестью фазами, которая естественным образом описывает жизненный цикл науки о данных. Я обычно завершаю как минимум 2 цикла, прежде чем закончить проект.

Наборы данных

Если рассматривать данные за период с 2000 по 2015 год для 193 стран, данные были разделены по здоровью, экономике, смертности, иммунизации, окружающей среде и демографическим факторам.

Часть данных была собрана на веб-сайте kaggle, но взята с веб-сайта ВОЗ и Организации Объединенных Наций с помощью ученых Дикша Рассела и Дуана Ванга.

Вторая часть была собрана веб-сайтом Наш мир в данных, который является проектом Global Change Data Lab, некоммерческой организации, базирующейся в Великобритании.

Набор данных был завершен, заполнив код страны и код континента из функции, а затем я использовал API Geolocation для преобразования в коды стран alpah2.

После этой работы по стандартизации наборов данных и дополнения демографическими данными с веб-сайта Организации Объединенных Наций у меня есть окончательный набор данных с 2938 строками и 30 столбцами.

Короче говоря, это исследование будет сосредоточено на факторах иммунизации, факторах смертности, экономических факторах, социальных факторах и других факторах, связанных со здоровьем, а также выбросах газов в разных странах.

Наблюдения в этом наборе данных основаны на разных странах, так что стране будет легче определить предиктор, который способствует более низкой ожидаемой продолжительности жизни, помогая предположить, какой области следует придать значение для эффективного увеличения продолжительности жизни населения.

Ссылки: