Прогнозирование сердечной недостаточности с помощью машинного обучения в Project

В современном быстро меняющемся мире люди часто отдают приоритет своим повседневным обязанностям и пренебрегают своим здоровьем, что приводит к росту различных заболеваний. Среди них сердечно-сосудистые заболевания стали серьезной проблемой: по данным Всемирной организации здравоохранения (ВОЗ), примерно 31% смертей в мире связаны с сердечно-сосудистыми заболеваниями. Поэтому становится крайне важным прогнозировать возникновение сердечных заболеваний и принимать упреждающие меры по профилактике и своевременному вмешательству.

Медицинский сектор и больницы генерируют огромное количество данных, которые иногда бывает сложно проанализировать вручную. Однако использование возможностей методов машинного обучения для прогнозного анализа и обработки данных может значительно повысить эффективность работы медицинских работников. Это исследование направлено на изучение сердечных заболеваний и их факторов риска с использованием методов машинного обучения для прогнозирования их возникновения. Кроме того, будет проведен сравнительный анализ различных алгоритмов машинного обучения, чтобы оценить их эффективность в прогнозировании сердечных заболеваний.

Основная цель этого исследования — разработать точную модель прогнозирования сердечных заболеваний с использованием машинного обучения. Используя возможности передовых алгоритмов, это исследование направлено на то, чтобы предоставить практикующим врачам ценный инструмент для раннего выявления и упреждающего лечения сердечных заболеваний. Сравнительный анализ алгоритмов машинного обучения даст представление о сильных и слабых сторонах каждого подхода, что позволит принять обоснованное решение относительно наиболее эффективной модели прогнозирования.

Сочетая медицинский опыт с методами машинного обучения, мы стремимся внести свой вклад в сферу здравоохранения, улучшая прогнозирование сердечных заболеваний и в конечном итоге уменьшая влияние этого распространенного состояния на отдельных людей и общество в целом.

Цель:

Основная цель этого проекта — построить надежную прогностическую модель, которая может эффективно выявлять людей с высоким риском сердечной недостаточности. Анализируя исторические данные и используя алгоритмы машинного обучения, модель будет обучена прогнозировать вероятность сердечной недостаточности на основе входных данных, таких как возраст, пол, история болезни, артериальное давление, уровень холестерина и факторы образа жизни. Конечной целью является улучшение результатов лечения пациентов за счет раннего вмешательства и персонализированного управления медицинским обслуживанием.

Контур:

Введение

Обзор сердечной недостаточности и ее влияния на общественное здоровье
Важность раннего выявления и активного лечения
Роль машинного обучения в прогнозировании сердечной недостаточности

2. Сбор данных

Определите и соберите полный набор данных, содержащий соответствующие функции
Изучите медицинские записи, клинические базы данных и общедоступные наборы данных
Обеспечение конфиденциальности данных и этических соображений

3. Предварительная обработка данных

Обработка отсутствующих значений, дубликатов и несоответствий в наборе данных
Выполнение проектирования функций для извлечения значимой информации
Нормализация или масштабирование числовых функций
Кодировать категориальные переменные

4. Исследовательский анализ данных

Выполните статистический анализ и визуализацию, чтобы получить представление о данных
Изучить корреляции между особенностями и сердечной недостаточностью
Определите любые закономерности или тенденции в данных

5. Выбор функции

Выберите наиболее важные функции для прогнозирования сердечной недостаточности
Используйте такие методы, как корреляционный анализ, важность признаков и знание предметной области.
Удалите ненужные или избыточные функции

6. Выбор модели и обучение

Выберите подходящие алгоритмы машинного обучения для прогнозирования
Разделите набор данных на наборы для обучения и тестирования.
Обучайте модели с использованием различных алгоритмов (например, логистическая регрессия, случайные леса, машины опорных векторов).
Используйте соответствующие метрики оценки для оценки производительности модели

7. Оценка и сравнение моделей

Оценивайте обученные модели, используя такие показатели, как точность, достоверность, полнота и кривая AUC-ROC.
Сравните производительность разных моделей, чтобы определить наиболее точную и надежную.
Учитывайте такие факторы, как интерпретируемость, вычислительная сложность и масштабируемость.

8. Развертывание модели

Разверните выбранную модель в производственной среде
Разработайте API или интегрируйте модель в веб-приложение или систему здравоохранения.
Обеспечение прогнозов в реальном времени и безопасная обработка входных данных

9. Мониторинг и улучшение эффективности

Непрерывный мониторинг производительности модели в производственной среде.
Собирайте отзывы от медицинских работников и конечных пользователей
Обновляйте и переобучайте модель по мере поступления новых данных.
Точная настройка гиперпараметров и рассмотрение методов ансамбля для дальнейших улучшений

10. Заключение

Резюме целей и достижений проекта
Подчеркните значение прогностической модели для раннего выявления сердечной недостаточности.
Обсудить возможные будущие усовершенствования и расширения проекта

Вот некоторые из наиболее часто используемых алгоритмов машинного обучения для прогнозирования сердечной недостаточности:

Логистическая регрессия — это простой, но эффективный алгоритм, который можно использовать для прогнозирования бинарных исходов, например, разовьется ли у пациента сердечная недостаточность.
Машины опорных векторов (SVM) — это мощные алгоритмы, которые можно использовать для прогнозирования как бинарных, так и непрерывных результатов.
Нейронные сети — это более сложные алгоритмы, которые могут изучать сложные взаимосвязи между функциями и результатами.

Введение

Прогнозирование сердечной недостаточности с использованием методов машинного обучения является важным приложением в здравоохранении. Этот проект направлен на разработку прогностической модели, которая может точно предсказать вероятность сердечной недостаточности у человека на основе различных факторов риска и медицинских показателей. Используя алгоритмы машинного обучения и набор данных, содержащий соответствующие функции, этот проект призван помочь медицинским работникам в раннем выявлении и упреждающем лечении сердечной недостаточности.

Сердце, как жизненно важный орган человеческого тела, играет решающую роль в перекачивании крови к каждой части нашей анатомии. Его правильное функционирование необходимо для эффективной работы мозга и различных других органов. Когда сердце не работает должным образом, жизнь человека подвергается непосредственной опасности, так как мозг и органы перестают работать в течение нескольких минут. К сожалению, изменения в образе жизни, связанный с работой стресс и неправильные пищевые привычки привели к тревожному росту сердечно-сосудистых заболеваний.

Болезни сердца стали одной из основных причин смерти во всем мире. По данным Всемирной организации здравоохранения (ВОЗ), эти заболевания ежегодно уносят жизни 17,7 млн человек, что составляет 31% всех смертей в мире. В Индии сердечно-сосудистые заболевания стали основной причиной смертности: в 2016 году было зарегистрировано 1,7 миллиона смертей, как сообщается в Докладе о глобальном бремени болезней за 2016 год.

Последствия сердечных заболеваний не ограничиваются гибелью людей. Это значительно обременяет системы здравоохранения и снижает производительность труда людей. По оценкам ВОЗ, в период с 2005 по 2015 год Индия понесла убытки в размере до 237 миллиардов долларов из-за сердечно-сосудистых заболеваний. Поэтому точный и достижимый прогноз сердечно-сосудистых заболеваний имеет первостепенное значение.

Медицинские организации по всему миру собирают огромное количество данных по различным вопросам, связанным со здоровьем, в том числе по сердечным заболеваниям. Эти наборы данных обладают огромным потенциалом для получения ценной информации при анализе с использованием методов машинного обучения. Однако сам размер и сложность этих наборов данных могут быть ошеломляющими для понимания человеческим разумом. Именно здесь вступают в действие алгоритмы машинного обучения, предоставляющие эффективные инструменты для изучения и извлечения значимых закономерностей и прогнозов из данных.

Используя методы машинного обучения, медицинские работники могут точно прогнозировать наличие или отсутствие заболеваний, связанных с сердцем. Эти алгоритмы оказались бесценными при обработке больших и зашумленных наборов данных, обеспечивая более точную диагностику и своевременное вмешательство. Алгоритмы машинного обучения, способные обрабатывать огромные объемы данных, стали незаменимыми инструментами в поисках лучшего понимания и прогнозирования сердечных заболеваний.

В заключение, прогнозирование сердечно-сосудистых заболеваний имеет первостепенное значение в области здравоохранения. Использование методов машинного обучения позволяет медицинским организациям использовать всю мощь данных и получать ценную информацию для улучшения диагностики, профилактики и лечения. Сочетая медицинский опыт с передовыми технологиями, мы можем стремиться уменьшить воздействие сердечных заболеваний, улучшить результаты лечения пациентов и способствовать общему благополучию населения во всем мире.

Использованная литература:

[1] Всемирная организация здравоохранения (ВОЗ)

[2] Доклад о глобальном бремени болезней (2016 г.)

Прогноз возникновения сердечной недостаточности

Этот проект направлен на прогнозирование возникновения сердечной недостаточности с помощью нескольких классификационных алгоритмов.

Импорт и исследование данных

Набор данных

Мы будем использовать набор данных для прогнозирования сердечной недостаточности, доступный на Kaggle (https://www.kaggle.com/andrewmvd/heart-failure-clinical-data). Набор данных содержит 299 записей с 13 признаками, включая возраст, пол и различные медицинские показатели. Целевая переменная представляет собой бинарную классификацию того, была ли у пациента сердечная недостаточность или нет.

# import what we need here
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as st
import os
import time

# the data source
# the corresponding file is available at https://www.kaggle.com/datasets/ineubytes/
# If you use google colab, PLEASE put the corresponding csv dataset into the root d
# The file will be deleted everytime in google colab!!! And you might use additiona
# If you use jupyter lab, make sure that you set the directory to the place where t
# os.getcwd()
# os.chdir('your directory goes here')
df = pd.read_csv('heart.csv')
# explore data
df.head()
age sex cp trestbps chol fbs restecg thalach exang oldpeak slope ca thal
0 52 1 0 125 212 0 1 168 0 1.0 2 2 3
1 53 1 0 140 203 1 0 155 1 3.1 0 0 3
2 70 1 0 145 174 0 1 125 1 2.6 0 0 3
3 61 1 0 148 203 0 1 161 0 0.0 2 1 3
4 62 0 0 138 294 1 1 106 0 1.9 1 3 2

Прогноз сердечной недостаточности

In [1]:

import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    import warnings
    warnings.filterwarnings("ignore")
    
    
    import os
    for dirname, _, filenames in os.walk('/kaggle/input'):
        for filename in filenames:
            print(os.path.join(dirname, filename))
/kaggle/input/heart-failure-clinical-data/heart_failure_clinical_records_dataset.csv

In [2]:

data=pd.read_csv("/kaggle/input/heart-failure-clinical-data/heart_failure_clinical_records_dataset.csv")

In [3]:

data.head()

Выход[3]:

возрастная анемиякреатинин_фосфокиназадиабетинъекция_фракциявысокое_кровяное_давлениетромбоцитысыворотка_креатининсыворотка_натрийсекскурениевремяDEATH_EVENT075.005820201265000.001.91301041155.0078610380263358.031.11361061265.0014 60200162000.001.31291171350.011110200210000.001.91371071465.011601200327000.002.71160081

In [4]:

data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   age                       299 non-null    float64
 1   anaemia                   299 non-null    int64  
 2   creatinine_phosphokinase  299 non-null    int64  
 3   diabetes                  299 non-null    int64  
 4   ejection_fraction         299 non-null    int64  
 5   high_blood_pressure       299 non-null    int64  
 6   platelets                 299 non-null    float64
 7   serum_creatinine          299 non-null    float64
 8   serum_sodium              299 non-null    int64  
 9   sex                       299 non-null    int64  
 10  smoking                   299 non-null    int64  
 11  time                      299 non-null    int64  
 12  DEATH_EVENT               299 non-null    int64  
dtypes: float64(3), int64(10)
memory usage: 30.5 KB

In [5]:

data.describe()

Выход[5]:

возрастная анемиякреатинин_фосфокиназадиабетинъекция_фракциявысокое_кровяное_давлениетромбоцитысыворотка_креатининсыворотка_натрийсекскурениевремяDEATH_EVENTcount299.000000299.000000299.000000299.000000299.000000299.000000299.00000029 9.00000299.000000299.000000299.00000299.000000299.00000среднее60.8338930.431438581.8394650.41806038.0836120.351171263358.0292641 .39388136.6254180.6488290.32107130.2608700.32107std11.8948090.496107970.2878810.49406711.8348410.47813697804.2368691.034514. 4124770.4781360.4676777.6142080.46767мин40.0000000.00000023.0000000.00000014.0000000.00000025100. 0000000.50000113.0000000.0000000.000004.0000000.0000025%51.0000000.000000116.5000000.00000030.0000000.000000212500.000000 0.90000134.0000000.0000000.0000073.0000000.0000050%60.0000000.000000250.0000000.00000038.0000000.000000262000.0000001.10000 137.0000001.0000000.00000115.0000000.0000075%70.0000001.000000582.0000001.00000045.0000001.000000303500.0000001.40000140.00 00001.0000001.00000203.0000001.00000max95 .0000001.0000007861.0000001.00000080.0000001.000000850000.0000009.40000148.0000001.0000001.00000285.0000001.00000

In [6]:

data.columns

Выход[6]:

Index(['age', 'anaemia', 'creatinine_phosphokinase', 'diabetes',
       'ejection_fraction', 'high_blood_pressure', 'platelets',
       'serum_creatinine', 'serum_sodium', 'sex', 'smoking', 'time',
       'DEATH_EVENT'],
      dtype='object')

In [7]:

#missing value
    
    data.isnull().sum()

Выход[7]:

age                         0
anaemia                     0
creatinine_phosphokinase    0
diabetes                    0
ejection_fraction           0
high_blood_pressure         0
platelets                   0
serum_creatinine            0
serum_sodium                0
sex                         0
smoking                     0
time                        0
DEATH_EVENT                 0
dtype: int64

In [8]:

data["DEATH_EVENT"].value_counts()

Выход[8]:

0    203
1     96
Name: DEATH_EVENT, dtype: int64

In [9]:

#unique value analysis
    
    for i in list(data.columns):
        print("{}->{}".format(i,data[i].value_counts().shape[0]))
age->47
anaemia->2
creatinine_phosphokinase->208
diabetes->2
ejection_fraction->17
high_blood_pressure->2
platelets->176
serum_creatinine->40
serum_sodium->27
sex->2
smoking->2
time->148
DEATH_EVENT->2

In [10]:

#categorical feature analysis
    
    categorical_list=["anaemia","diabetes","high_blood_pressure","sex","smoking","DEATH_EVENT"]

In [11]:

import matplotlib.pyplot as plt
    import seaborn as sns
    data_categoric = data.loc[:, categorical_list]
    fig, axs = plt.subplots(ncols=len(categorical_list), figsize=(20,5))
    for i, col in enumerate(categorical_list):
        sns.countplot(x=col, data=data_categoric, hue="DEATH_EVENT", ax=axs[i])
        axs[i].set_title(col)
    plt.tight_layout()
    plt.show()

In [12]:

#numeric feature analysis
    
    numeric_list=["age", "creatinine_phosphokinase",
           "ejection_fraction", "platelets",
           "serum_creatinine", "serum_sodium", "time","DEATH_EVENT"]

In [13]:

data_numeric = data.loc[:, numeric_list]
    sns.pairplot(data_numeric, hue = "DEATH_EVENT", diag_kind = "kde")
    plt.show()

In [14]:

#standardization
    
    from sklearn.preprocessing import StandardScaler
    scaler=StandardScaler()
    scaled_array=scaler.fit_transform(data[numeric_list[:-1]])

In [15]:

pd.DataFrame(scaled_array).describe()

Исход[15]:

0123456count2.990000e+02299.0000002.990000e+022.990000e+022.990000e+022.990000e+022.990000e+02mean5.703353e-160.000000–3.267546 e-177.723291e-171.425838e-16–8.673849e-16–1.901118e-16std1.001676e+001.0016761 .001676e+001.001676e+001.001676e+001.001676e+001.001676e+00мин-1.754448e+00–0.576918–2.038387e+00–2.440155e+00–8.655094e-01 –5,363206e+00–1,629502e+0025%- 8,281242e-01–0,480393–6,841802e-01–5,208700e-01–4,782047e-01–5,959961e-01–7,389995e-0150%-7,022315e-02–0,342574–7,076750e -03–1.390846э-02– 2.845524e-018.503384e-02–1.969543e-0175%7.718891e-010.0001665.853888e-014.111199e-015.926150e-037.660638e-019.387595e-01max 2.877170e+007.5146403.547716e+006.008180e+007.752020e+002.582144e+001.997038 е+00

In [16]:

#correlation analysis
    
    f,ax=plt.subplots(figsize = (8,5))
    sns.heatmap(data.corr(), annot = True, fmt = ".1f", linewidths = .5,ax=ax)
    plt.show()

In [17]:

#encoding categorical columns
    
    data1=data.copy()
    data1= pd.get_dummies(data1, columns = categorical_list[:-1], drop_first = True)
    data1.head()

Вышли[17]:

возрасткреатинин_фосфокиназавыброс_фракциятромбоцитысыворотка_креатининсыворотка_натрийвремяСМЕРТЬ_СОБЫТИЕанемия_1диабет_1высокое_кровяное_давление_1секс_1курение_1075.058220265000.001.91304100110155.0786138263358.031.11366100 010265.014620162000.001.31297100011350.011120210000.001.91377110010465.016020327000.002.71168111000

In [18]:

x_data = data1.drop(["DEATH_EVENT"], axis = 1)
    y = data1.DEATH_EVENT.values