Шаг 1: Установите Анаконду

https://www.anaconda.com/products/distribution

Шаг 2. Установите ноутбуки Jupyter

https://www.geeksforgeeks.org/how-to-install-jupyter-notebook-in-windows/

Шаг 3. Установите библиотеки данных и пакеты для анализа и анализа данных с помощью программирования на Python.

Пример кода:

#Импорт библиотек и пакетов для аналитики данных и обработки данных
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import seaborn as sns
import matplotlib .pyplot как plt
%matplotlib inline
импортировать pylab
из pylab импортировать rcParams
импортировать statsmodels.api как sm
импортировать статистику
из scipy импортировать статистику< br /> import sklearn
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.metrics import classification_report
из scipy.stats import chisquare
из scipy.stats import chi2_contingency

Шаг 4. Импортируйте набор данных и очистите данные, удалив выбросы.

Пример кода:

#load dataframe
df= pd.read_csv(r’C:\example.csv’)

#Очистка данных

df= df.drop(columns= ['Пример, Пример'])
nulls = df.isnull().any()
print(nulls)

Шаг 5. Скорректируйте данные, изменив при необходимости типы данных и создав фиктивные переменные.

Пример:

df['ExampleA_dummy'] = [1, если v == 'Женщина', else 0 для v в df['ExampleA']]
df['ExampleB_dummy'] = [1, если v == 'Да', else 0 для v в df['ExampleB']]

Шаг 7. Запустите код линейной регрессии с выбранными переменными для анализа, такими как «метод кухонной раковины».

Пример кода:

#Модель линейной регрессии №1, основанная на методе кухонной раковины
mode1 = sm.OLS(df['зависимаяпеременная'], df[['Дети','независимаяпеременная1', 'независимаяпеременная2','независимаяпеременная3', 'независимаяпеременная4 ','перехват']]).fit()
print(mode1.summary())

Шаг 8. Используйте статистический метод, такой как «обратное пошаговое исключение», чтобы уменьшить MLR для редуцированной модели линейной регрессии на основе статистической значимости.

Пример кода:

#Модель редуцированной линейной регрессии — метод-обертка (обратное пошаговое исключение)

df['перехват'] = 2
приведенный_режим1 = sm.OLS(df['зависимаяпеременная'], df[['независимаяпеременная1','независимаяпеременная2', 'перехват']]).fit()
печать (reduced_mode1.summary())

Шаг 9: Проанализируйте результаты: Оцените значения коэффициентов, p-значения, r-квадраты и логарифмические значения.