Начало работы с машинным обучением: загрузка данных

Что такое машинное обучение?

Машинное обучение на самом деле является подмножеством искусственного интеллекта (ИИ) и дает машинам возможность учиться без явного программирования.

Я начал этот пост, чтобы задокументировать свое путешествие в машинное обучение, и он также служит для меня средством демонстрации моих работ по мере продвижения вперед. В то же время я также хотел бы призвать новичков использовать мои посты, чтобы глубже погрузиться в мир машинного обучения вместе со мной! Давайте начнем!

Как и любую проблему машинного обучения, ее можно разбить на 5 основных шагов:

  1. Сбор/предварительная обработка данных
  2. Выбор модели
  3. Обучение
  4. Прогноз
  5. Оценка

Сегодня в центре внимания находится первый шаг — сбор данных и предварительная обработка. Прежде чем вы начнете создавать свою модель, важно собрать необработанные данные и подготовить их к использованию. Без этих данных вы вообще не сможете начать.

Шаг 1: Загрузка ваших данных для использования

Для загрузки данных мы используем библиотеку Pandas. Библиотека Pandas — это основной инструмент, который специалисты по данным используют для изучения и обработки данных. Мы будем использовать образец набора данных из Kaggle, содержащий цены на жилье в Мельбурне, чтобы пройти этот процесс. Загрузите набор данных здесь, чтобы продолжить.

  1. Импортируйте библиотеку Pandas, чтобы использовать ее
import pandas as pd

2. Задайте путь к файлу данных для облегчения доступа (используйте полный путь, если данные не находятся в той же папке, что и ваш файл Python). Замените #DATA-FILE-NAME# именем файла CSV, под которым вы сохранили данные.

melbourne_filepath = ‘#DATA-FILE-NAME#.csv’

3. Считайте файл CSV с помощью pd.read_csv().

melbourne_data = pd.read_csv(melbourne_filepath)

Шаг 2. Проверьте загруженные данные

Чтобы просмотреть ваши данные и проверить, правильно ли вы их загрузили, вы можете использовать функцию description() или head().

# describes() returns the statistics of your data
melbourne_data.describe()
# head() returns the first 5 entries of your data
melbourne_data.head()

Функция description() возвращает 8 строк:

  1. Подсчет: сколько строк имеют непропущенные значения.
  2. Среднее значение: среднее значение определенного столбца.
  3. Std: стандартное отклонение значений столбца. Он измеряет, насколько численно разбросаны значения.
  4. Мин.: наименьшее значение
  5. 25%: значение 25-го процентиля
  6. 50%: значение 50-го процентиля
  7. 75%: значение 75-го процентиля
  8. Макс.: наибольшее значение

Вы также можете просмотреть список столбцов в наборе данных, чтобы помочь вам проверить свои данные. Это достигается с помощью метода столбцов

# Returns all the column names
melbourne_data.columns

Шаг 3: Очистите загруженные данные

В случае отсутствия значений вы также можете удалить отсутствующие значения, чтобы очистить данные.

cleaned_melbourne_date = melbourne_data.dropna(axis=0)

В этом посте мы узнали, как загрузить CSV-файл в Pandas DataFrame и проверить его различными методами. В будущих постах мы будем работать над выбором модели, чтобы начать наш первый проект машинного обучения.