Начало работы с машинным обучением: загрузка данных
Что такое машинное обучение?
Машинное обучение на самом деле является подмножеством искусственного интеллекта (ИИ) и дает машинам возможность учиться без явного программирования.
Я начал этот пост, чтобы задокументировать свое путешествие в машинное обучение, и он также служит для меня средством демонстрации моих работ по мере продвижения вперед. В то же время я также хотел бы призвать новичков использовать мои посты, чтобы глубже погрузиться в мир машинного обучения вместе со мной! Давайте начнем!
Как и любую проблему машинного обучения, ее можно разбить на 5 основных шагов:
- Сбор/предварительная обработка данных
- Выбор модели
- Обучение
- Прогноз
- Оценка
Сегодня в центре внимания находится первый шаг — сбор данных и предварительная обработка. Прежде чем вы начнете создавать свою модель, важно собрать необработанные данные и подготовить их к использованию. Без этих данных вы вообще не сможете начать.
Шаг 1: Загрузка ваших данных для использования
Для загрузки данных мы используем библиотеку Pandas. Библиотека Pandas — это основной инструмент, который специалисты по данным используют для изучения и обработки данных. Мы будем использовать образец набора данных из Kaggle, содержащий цены на жилье в Мельбурне, чтобы пройти этот процесс. Загрузите набор данных здесь, чтобы продолжить.
- Импортируйте библиотеку Pandas, чтобы использовать ее
import pandas as pd
2. Задайте путь к файлу данных для облегчения доступа (используйте полный путь, если данные не находятся в той же папке, что и ваш файл Python). Замените #DATA-FILE-NAME# именем файла CSV, под которым вы сохранили данные.
melbourne_filepath = ‘#DATA-FILE-NAME#.csv’
3. Считайте файл CSV с помощью pd.read_csv().
melbourne_data = pd.read_csv(melbourne_filepath)
Шаг 2. Проверьте загруженные данные
Чтобы просмотреть ваши данные и проверить, правильно ли вы их загрузили, вы можете использовать функцию description() или head().
# describes() returns the statistics of your data melbourne_data.describe() # head() returns the first 5 entries of your data melbourne_data.head()
Функция description() возвращает 8 строк:
- Подсчет: сколько строк имеют непропущенные значения.
- Среднее значение: среднее значение определенного столбца.
- Std: стандартное отклонение значений столбца. Он измеряет, насколько численно разбросаны значения.
- Мин.: наименьшее значение
- 25%: значение 25-го процентиля
- 50%: значение 50-го процентиля
- 75%: значение 75-го процентиля
- Макс.: наибольшее значение
Вы также можете просмотреть список столбцов в наборе данных, чтобы помочь вам проверить свои данные. Это достигается с помощью метода столбцов
# Returns all the column names melbourne_data.columns
Шаг 3: Очистите загруженные данные
В случае отсутствия значений вы также можете удалить отсутствующие значения, чтобы очистить данные.
cleaned_melbourne_date = melbourne_data.dropna(axis=0)
В этом посте мы узнали, как загрузить CSV-файл в Pandas DataFrame и проверить его различными методами. В будущих постах мы будем работать над выбором модели, чтобы начать наш первый проект машинного обучения.