В анализе данных и машинном обучении крайне важно работать с чистыми и точными данными. Часто наборы данных, с которыми вы работаете, могут содержать дубликаты, которые могут вызвать проблемы в вашем анализе или прогнозах. К счастью, Python Pandas предоставляет простой способ удаления дубликатов из ваших данных.
В этом руководстве мы шаг за шагом рассмотрим процесс удаления дубликатов в Python Pandas. Мы начнем с импорта библиотеки Pandas и создания образца DataFrame с повторяющимися значениями. Затем мы покажем вам, как идентифицировать повторяющиеся строки с помощью метода duplicated()
. Наконец, мы будем использовать метод drop_duplicates()
для удаления дубликатов на основе указанных столбцов.
К концу этого руководства у вас будет четкое представление о том, как удалять дубликаты в Python Pandas, что поможет вам повысить точность и надежность ваших проектов анализа данных и машинного обучения.
Вот пошаговое руководство по удалению дубликатов в Python Pandas:
Шаг 1: импортируйте библиотеку Pandas
Во-первых, вам нужно импортировать библиотеку Pandas в вашу среду Python. Вы можете сделать это, используя следующий код:
import pandas as pd
Шаг 2: Создайте DataFrame
Далее вам нужно создать DataFrame с повторяющимися значениями. Вы можете создать простой DataFrame, используя следующий код:
data = {'name': ['John', 'Peter', 'Sarah', 'Peter'], 'age': [25, 36, 29, 36], 'city': ['New York', 'London', 'Paris', 'London']} df = pd.DataFrame(data) print(df)
Это создаст DataFrame с повторяющимися значениями в столбце «имя».
name age city 0 John 25 New York 1 Peter 36 London 2 Sarah 29 Paris 3 Peter 36 London
Вложенные функции в Python: пошаговое руководство
В Python можно определить функцию внутри другой функции. Это известно как «вложенная функция или…blog.devgenius.io»
Шаг 3. Определите повторяющиеся строки
Прежде чем удалять дубликаты, необходимо их идентифицировать. Вы можете использовать метод duplicated()
в Pandas для выявления повторяющихся строк. Этот метод возвращает логический ряд, указывающий, какие строки являются дубликатами.
duplicates = df.duplicated() print(duplicates)
Это напечатает логический ряд, указывающий, какие строки являются дубликатами.
0 False 1 False 2 False 3 True dtype: bool
Шаг 4. Удалите повторяющиеся строки
Как только вы определили повторяющиеся строки, вы можете удалить их с помощью метода drop_duplicates()
. Этот метод удаляет повторяющиеся строки на основе указанных столбцов.
df.drop_duplicates(subset=['name'], inplace=True) print(df)
Это удалит повторяющиеся строки на основе столбца «имя» и распечатает полученный фрейм данных без дубликатов.
name age city 0 John 25 New York 1 Peter 36 London 2 Sarah 29 Paris
Аргумент inplace=True
гарантирует, что DataFrame будет изменен на месте, а не создан новый DataFrame.
Вот и все! Вы успешно удалили дубликаты в DataFrame с помощью Pandas. Вам предлагается прочитать следующий учебник о том, как обрабатывать отсутствующие данные в Python Pandas.
В этом руководстве мы рассмотрели процесс удаления дубликатов из DataFrame с помощью Python Pandas. Мы научились определять повторяющиеся строки с помощью метода duplicated()
и удалять их на основе указанных столбцов с помощью метода drop_duplicates()
.
Удаляя дубликаты, мы можем гарантировать точность и надежность наших данных, что необходимо для успешного анализа данных и проектов машинного обучения. Обладая этими знаниями, вы сможете уверенно решать любые проблемы с дублированием данных, с которыми вы можете столкнуться, и продолжать совершенствовать и улучшать свои навыки анализа данных.