Как удалить дубликаты в Python Pandas: пошаговое руководство

В анализе данных и машинном обучении крайне важно работать с чистыми и точными данными. Часто наборы данных, с которыми вы работаете, могут содержать дубликаты, которые могут вызвать проблемы в вашем анализе или прогнозах. К счастью, Python Pandas предоставляет простой способ удаления дубликатов из ваших данных.

В этом руководстве мы шаг за шагом рассмотрим процесс удаления дубликатов в Python Pandas. Мы начнем с импорта библиотеки Pandas и создания образца DataFrame с повторяющимися значениями. Затем мы покажем вам, как идентифицировать повторяющиеся строки с помощью метода duplicated(). Наконец, мы будем использовать метод drop_duplicates() для удаления дубликатов на основе указанных столбцов.

К концу этого руководства у вас будет четкое представление о том, как удалять дубликаты в Python Pandas, что поможет вам повысить точность и надежность ваших проектов анализа данных и машинного обучения.

Получайте сообщения по электронной почте всякий раз, когда д-р Соумен Атта, к.т.н. публикует.
Получайте уведомления по электронной почте, когда д-р Соумен Атта, доктор философии. публикует. Зарегистрировавшись, вы создадите учетную запись Medium, если вы не…soumenatta.medium.com

Вот пошаговое руководство по удалению дубликатов в Python Pandas:

Шаг 1: импортируйте библиотеку Pandas

Во-первых, вам нужно импортировать библиотеку Pandas в вашу среду Python. Вы можете сделать это, используя следующий код:

import pandas as pd

Шаг 2: Создайте DataFrame

Далее вам нужно создать DataFrame с повторяющимися значениями. Вы можете создать простой DataFrame, используя следующий код:

data = {'name': ['John', 'Peter', 'Sarah', 'Peter'],
        'age': [25, 36, 29, 36],
        'city': ['New York', 'London', 'Paris', 'London']}
df = pd.DataFrame(data)
print(df)

Это создаст DataFrame с повторяющимися значениями в столбце «имя».

    name  age      city
0   John   25  New York
1  Peter   36    London
2  Sarah   29     Paris
3  Peter   36    London

Вложенные функции в Python: пошаговое руководство
В Python можно определить функцию внутри другой функции. Это известно как «вложенная функция или…blog.devgenius.io»

Шаг 3. Определите повторяющиеся строки

Прежде чем удалять дубликаты, необходимо их идентифицировать. Вы можете использовать метод duplicated() в Pandas для выявления повторяющихся строк. Этот метод возвращает логический ряд, указывающий, какие строки являются дубликатами.

duplicates = df.duplicated()
print(duplicates)

Это напечатает логический ряд, указывающий, какие строки являются дубликатами.

0    False
1    False
2    False
3     True
dtype: bool

Как использовать лямбда-функции в Python для фильтрации, сопоставления, сокращения и сортировки
Лямбда-функции, также известные как анонимные функции, — это мощный инструмент в Python для создания функций на -муха…soumenatta.medium.com

Шаг 4. Удалите повторяющиеся строки

Как только вы определили повторяющиеся строки, вы можете удалить их с помощью метода drop_duplicates(). Этот метод удаляет повторяющиеся строки на основе указанных столбцов.

df.drop_duplicates(subset=['name'], inplace=True)
print(df)

Это удалит повторяющиеся строки на основе столбца «имя» и распечатает полученный фрейм данных без дубликатов.

    name  age      city
0   John   25  New York
1  Peter   36    London
2  Sarah   29     Paris

Аргумент inplace=True гарантирует, что DataFrame будет изменен на месте, а не создан новый DataFrame.

Вот и все! Вы успешно удалили дубликаты в DataFrame с помощью Pandas. Вам предлагается прочитать следующий учебник о том, как обрабатывать отсутствующие данные в Python Pandas.

Полное руководство по обработке отсутствующих данных в Python Pandas
Обработка отсутствующих данных — важнейший аспект анализа и моделирования данных. Неполные наборы данных могут вызвать проблемы…soumenatta.medium.com

В этом руководстве мы рассмотрели процесс удаления дубликатов из DataFrame с помощью Python Pandas. Мы научились определять повторяющиеся строки с помощью метода duplicated() и удалять их на основе указанных столбцов с помощью метода drop_duplicates().

Удаляя дубликаты, мы можем гарантировать точность и надежность наших данных, что необходимо для успешного анализа данных и проектов машинного обучения. Обладая этими знаниями, вы сможете уверенно решать любые проблемы с дублированием данных, с которыми вы можете столкнуться, и продолжать совершенствовать и улучшать свои навыки анализа данных.

Присоединяйтесь к Medium по моей реферальной ссылке — доктор Соумен Атта, доктор философии.
Прочитайте каждую историю от тысяч авторов на Medium. Станьте участником прямо сейчас! Ваш членский взнос напрямую поддерживает…soumenatta.medium.com

Однострочники Python: использование Lambda для быстрых анонимных функций
В Python лямбда-функции — это краткий и мощный способ создания анонимных функций. Маленькие остроты…soumenatta.medium.com

Как удалить дубликаты в Python Pandas: пошаговое руководство

Шаг 1: импортируйте библиотеку Pandas

Шаг 2: Создайте DataFrame

Шаг 3. Определите повторяющиеся строки

Шаг 4. Удалите повторяющиеся строки

Вопросы по теме