Работа с отсутствующими данными в Pandas read_csv

Я не нашел удовлетворительного решения проблемы отсутствия данных при импорте данных CSV в pandas DataFrame.

У меня есть наборы данных, в которых я заранее не знаю, что это за столбцы или типы данных. Я бы хотел, чтобы панды лучше понимали, как читать данные.

Я не нашел комбинации na_values=..., которая действительно помогает.

Рассмотрим следующие файлы csv:

no_holes.csv

letter,number
a,1
b,2
c,3
d,4

with_holes.csv

letter,number
a,1
,2
b, 
,4

empty_column.csv

letters,numbers
,1
,2
,3
,4

with_NA.csv

letter,number
a,1
b,NA
NA,3
d,4

Вот что происходит, когда я читаю их в DataFrame (код ниже):

**no holes**
  letter  number
0      a       1
1      b       2
2      c       3
3      d       4
letter    object
number     int64
dtype: object

**with holes**
  letter number
0      a      1
1    NaN      2
2      b       
3    NaN      4
letter    object
number    object
dtype: object

**empty_column**
   letters  numbers
0      NaN        1
1      NaN        2
2      NaN        3
3      NaN        4
letters    float64
numbers      int64
dtype: object

**with NA**
  letter  number
0      a     1.0
1      b     NaN
2    NaN     3.0
3      d     4.0
letter     object
number    float64
dtype: object

Есть ли способ сказать пандам, что пустые значения имеют тип object? Я пробовал na_values=[""].

demo_holes.py

import pandas as pd

with_holes = pd.read_csv("with_holes.csv")
no_holes = pd.read_csv("no_holes.csv")
empty_column = pd.read_csv("empty_column.csv")
with_NA = pd.read_csv("with_NA.csv")

print("\n**no holes**")
print(no_holes.head())
print(no_holes.dtypes)
print("\n**with holes**")
print(with_holes.head())
print(with_holes.dtypes)
print("\n**empty_column**")
print(empty_column.head())
print(empty_column.dtypes)
print("\n**with NA**")
print(with_NA.head())
print(with_NA.dtypes)

person abalter    schedule 01.10.2016    source источник
comment
попробуйте na_values=" " с одним пробелом.   -  person HYRY    schedule 02.10.2016


Ответы (1)


вы хотите использовать параметр skipinitialspace=True

настройка

no_holes = """letter,number
a,1
b,2
c,3
d,4"""

with_holes = """letter,number
a,1
,2
b, 
,4"""

empty_column = """letters,numbers
,1
,2
,3
,4"""

with_NA = """letter,number
a,1
b,NA
NA,3
d,4"""

from StringIO import StringIO
import pandas as pd

d1 = pd.read_csv(StringIO(no_holes), skipinitialspace=True)
d2 = pd.read_csv(StringIO(with_holes), skipinitialspace=True)
d3 = pd.read_csv(StringIO(empty_column), skipinitialspace=True)
d4 = pd.read_csv(StringIO(with_NA), skipinitialspace=True)

pd.concat([d1, d2, d3, d4], axis=1,
          keys=['no_holes', 'with_holes',
                'empty_column', 'with_NA'])

введите описание изображения здесь


если вы хотите, чтобы эти NaN были '', используйте fillna

d1 = pd.read_csv(StringIO(no_holes), skipinitialspace=True).fillna('')
d2 = pd.read_csv(StringIO(with_holes), skipinitialspace=True).fillna('')
d3 = pd.read_csv(StringIO(empty_column), skipinitialspace=True).fillna('')
d4 = pd.read_csv(StringIO(with_NA), skipinitialspace=True).fillna('')

pd.concat([d1, d2, d3, d4], axis=1,
          keys=['no_holes', 'with_holes',
                'empty_column', 'with_NA'])

введите описание изображения здесь

person piRSquared    schedule 02.10.2016