【python】read_csv+编码问题

创建时间：2016-04-20 投稿人：浏览次数：8846

想要读取一个excel文件，并且获取某一个分类下的所有的数据

1 pandas官方api有read_excel方法,然而我试了总是提示找不到这个方法，so 还是采用了read_csv

2 将excel转为csv文件，pd.read_csv(path)可以读取，但是乱码，pd.read_csv(path,encoding="utf-8")会出现

只有变更csv文件本身的编码了，用notepad打开，有个编码选择，前方高能，注意：

我这里一开始选择了utf8编码，导致后来出现了获取数据不准确的问题，在转码的时候，有些字符错误导致，分隔符并没有解析出来，

csv本来就是逗号分隔符文件，所以读取的话就会出现数据移动的问题

我在csv文件中并没有看出这个问题，groupby的时候发现出现了不应该出现的数据统计，所以定位到出现错误的index

data_r = data["***"] #返回series

data_err = data_r[data_r == "******"] 返回index和值

用notepad打开发现错误所在序列，确实现实了问题

这里高新技术和国税本来应该是两列，但是因为转码错误，导致“，”解析不出来，整个数据左移了一位

最后尝试了下 csv文件转码的时候在notepad里选择 utf8无bom编码格式

最后成功

__author__ = "user"
# -*- coding:utf-8 -*-
import numpy as np
import pandas as pd
import matplotlib as plt
from pandas import Series,DataFrame

data = pd.read_csv("E:/yangnan/work/2013_1.csv")
print  data.columns
data_scale = data["企业规模（国家统计局标准）"]
print data_scale.size
print data_scale.value_counts()

声明：该文观点仅代表作者本人，入门客AI创业平台信息发布平台仅提供信息存储空间服务，如有疑问请联系rumenke@qq.com。