入门客AI创业平台(我带你入门,你带我飞行)
博文笔记

如何用Python Pandas以及正则表达式提取地址中的省份

创建时间:2017-08-25 投稿人: 浏览次数:1677

如题。

假设数据在data数据框中,列名为"地址"。

#筛选含省份的字段

data[data["地址"].str.match(".+省"]["地址"].str.extract("(.+[省])",expand=True)

#去掉省份前特殊字符的样本

data1=data.iloc[:,0].str.replace(".+(号|镇|街|路|乡|道|村|巷|侧|d|()",‘’)

#去掉字符长度不满足要求的省份

data2=data[np.where(data1.str.len()>2,np.where(data1.str.len()<5,True,False),False)]

#去掉空格

data2=data2.map(str.strip)

#与省份的表做比对,去掉不符合的省份

#用join和原来的表做拼接

声明:该文观点仅代表作者本人,入门客AI创业平台信息发布平台仅提供信息存储空间服务,如有疑问请联系rumenke@qq.com。
  • 上一篇:没有了
  • 下一篇:没有了
未上传头像