用 python + pandas 帮朋友处理数据

郭老师发小的老公，在一家 Apple 手机电池供应商工作。这天在朋友圈抱怨，用 Excel 处理几十万条数据，i7 处理器 5 分钟进度 1% 。我一下反应过来，这玩意用 Python 处理起来应该很快啊！
于是留言给他说，用excel跑最起码几个小时，让他把文件和处理要求发给我。
过了一会，邮箱收到。其实比较简单，文件 A 有40万条电池数据，文件 B 有30万条良品电池数据，要用 A 减掉 B，剩下来的就是不良电池的数据。数据处理的目标即得到汇总了不良电池数据的文件 C 。
这里有个小插曲：文件 A 有40多万行数据，我用 Mac 的 Number 打开，仅能显示 65535 条。看来 Numbers 处理稍大一点的数据就完全不行了。为了能顺利检视数据结果，又下载了 OpenOffice。
虽然之前没接触过 Python 的数据处理，但是学习过用 Python 的 openpyxl 处理 Excel 表格，所以我的第一反应就是用 xlrd 这种第三方库来处理 Excel 无法快速处理的文件。但是在学习 xlrd 的过程中，发现 xlrd 可以比较好的读取文件，却不能很好的写入文件，于是又下载了对 Excel 写入支持较好的 xlwt 。
折腾了半天，虽然实现读写，但是对表格的处理还是不满意。随便搜一搜，发现 pandas 也可以做这个工作。于是转向 pandas 。
pandas 支持读取/写入 XLSX 和 CSV 格式，由于我用的是 Mac ，因此将文件先统一转换成了 CSV 。
首先用 pandas 读取 CSV 文件并转化为 DataFrame：

df = pd.read_csv(workbook, low_memory = False)

然后将文件 B 复制到文件 A 需要去重的列下方（这里可以用代码操作，但是我没有查操作函数，因为感觉手动复制粘贴也很方便）。再用 drop_duplicates 函数去掉重复的项（这里需要注意，drop_duplicates 有好几个参数，可以选择留下重复项中的第一项、最后一项、或者全删掉，视需求而定）。

new_df = df.drop_duplicates(subset = '要去重的列名称，必须英文', keep = False)

最后用 to_csv 函数保存成新的 CSV 文件即可。脚本一共 5 行代码，运算处理时间只有几秒钟。
为了减少朋友以后的工作量，我把脚本写好发给他，并将『文件名』等可自定义的部分留空了。有兴趣请点这里看我写的脚本。
这个 5 行代码脚本我大约写了三个小时，主要时间都在学习。在帮了朋友的忙时，也实现了我 Python 学习史的好几个第一次：
第一次现学现卖，当天下午就用陌生的知识完成任务。
第一次帮朋友解决了实际问题。
第一次完成了一件数据处理工作。
非常开心，非常值得纪念！

Alien外星人

用 python + pandas 帮朋友处理数据

发表回复取消回复

发表回复 取消回复

发表回复取消回复