Pandas(杂):read_csv报错" EOF inside string starting"

在读取csv文件时(尤其是对于大文件),若一些行有bug,比如文本中出行有多余的分隔号、某一行有错误字符导致READ CSV报错,记录一下解决方案。

最常规的读取大文件并跳过错行(For Pandas < 1.3.0 try error_bad_lines=False):

1
2
3
df = pd.read_csv(file, encoding="utf-8", header=0, 
on_bad_lines='skip',
low_memory=False)

如果还是报错,使用Python解析引擎,但是此时速度会下降,low_memory则默认为C引擎:

1
2
3
pd.read_csv(file, encoding="utf-8", header=0, 
on_bad_lines='skip',
engine='python')

参考: