dask read parquet file from spark
对于从 spark 写入的 parquet 文件(没有任何分区),它的目录如下所示:
1 2 3 4 5 | %ls foo.parquet part-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet part-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet part-00019-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet _SUCCESS |
尝试通过 pandas 读取时:
1 | pd.read_parquet('foo.parquet') |
一切正常。
但是,当使用 dask 时它会失败:
1 2 | dd.read_parquet('foo.parquet') [Errno 17] File exists: 'foo.parquet/_SUCCESS' |
我需要进行哪些更改才能使 dask 能够成功读取数据?
原来pandas使用的是
1 | dd.read_parquet('foo.parquet', engine='pyarrow') |
它就像预期的那样工作