Reading a list of S3 parquet files with query planning enabled is ~25x slower

Was struggling to understand why creating a dask dataframe from a large list of parquet files was taking ages. Eventually tried disabling query planning and saw normal timing again. These are all relatively small S3 files ~1MB. There is no metadata file or similar.

![Screenshot 2024-05-10 at 3 21 23 PM](https://github.com/dask/dask-expr/assets/149107659/b32f7ca5-7653-4e66-9839-480f0f2cd286)

**Environment**:
- dask==2024.5.0
- dask-expr==1.1.0
- python==3.10

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Reading a list of S3 parquet files with query planning enabled is ~25x slower #1061

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Uh oh!

Reading a list of S3 parquet files with query planning enabled is ~25x slower #1061

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions