apache · alamb · Aug 1, 2024 · Jul 15, 2024 · alamb · Jul 29, 2024
diff --git a/datafusion-examples/examples/parquet_index.rs b/datafusion-examples/examples/parquet_index.rs
@@ -25,12 +25,10 @@ use arrow_schema::SchemaRef;
 use async_trait::async_trait;
 use datafusion::catalog::Session;
 use datafusion::datasource::listing::PartitionedFile;
-use datafusion::datasource::physical_plan::{
-    parquet::StatisticsConverter,
-    {FileScanConfig, ParquetExec},
-};
+use datafusion::datasource::physical_plan::{FileScanConfig, ParquetExec};
 use datafusion::datasource::TableProvider;
 use datafusion::execution::object_store::ObjectStoreUrl;
+use datafusion::parquet::arrow::arrow_reader::statistics::StatisticsConverter;
 use datafusion::parquet::arrow::{
     arrow_reader::ParquetRecordBatchReaderBuilder, ArrowWriter,
 };

diff --git a/datafusion/core/Cargo.toml b/datafusion/core/Cargo.toml
@@ -217,10 +217,6 @@ name = "sort"
 harness = false
 name = "topk_aggregate"
 
-[[bench]]
-harness = false
-name = "parquet_statistic"
-
 [[bench]]
 harness = false
 name = "map_query_sql"

diff --git a/datafusion/core/benches/parquet_statistic.rs b/datafusion/core/benches/parquet_statistic.rs
diff --git a/datafusion/core/src/datasource/file_format/parquet.rs b/datafusion/core/src/datasource/file_format/parquet.rs
@@ -75,12 +75,11 @@ use tokio::io::{AsyncWrite, AsyncWriteExt};
 use tokio::sync::mpsc::{self, Receiver, Sender};
 use tokio::task::JoinSet;
 
-use crate::datasource::physical_plan::parquet::{
-    ParquetExecBuilder, StatisticsConverter,
-};
+use crate::datasource::physical_plan::parquet::ParquetExecBuilder;
 use futures::{StreamExt, TryStreamExt};
 use object_store::path::Path;
 use object_store::{ObjectMeta, ObjectStore};
+use parquet::arrow::arrow_reader::statistics::StatisticsConverter;
 
 /// Initial writing buffer size. Note this is just a size hint for efficiency. It
 /// will grow beyond the set value if needed.

diff --git a/datafusion/core/src/datasource/physical_plan/parquet/mod.rs b/datafusion/core/src/datasource/physical_plan/parquet/mod.rs
@@ -52,7 +52,6 @@ mod page_filter;
 mod reader;
 mod row_filter;
 mod row_group_filter;
-mod statistics;
 mod writer;
 
 use crate::datasource::schema_adapter::{
@@ -62,7 +61,6 @@ pub use access_plan::{ParquetAccessPlan, RowGroupAccess};
 pub use metrics::ParquetFileMetrics;
 use opener::ParquetOpener;
 pub use reader::{DefaultParquetFileReaderFactory, ParquetFileReaderFactory};
-pub use statistics::StatisticsConverter;
 pub use writer::plan_to_parquet;
 
 /// Execution plan for reading one or more Parquet files.

diff --git a/datafusion/core/src/datasource/physical_plan/parquet/page_filter.rs b/datafusion/core/src/datasource/physical_plan/parquet/page_filter.rs
@@ -17,15 +17,16 @@
 
 //! Contains code to filter entire pages
 
+use super::metrics::ParquetFileMetrics;
 use crate::datasource::physical_plan::parquet::ParquetAccessPlan;
-use crate::datasource::physical_plan::parquet::StatisticsConverter;
 use crate::physical_optimizer::pruning::{PruningPredicate, PruningStatistics};
 use arrow::array::BooleanArray;
 use arrow::{array::ArrayRef, datatypes::SchemaRef};
 use arrow_schema::Schema;
 use datafusion_common::ScalarValue;
 use datafusion_physical_expr::{split_conjunction, PhysicalExpr};
 use log::{debug, trace};
+use parquet::arrow::arrow_reader::statistics::StatisticsConverter;
 use parquet::file::metadata::{ParquetColumnIndex, ParquetOffsetIndex};
 use parquet::format::PageLocation;
 use parquet::schema::types::SchemaDescriptor;
@@ -36,8 +37,6 @@ use parquet::{
 use std::collections::HashSet;
 use std::sync::Arc;
 
-use super::metrics::ParquetFileMetrics;
-
 /// Filters a [`ParquetAccessPlan`] based on the [Parquet PageIndex], if present
 ///
 /// It does so by evaluating statistics from the [`ParquetColumnIndex`] and
@@ -377,7 +376,7 @@ impl<'a> PagesPruningStatistics<'a> {
         converter: StatisticsConverter<'a>,
         parquet_metadata: &'a ParquetMetaData,
     ) -> Option<Self> {
-        let Some(parquet_column_index) = converter.parquet_index() else {
+        let Some(parquet_column_index) = converter.parquet_column_index() else {
             trace!(
                 "Column {:?} not in parquet file, skipping",
                 converter.arrow_field()
@@ -432,7 +431,6 @@ impl<'a> PagesPruningStatistics<'a> {
         Some(vec)
     }
 }
-
 impl<'a> PruningStatistics for PagesPruningStatistics<'a> {
     fn min_values(&self, _column: &datafusion_common::Column) -> Option<ArrayRef> {
         match self.converter.data_page_mins(