apache · yucai · Mar 18, 2018 · Mar 18, 2018 · Mar 18, 2018 · Mar 19, 2018
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/internal/SQLConf.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/internal/SQLConf.scala
@@ -353,6 +353,12 @@ object SQLConf {
     .booleanConf
     .createWithDefault(true)
 
+  val PARQUET_FILTER_PUSHDOWN_DATE_ENABLED = buildConf("spark.sql.parquet.filterPushdown.date")
+    .doc("If true, enables Parquet filter push-down optimization for Date. " +
+      "This configuration only has an effect when 'spark.sql.parquet.filterPushdown' is enabled.")
+    .booleanConf
+    .createWithDefault(true)
+
   val PARQUET_WRITE_LEGACY_FORMAT = buildConf("spark.sql.parquet.writeLegacyFormat")
     .doc("Whether to be compatible with the legacy Parquet format adopted by Spark 1.4 and prior " +
       "versions, when converting Parquet schema to Spark SQL schema and vice versa.")
@@ -1319,6 +1325,8 @@ class SQLConf extends Serializable with Logging {
 
   def parquetFilterPushDown: Boolean = getConf(PARQUET_FILTER_PUSHDOWN_ENABLED)
 
+  def parquetFilterPushDownDate: Boolean = getConf(PARQUET_FILTER_PUSHDOWN_DATE_ENABLED)
+
   def orcFilterPushDown: Boolean = getConf(ORC_FILTER_PUSHDOWN_ENABLED)
 
   def verifyPartitionPath: Boolean = getConf(HIVE_VERIFY_PARTITION_PATH)

diff --git a/...re/src/main/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetFilters.scala b/...re/src/main/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetFilters.scala
@@ -21,6 +21,7 @@ import org.apache.parquet.filter2.predicate._
 import org.apache.parquet.filter2.predicate.FilterApi._
 import org.apache.parquet.io.api.Binary
 
+import org.apache.spark.sql.internal.SQLConf
 import org.apache.spark.sql.sources
 import org.apache.spark.sql.types._
 
@@ -50,6 +51,15 @@ private[parquet] object ParquetFilters {
       (n: String, v: Any) => FilterApi.eq(
         binaryColumn(n),
         Option(v).map(b => Binary.fromReusedByteArray(v.asInstanceOf[Array[Byte]])).orNull)
+    case DateType if SQLConf.get.parquetFilterPushDownDate =>
+      (n: String, v: Any) => {
+        FilterApi.eq(
+          intColumn(n),
+          Option(v).map { date =>
+            val days = date.asInstanceOf[java.sql.Date].getTime / (24 * 60 * 60 * 1000)
+            days.toInt.asInstanceOf[Integer]
+          }.orNull)
+      }
   }
 
   private val makeNotEq: PartialFunction[DataType, (String, Any) => FilterPredicate] = {
@@ -72,6 +82,15 @@ private[parquet] object ParquetFilters {
       (n: String, v: Any) => FilterApi.notEq(
         binaryColumn(n),
         Option(v).map(b => Binary.fromReusedByteArray(v.asInstanceOf[Array[Byte]])).orNull)
+    case DateType if SQLConf.get.parquetFilterPushDownDate =>
+      (n: String, v: Any) => {
+        FilterApi.notEq(
+          intColumn(n),
+          Option(v).map { date =>
+            val days = date.asInstanceOf[java.sql.Date].getTime / (24 * 60 * 60 * 1000)
+            days.toInt.asInstanceOf[Integer]
+          }.orNull)
+      }
   }
 
   private val makeLt: PartialFunction[DataType, (String, Any) => FilterPredicate] = {
@@ -91,6 +110,15 @@ private[parquet] object ParquetFilters {
     case BinaryType =>
       (n: String, v: Any) =>
         FilterApi.lt(binaryColumn(n), Binary.fromReusedByteArray(v.asInstanceOf[Array[Byte]]))
+    case DateType if SQLConf.get.parquetFilterPushDownDate =>
+      (n: String, v: Any) => {
+        FilterApi.lt(
+          intColumn(n),
+          Option(v).map { date =>
+            val days = date.asInstanceOf[java.sql.Date].getTime / (24 * 60 * 60 * 1000)
+            days.toInt.asInstanceOf[Integer]
+          }.orNull)
+      }
   }
 
   private val makeLtEq: PartialFunction[DataType, (String, Any) => FilterPredicate] = {
@@ -110,6 +138,15 @@ private[parquet] object ParquetFilters {
     case BinaryType =>
       (n: String, v: Any) =>
         FilterApi.ltEq(binaryColumn(n), Binary.fromReusedByteArray(v.asInstanceOf[Array[Byte]]))
+    case DateType if SQLConf.get.parquetFilterPushDownDate =>
+      (n: String, v: Any) => {
+        FilterApi.ltEq(
+          intColumn(n),
+          Option(v).map { date =>
+            val days = date.asInstanceOf[java.sql.Date].getTime / (24 * 60 * 60 * 1000)
+            days.toInt.asInstanceOf[Integer]
+          }.orNull)
+      }
   }
 
   private val makeGt: PartialFunction[DataType, (String, Any) => FilterPredicate] = {
@@ -129,6 +166,15 @@ private[parquet] object ParquetFilters {
     case BinaryType =>
       (n: String, v: Any) =>
         FilterApi.gt(binaryColumn(n), Binary.fromReusedByteArray(v.asInstanceOf[Array[Byte]]))
+    case DateType if SQLConf.get.parquetFilterPushDownDate =>
+      (n: String, v: Any) => {
+        FilterApi.gt(
+          intColumn(n),
+          Option(v).map { date =>
+            val days = date.asInstanceOf[java.sql.Date].getTime / (24 * 60 * 60 * 1000)
+            days.toInt.asInstanceOf[Integer]
+          }.orNull)
+      }
   }
 
   private val makeGtEq: PartialFunction[DataType, (String, Any) => FilterPredicate] = {
@@ -148,6 +194,15 @@ private[parquet] object ParquetFilters {
     case BinaryType =>
       (n: String, v: Any) =>
         FilterApi.gtEq(binaryColumn(n), Binary.fromReusedByteArray(v.asInstanceOf[Array[Byte]]))
+    case DateType if SQLConf.get.parquetFilterPushDownDate =>
+      (n: String, v: Any) => {
+        FilterApi.gtEq(
+          intColumn(n),
+          Option(v).map { date =>
+            val days = date.asInstanceOf[java.sql.Date].getTime / (24 * 60 * 60 * 1000)
+            days.toInt.asInstanceOf[Integer]
+          }.orNull)
+      }
   }
 
   /**

diff --git a/...rc/test/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetFilterSuite.scala b/...rc/test/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetFilterSuite.scala
@@ -18,6 +18,7 @@
 package org.apache.spark.sql.execution.datasources.parquet
 
 import java.nio.charset.StandardCharsets
+import java.sql.Date
 
 import org.apache.parquet.filter2.predicate.{FilterPredicate, Operators}
 import org.apache.parquet.filter2.predicate.FilterApi._
@@ -76,7 +77,9 @@ class ParquetFilterSuite extends QueryTest with ParquetTest with SharedSQLContex
       expected: Seq[Row]): Unit = {
     val output = predicate.collect { case a: Attribute => a }.distinct
 
-    withSQLConf(SQLConf.PARQUET_FILTER_PUSHDOWN_ENABLED.key -> "true") {
+    withSQLConf(
+      SQLConf.PARQUET_FILTER_PUSHDOWN_ENABLED.key -> "true",
+      SQLConf.PARQUET_FILTER_PUSHDOWN_DATE_ENABLED.key -> "true") {
       withSQLConf(SQLConf.PARQUET_VECTORIZED_READER_ENABLED.key -> "false") {
         val query = df
           .select(output.map(e => Column(e)): _*)
@@ -313,6 +316,36 @@ class ParquetFilterSuite extends QueryTest with ParquetTest with SharedSQLContex
     }
   }
 
+  test("filter pushdown - date") {
+    implicit class IntToDate(int: Int) {
+      def d: Date = new Date(Date.valueOf("2018-03-01").getTime + 24 * 60 * 60 * 1000 * (int - 1))
+    }
+
+    withParquetDataFrame((1 to 4).map(i => Tuple1(i.d))) { implicit df =>
+      checkFilterPredicate('_1.isNull, classOf[Eq[_]], Seq.empty[Row])
+      checkFilterPredicate('_1.isNotNull, classOf[NotEq[_]], (1 to 4).map(i => Row.apply(i.d)))
+
+      checkFilterPredicate('_1 === 1.d, classOf[Eq[_]], 1.d)
+      checkFilterPredicate('_1 <=> 1.d, classOf[Eq[_]], 1.d)
+      checkFilterPredicate('_1 =!= 1.d, classOf[NotEq[_]], (2 to 4).map(i => Row.apply(i.d)))
+
+      checkFilterPredicate('_1 < 2.d, classOf[Lt[_]], 1.d)
+      checkFilterPredicate('_1 > 3.d, classOf[Gt[_]], 4.d)
+      checkFilterPredicate('_1 <= 1.d, classOf[LtEq[_]], 1.d)
+      checkFilterPredicate('_1 >= 4.d, classOf[GtEq[_]], 4.d)
+
+      checkFilterPredicate(Literal(1.d) === '_1, classOf[Eq[_]], 1.d)
+      checkFilterPredicate(Literal(1.d) <=> '_1, classOf[Eq[_]], 1.d)
+      checkFilterPredicate(Literal(2.d) > '_1, classOf[Lt[_]], 1.d)
+      checkFilterPredicate(Literal(3.d) < '_1, classOf[Gt[_]], 4.d)
+      checkFilterPredicate(Literal(1.d) >= '_1, classOf[LtEq[_]], 1.d)
+      checkFilterPredicate(Literal(4.d) <= '_1, classOf[GtEq[_]], 4.d)
+
+      checkFilterPredicate(!('_1 < 4.d), classOf[GtEq[_]], 4.d)
+      checkFilterPredicate('_1 < 2.d || '_1 > 3.d, classOf[Operators.Or], Seq(Row(1.d), Row(4.d)))
+    }
+  }
+
   test("SPARK-6554: don't push down predicates which reference partition columns") {
     import testImplicits._