apache · dongjoon-hyun · Sep 1, 2018 · Sep 3, 2018 · Sep 3, 2018 · Sep 4, 2018
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/orc/OrcFilters.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/orc/OrcFilters.scala
@@ -54,7 +54,7 @@ import org.apache.spark.sql.types._
  * builder methods mentioned above can only be found in test code, where all tested filters are
  * known to be convertible.
  */
-private[orc] object OrcFilters {
+private[sql] object OrcFilters {
 
   /**
    * Create ORC filter as a SearchArgument instance.
@@ -71,12 +71,24 @@ private[orc] object OrcFilters {
 
     for {
       // Combines all convertible filters using `And` to produce a single conjunction
-      conjunction <- convertibleFilters.reduceOption(org.apache.spark.sql.sources.And)
+      conjunction <- buildTree(convertibleFilters)
       // Then tries to build a single ORC `SearchArgument` for the conjunction predicate
       builder <- buildSearchArgument(dataTypeMap, conjunction, SearchArgumentFactory.newBuilder())
     } yield builder.build()
   }
 
+  def buildTree(filters: Seq[Filter]): Option[Filter] = {
+    import org.apache.spark.sql.sources.And
+    filters match {
+      case Seq() => None
+      case Seq(filter) => Some(filter)
+      case Seq(filter1, filter2) => Some(And(filter1, filter2))
+      case _ => // length > 2
+        val (left, right) = filters.splitAt(filters.length / 2)
+        Some(And(buildTree(left).get, buildTree(right).get))
+    }
+  }
+
   /**
    * Return true if this is a searchable type in ORC.
    * Both CharType and VarcharType are cleaned at AstBuilder.

diff --git a/sql/core/src/test/scala/org/apache/spark/sql/execution/datasources/orc/OrcFilterSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/execution/datasources/orc/OrcFilterSuite.scala
@@ -23,6 +23,9 @@ import java.sql.{Date, Timestamp}
 import scala.collection.JavaConverters._
 
 import org.apache.orc.storage.ql.io.sarg.{PredicateLeaf, SearchArgument}
+import org.scalatest.concurrent.TimeLimits
+import org.scalatest.time.SpanSugar._
+import scala.collection.JavaConverters._
 
 import org.apache.spark.sql.{Column, DataFrame}
 import org.apache.spark.sql.catalyst.dsl.expressions._
@@ -39,7 +42,7 @@ import org.apache.spark.sql.types._
  * - OrcFilterSuite uses 'org.apache.orc.storage.ql.io.sarg' package.
  * - HiveOrcFilterSuite uses 'org.apache.hadoop.hive.ql.io.sarg' package.
  */
-class OrcFilterSuite extends OrcTest with SharedSQLContext {
+class OrcFilterSuite extends OrcTest with SharedSQLContext with TimeLimits {
 
   private def checkFilterPredicate(
       df: DataFrame,
@@ -383,4 +386,13 @@ class OrcFilterSuite extends OrcTest with SharedSQLContext {
       )).get.toString
     }
   }
+
+  test("SPARK-25306 createFilter should not hang") {
+    import org.apache.spark.sql.sources._
+    val schema = new StructType(Array(StructField("a", IntegerType, nullable = true)))
+    val filters = (1 to 2000).map(LessThan("a", _)).toArray[Filter]
+    failAfter(2 seconds) {
+      OrcFilters.createFilter(schema, filters)
+    }
+  }
 }
diff --git a/sql/hive/src/main/scala/org/apache/spark/sql/hive/orc/OrcFilters.scala b/sql/hive/src/main/scala/org/apache/spark/sql/hive/orc/OrcFilters.scala
@@ -21,6 +21,7 @@ import org.apache.hadoop.hive.ql.io.sarg.{SearchArgument, SearchArgumentFactory}
 import org.apache.hadoop.hive.ql.io.sarg.SearchArgument.Builder
 
 import org.apache.spark.internal.Logging
+import org.apache.spark.sql.execution.datasources.orc.OrcFilters.buildTree
 import org.apache.spark.sql.sources._
 import org.apache.spark.sql.types._
 
@@ -67,7 +68,7 @@ private[orc] object OrcFilters extends Logging {
 
     for {
       // Combines all convertible filters using `And` to produce a single conjunction
-      conjunction <- convertibleFilters.reduceOption(And)
+      conjunction <- buildTree(convertibleFilters)
       // Then tries to build a single ORC `SearchArgument` for the conjunction predicate
       builder <- buildSearchArgument(dataTypeMap, conjunction, SearchArgumentFactory.newBuilder())
     } yield builder.build()

diff --git a/sql/hive/src/test/scala/org/apache/spark/sql/hive/orc/HiveOrcFilterSuite.scala b/sql/hive/src/test/scala/org/apache/spark/sql/hive/orc/HiveOrcFilterSuite.scala
@@ -23,6 +23,9 @@ import java.sql.{Date, Timestamp}
 import scala.collection.JavaConverters._
 
 import org.apache.hadoop.hive.ql.io.sarg.{PredicateLeaf, SearchArgument}
+import org.scalatest.concurrent.TimeLimits
+import org.scalatest.time.SpanSugar._
+import scala.collection.JavaConverters._
 
 import org.apache.spark.sql.{Column, DataFrame}
 import org.apache.spark.sql.catalyst.dsl.expressions._
@@ -36,7 +39,7 @@ import org.apache.spark.sql.types._
 /**
  * A test suite that tests Hive ORC filter API based filter pushdown optimization.
  */
-class HiveOrcFilterSuite extends OrcTest with TestHiveSingleton {
+class HiveOrcFilterSuite extends OrcTest with TestHiveSingleton with TimeLimits {
 
   override val orcImp: String = "hive"
 
@@ -384,4 +387,13 @@ class HiveOrcFilterSuite extends OrcTest with TestHiveSingleton {
       )).get.toString
     }
   }
+
+  test("SPARK-25306 createFilter should not hang") {
+    import org.apache.spark.sql.sources._
+    val schema = new StructType(Array(StructField("a", IntegerType, nullable = true)))
+    val filters = (1 to 2000).map(LessThan("a", _)).toArray[Filter]
+    failAfter(2 seconds) {
+      OrcFilters.createFilter(schema, filters)
+    }
+  }
 }