Supporting multi column support in count(distinct c1,c2..) in Spark SQL

ravipesala · ravipesala · commit 070e12a46109 · 2014-11-29T01:12:10.000+05:30
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/SqlParser.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/SqlParser.scala
@@ -277,7 +277,7 @@ class SqlParser extends AbstractSparkSQLParser {
     | SUM   ~> "(" ~> DISTINCT ~> expression <~ ")" ^^ { case exp => SumDistinct(exp) }
     | COUNT ~  "(" ~> "*"                    <~ ")" ^^ { case _ => Count(Literal(1)) }
     | COUNT ~  "(" ~> expression             <~ ")" ^^ { case exp => Count(exp) }
-    | COUNT ~> "(" ~> DISTINCT ~> expression <~ ")" ^^ { case exp => CountDistinct(exp :: Nil) }
+    | COUNT ~> "(" ~> DISTINCT ~> repsep(expression, ",") <~ ")" ^^ { case exps => CountDistinct(exps) }
     | APPROXIMATE ~ COUNT ~ "(" ~ DISTINCT ~> expression <~ ")" ^^
       { case exp => ApproxCountDistinct(exp) }
     | APPROXIMATE ~> "(" ~> floatLit ~ ")" ~ COUNT ~ "(" ~ DISTINCT ~ expression <~ ")" ^^
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/SQLQuerySuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/SQLQuerySuite.scala
@@ -992,4 +992,11 @@ class SQLQuerySuite extends QueryTest with BeforeAndAfterAll {
       "nulldata2 on nulldata1.value <=> nulldata2.value"),
         (1 to 2).map(i => Seq(i)))
   }
+
+  test("Supporting multi column support for count(distinct ..) function in Spark SQL") {
+    val data = TestData(1,"val_1") :: TestData(2,"val_2") :: Nil
+    val rdd = sparkContext.parallelize((0 to 1).map(i => data(i)))
+    rdd.registerTempTable("distinctData")
+    checkAnswer(sql("SELECT COUNT(DISTINCT key,value) FROM distinctData"), 2)
+  }
 }

Original file line number	Diff line number	Diff line change
`@@ -992,4 +992,11 @@ class SQLQuerySuite extends QueryTest with BeforeAndAfterAll {`
`992`	`992`	`"nulldata2 on nulldata1.value <=> nulldata2.value"),`
`993`	`993`	`(1 to 2).map(i => Seq(i)))`
`994`	`994`	`}`
	`995`	`+`
	`996`	`+ test("Supporting multi column support for count(distinct ..) function in Spark SQL") {`
	`997`	`+ val data = TestData(1,"val_1") :: TestData(2,"val_2") :: Nil`
	`998`	`+ val rdd = sparkContext.parallelize((0 to 1).map(i => data(i)))`
	`999`	`+ rdd.registerTempTable("distinctData")`
	`1000`	`+ checkAnswer(sql("SELECT COUNT(DISTINCT key,value) FROM distinctData"), 2)`
	`1001`	`+ }`
`995`	`1002`	`}`