[SPARK-25214][SS][FOLLOWUP] Fix the issue that Kafka v2 source may return duplicated records when failOnDataLoss=false

zsxwing · zsxwing · commit c17a8ff52377 · 2018-08-25T09:17:40.000-07:00
## What changes were proposed in this pull request? This is a follow up PR for #22207 to fix a potential flaky test. `processAllAvailable` doesn't work for continuous processing so we should not use it for a continuous query. ## How was this patch tested? Jenkins. Closes #22230 from zsxwing/SPARK-25214-2. Authored-by: Shixiong Zhu <zsxwing@gmail.com> Signed-off-by: Shixiong Zhu <zsxwing@gmail.com>
diff --git a/external/kafka-0-10-sql/src/test/scala/org/apache/spark/sql/kafka010/KafkaDontFailOnDataLossSuite.scala b/external/kafka-0-10-sql/src/test/scala/org/apache/spark/sql/kafka010/KafkaDontFailOnDataLossSuite.scala
@@ -80,7 +80,7 @@ trait KafkaMissingOffsetsTest extends SharedSQLContext {
   }
 }
 
-class KafkaDontFailOnDataLossSuite extends KafkaMissingOffsetsTest {
+class KafkaDontFailOnDataLossSuite extends StreamTest with KafkaMissingOffsetsTest {
 
   import testImplicits._
 
@@ -165,7 +165,11 @@ class KafkaDontFailOnDataLossSuite extends KafkaMissingOffsetsTest {
         .trigger(Trigger.Continuous(100))
         .start()
       try {
-        query.processAllAvailable()
+        // `processAllAvailable` doesn't work for continuous processing, so just wait until the last
+        // record appears in the table.
+        eventually(timeout(streamingTimeout)) {
+          assert(spark.table(table).as[String].collect().contains("49"))
+        }
       } finally {
         query.stop()
       }

Original file line number	Diff line number	Diff line change
`@@ -80,7 +80,7 @@ trait KafkaMissingOffsetsTest extends SharedSQLContext {`
`80`	`80`	`}`
`81`	`81`	`}`
`82`	`82`
`83`		`-class KafkaDontFailOnDataLossSuite extends KafkaMissingOffsetsTest {`
	`83`	`+class KafkaDontFailOnDataLossSuite extends StreamTest with KafkaMissingOffsetsTest {`
`84`	`84`
`85`	`85`	`import testImplicits._`
`86`	`86`
`@@ -165,7 +165,11 @@ class KafkaDontFailOnDataLossSuite extends KafkaMissingOffsetsTest {`
`165`	`165`	`.trigger(Trigger.Continuous(100))`
`166`	`166`	`.start()`
`167`	`167`	`try {`
`168`		`- query.processAllAvailable()`
	`168`	+ // `processAllAvailable` doesn't work for continuous processing, so just wait until the last
	`169`	`+ // record appears in the table.`
	`170`	`+ eventually(timeout(streamingTimeout)) {`
	`171`	`+ assert(spark.table(table).as[String].collect().contains("49"))`
	`172`	`+ }`
`169`	`173`	`} finally {`
`170`	`174`	`query.stop()`
`171`	`175`	`}`