databricks · falaki · Jul 17, 2015 · Jul 16, 2015 · Jul 16, 2015 · Jul 16, 2015
diff --git a/src/main/scala/com/databricks/spark/csv/CsvRelation.scala b/src/main/scala/com/databricks/spark/csv/CsvRelation.scala
@@ -108,7 +108,14 @@ case class CsvRelation protected[spark] (
         try {
           index = 0
           while (index < schemaFields.length) {
-            rowArray(index) = TypeCast.castTo(tokens(index), schemaFields(index).dataType)
+            rowArray(index) = if (schemaFields(index).nullable && tokens(index) == ""){
+              schemaFields(index).dataType match {
+                case StringType => ""
+                case _ => null
+              }
+            } else {
+              TypeCast.castTo(tokens(index), schemaFields(index).dataType)
+            }
             index = index + 1
           }
           Some(Row.fromSeq(rowArray))

diff --git a/src/test/resources/null-numbers.csv b/src/test/resources/null-numbers.csv
@@ -0,0 +1,4 @@
+name,age
+alice,35
+bob,
+,24
diff --git a/src/test/scala/com/databricks/spark/csv/CsvFastSuite.scala b/src/test/scala/com/databricks/spark/csv/CsvFastSuite.scala
@@ -32,6 +32,7 @@ class CsvFastSuite extends FunSuite {
   val carsFile8859 = "src/test/resources/cars_iso-8859-1.csv"
   val carsTsvFile = "src/test/resources/cars.tsv"
   val carsAltFile = "src/test/resources/cars-alternative.csv"
+  val nullNumbersFile = "src/test/resources/null-numbers.csv"
   val emptyFile = "src/test/resources/empty.csv"
   val escapeFile = "src/test/resources/escape.csv"
   val tempEmptyDir = "target/test/empty2/"
@@ -387,4 +388,19 @@ class CsvFastSuite extends FunSuite {
     assert(results.first().getInt(0) === 1997)
 
   }
+
+  test("DSL test nullable fields"){
+
+    val results = new CsvParser()
+      .withSchema(StructType(List(StructField("name", StringType, false), StructField("age", IntegerType, true))))
+      .withUseHeader(true)
+      .withParserLib("univocity")
+      .csvFile(TestSQLContext, nullNumbersFile)
+      .collect()
+
+    assert(results.head.toSeq == Seq("alice", 35))
+    assert(results(1).toSeq == Seq("bob", null))
+    assert(results(2).toSeq == Seq("", 24))
+
+  }
 }
diff --git a/src/test/scala/com/databricks/spark/csv/CsvSuite.scala b/src/test/scala/com/databricks/spark/csv/CsvSuite.scala
@@ -32,6 +32,7 @@ class CsvSuite extends FunSuite {
   val carsFile8859 = "src/test/resources/cars_iso-8859-1.csv"
   val carsTsvFile = "src/test/resources/cars.tsv"
   val carsAltFile = "src/test/resources/cars-alternative.csv"
+  val nullNumbersFile = "src/test/resources/null-numbers.csv"
   val emptyFile = "src/test/resources/empty.csv"
   val escapeFile = "src/test/resources/escape.csv"
   val tempEmptyDir = "target/test/empty/"
@@ -392,4 +393,18 @@ class CsvSuite extends FunSuite {
     assert(results.first().getInt(0) === 1997)
 
   }
+
+  test("DSL test nullable fields"){
+
+    val results = new CsvParser()
+      .withSchema(StructType(List(StructField("name", StringType, false), StructField("age", IntegerType, true))))
+      .withUseHeader(true)
+      .csvFile(TestSQLContext, nullNumbersFile)
+      .collect()
+
+    assert(results.head.toSeq == Seq("alice", 35))
+    assert(results(1).toSeq == Seq("bob", null))
+    assert(results(2).toSeq == Seq("", 24))
+
+  }
 }