add case class to wrap return values

yinxusen · yinxusen · commit 9a75ebdde74c · 2014-04-11T06:26:09.000+08:00
diff --git a/mllib/src/main/scala/org/apache/spark/mllib/rdd/VectorRDDFunctions.scala b/mllib/src/main/scala/org/apache/spark/mllib/rdd/VectorRDDFunctions.scala
@@ -21,6 +21,14 @@ import breeze.linalg.{Vector => BV}
 import org.apache.spark.mllib.linalg.{Vector, Vectors}
 import org.apache.spark.rdd.RDD
 
+case class VectorRDDStatisticalSummary(
+    mean: Vector,
+    variance: Vector,
+    count: Long,
+    max: Vector,
+    min: Vector,
+    nonZeroCnt: Vector) extends Serializable
+
 /**
  * Extra functions available on RDDs of [[org.apache.spark.mllib.linalg.Vector Vector]] through an
  * implicit conversion. Import `org.apache.spark.MLContext._` at the top of your program to use
@@ -40,7 +48,7 @@ class VectorRDDFunctions(self: RDD[Vector]) extends Serializable {
    * }}},
    * with the size of Vector as input parameter.
    */
-  def statistics(size: Int): (Vector, Vector, Double, Vector, Vector, Vector) = {
+  def summarizeStatistics(size: Int): VectorRDDStatisticalSummary = {
     val results = self.map(_.toBreeze).aggregate((
       BV.zeros[Double](size),
       BV.zeros[Double](size),
@@ -83,9 +91,10 @@ class VectorRDDFunctions(self: RDD[Vector]) extends Serializable {
       }
     )
 
-    (Vectors.fromBreeze(results._1),
+    VectorRDDStatisticalSummary(
+      Vectors.fromBreeze(results._1),
       Vectors.fromBreeze(results._2 :/ results._3),
-      results._3,
+      results._3.toLong,
       Vectors.fromBreeze(results._4),
       Vectors.fromBreeze(results._5),
       Vectors.fromBreeze(results._6))
diff --git a/mllib/src/test/scala/org/apache/spark/mllib/rdd/VectorRDDFunctionsSuite.scala b/mllib/src/test/scala/org/apache/spark/mllib/rdd/VectorRDDFunctionsSuite.scala
@@ -33,7 +33,7 @@ class VectorRDDFunctionsSuite extends FunSuite with LocalSparkContext {
 
   test("full-statistics") {
     val data = sc.parallelize(localData, 2)
-    val (mean, variance, cnt, nnz, max, min) = data.statistics(3)
+    val VectorRDDStatisticalSummary(mean, variance, cnt, nnz, max, min) = data.summarizeStatistics(3)
     assert(equivVector(mean, Vectors.dense(4.0, 5.0, 6.0)), "Column mean do not match.")
     assert(equivVector(variance, Vectors.dense(6.0, 6.0, 6.0)), "Column variance do not match.")
     assert(cnt === 3, "Column cnt do not match.")