Fix DataFrame.mad to work properly (#1749)

itholic · web-flow · commit a553ad6b948a · 2020-09-04T09:44:11.000-07:00
`DataFrame.mad()` has not been working properly as shown below.

```python
&gt;&gt;&gt; pdf
   A  B  C
0  3  3  a
1  4  4  b
2  5  5  c
3  6  6  d
4  7  7  e

&gt;&gt;&gt; pdf.mad()
A    1.2
B    1.2
dtype: float64

&gt;&gt;&gt; ks.from_pandas(pdf).mad()
A    1.2
B    1.2
C    NaN  # It should've not been here
dtype: float64
```

This PR fixed it and also fixed related tests.

```python
&gt;&gt;&gt; pdf.mad()
A    1.2
B    1.2
dtype: float64

&gt;&gt;&gt; ks.from_pandas(pdf).mad()
A    1.2
B    1.2
dtype: float64
```
diff --git a/databricks/koalas/frame.py b/databricks/koalas/frame.py
@@ -9940,18 +9940,27 @@ def get_spark_column(kdf, label):
 
                 return scol
 
+            new_column_labels = []
+            for label in self._internal.column_labels:
+                # Filtering out only columns of numeric and boolean type column.
+                dtype = self._kser_for(label).spark.data_type
+                if isinstance(dtype, (NumericType, BooleanType)):
+                    new_column_labels.append(label)
+
             new_columns = [
                 F.avg(get_spark_column(self, label)).alias(name_like_string(label))
-                for label in self._internal.column_labels
+                for label in new_column_labels
             ]
+
             mean_data = self._internal.spark_frame.select(new_columns).first()
 
             new_columns = [
                 F.avg(
                     F.abs(get_spark_column(self, label) - mean_data[name_like_string(label)])
                 ).alias(name_like_string(label))
-                for label in self._internal.column_labels
+                for label in new_column_labels
             ]
+
             sdf = self._internal.spark_frame.select(
                 [F.lit(None).cast(StringType()).alias(SPARK_DEFAULT_INDEX_NAME)] + new_columns
             )
@@ -9960,7 +9969,7 @@ def get_spark_column(kdf, label):
                 internal = InternalFrame(
                     spark_frame=sdf,
                     index_map=OrderedDict([(SPARK_DEFAULT_INDEX_NAME, None)]),
-                    column_labels=self._internal.column_labels,
+                    column_labels=new_column_labels,
                     column_label_names=self._internal.column_label_names,
                 )
 
diff --git a/databricks/koalas/tests/test_dataframe.py b/databricks/koalas/tests/test_dataframe.py
@@ -3814,7 +3814,13 @@ def test_explain_hint(self):
             sys.stdout = prev
 
     def test_mad(self):
-        pdf = pd.DataFrame({"A": [1, 2, None, 4, np.nan], "B": [-0.1, 0.2, -0.3, np.nan, 0.5]})
+        pdf = pd.DataFrame(
+            {
+                "A": [1, 2, None, 4, np.nan],
+                "B": [-0.1, 0.2, -0.3, np.nan, 0.5],
+                "C": ["a", "b", "c", "d", "e"],
+            }
+        )
         kdf = ks.from_pandas(pdf)
 
         self.assert_eq(kdf.mad(), pdf.mad())
@@ -3824,7 +3830,7 @@ def test_mad(self):
             kdf.mad(axis=2)
 
         # MultiIndex columns
-        columns = pd.MultiIndex.from_tuples([("A", "X"), ("A", "Y")])
+        columns = pd.MultiIndex.from_tuples([("A", "X"), ("A", "Y"), ("A", "Z")])
         pdf.columns = columns
         kdf.columns = columns