apache · mgaido91 · Dec 11, 2018 · Dec 11, 2018 · Dec 17, 2018 · Dec 17, 2018
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala b/sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala
@@ -40,7 +40,7 @@ import org.apache.spark.sql.catalyst.encoders._
 import org.apache.spark.sql.catalyst.expressions._
 import org.apache.spark.sql.catalyst.expressions.codegen.GenerateSafeProjection
 import org.apache.spark.sql.catalyst.json.{JacksonGenerator, JSONOptions}
-import org.apache.spark.sql.catalyst.optimizer.CombineUnions
+import org.apache.spark.sql.catalyst.optimizer.{CollapseProject, CombineUnions}
 import org.apache.spark.sql.catalyst.parser.{ParseException, ParserUtils}
 import org.apache.spark.sql.catalyst.plans._
 import org.apache.spark.sql.catalyst.plans.logical._
@@ -2146,7 +2146,7 @@ class Dataset[T] private[sql](
    * Returns a new Dataset by adding columns or replacing the existing columns that has
    * the same names.
    */
-  private[spark] def withColumns(colNames: Seq[String], cols: Seq[Column]): DataFrame = {
+  private[spark] def withColumns(colNames: Seq[String], cols: Seq[Column]): DataFrame = withPlan {
     require(colNames.size == cols.size,
       s"The size of column names: ${colNames.size} isn't equal to " +
         s"the size of columns: ${cols.size}")
@@ -2164,16 +2164,16 @@ class Dataset[T] private[sql](
       columnMap.find { case (colName, _) =>
         resolver(field.name, colName)
       } match {
-        case Some((colName: String, col: Column)) => col.as(colName)
-        case _ => Column(field)
+        case Some((colName: String, col: Column)) => col.as(colName).named
+        case _ => field
       }
     }
 
-    val newColumns = columnMap.filter { case (colName, col) =>
+    val newColumns = columnMap.filter { case (colName, _) =>
       !output.exists(f => resolver(f.name, colName))
-    }.map { case (colName, col) => col.as(colName) }
+    }.map { case (colName, col) => col.as(colName).named }
 
-    select(replacedAndExistingColumns ++ newColumns : _*)
+    CollapseProject(Project(replacedAndExistingColumns ++ newColumns, logicalPlan))
   }
 
   /**

diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DatasetSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DatasetSuite.scala
@@ -24,6 +24,7 @@ import org.apache.spark.SparkException
 import org.apache.spark.sql.catalyst.ScroogeLikeExample
 import org.apache.spark.sql.catalyst.encoders.{OuterScopes, RowEncoder}
 import org.apache.spark.sql.catalyst.plans.{LeftAnti, LeftSemi}
+import org.apache.spark.sql.catalyst.plans.logical.Project
 import org.apache.spark.sql.catalyst.util.sideBySide
 import org.apache.spark.sql.execution.{LogicalRDD, RDDScanExec}
 import org.apache.spark.sql.execution.exchange.{BroadcastExchangeExec, ShuffleExchangeExec}
@@ -1656,6 +1657,18 @@ class DatasetSuite extends QueryTest with SharedSQLContext {
     checkAnswer(df.groupBy(col("a")).agg(first(col("b"))),
       Seq(Row("0", BigDecimal.valueOf(0.1111)), Row("1", BigDecimal.valueOf(1.1111))))
   }
+
+  test("SPARK-26224: withColumn produces too many Projects") {
+    val N = 10
+    val resDF = (1 to N).foldLeft(Seq(1).toDF("a")) { case (df, i) =>
+      df.withColumn(s"col$i", lit(0))
+    }
+    assert(resDF.queryExecution.logical.collect {
+      case _: Project => true
+    }.size == 1)
+    val result = Row(1 :: List.fill(N)(0): _*)
+    checkAnswer(resDF, result)
+  }
 }
 
 case class TestDataUnion(x: Int, y: Int, z: Int)