apache · amaliujia · Dec 6, 2022 · Dec 7, 2022 · Dec 7, 2022 · grundprinzip
diff --git a/connector/connect/common/src/main/protobuf/spark/connect/expressions.proto b/connector/connect/common/src/main/protobuf/spark/connect/expressions.proto
@@ -43,7 +43,11 @@ message Expression {
     Expression expr = 1;
 
     // (Required) the data type that the expr to be casted to.
-    DataType cast_to_type = 2;
+    oneof cast_to_type {
+      DataType type = 2;
+      // If this is set, Server will use Catalyst parser to parse this string to DataType.
+      string type_str = 3;
+    }
   }
 
   message Literal {

diff --git a/connector/connect/server/src/main/scala/org/apache/spark/sql/connect/dsl/package.scala b/connector/connect/server/src/main/scala/org/apache/spark/sql/connect/dsl/package.scala
@@ -96,7 +96,17 @@ package object dsl {
             Expression.Cast
               .newBuilder()
               .setExpr(expr)
-              .setCastToType(dataType))
+              .setType(dataType))
+          .build()
+
+      def cast(dataType: String): Expression =
+        Expression
+          .newBuilder()
+          .setCast(
+            Expression.Cast
+              .newBuilder()
+              .setExpr(expr)
+              .setTypeStr(dataType))
           .build()
     }
 

diff --git a/...nect/server/src/main/scala/org/apache/spark/sql/connect/planner/SparkConnectPlanner.scala b/...nect/server/src/main/scala/org/apache/spark/sql/connect/planner/SparkConnectPlanner.scala
@@ -518,9 +518,16 @@ class SparkConnectPlanner(session: SparkSession) {
   }
 
   private def transformCast(cast: proto.Expression.Cast): Expression = {
-    Cast(
-      transformExpression(cast.getExpr),
-      DataTypeProtoConverter.toCatalystType(cast.getCastToType))
+    cast.getCastToTypeCase match {
+      case proto.Expression.Cast.CastToTypeCase.TYPE =>
+        Cast(
+          transformExpression(cast.getExpr),
+          DataTypeProtoConverter.toCatalystType(cast.getType))
+      case _ =>
+        Cast(
+          transformExpression(cast.getExpr),
+          session.sessionState.sqlParser.parseDataType(cast.getTypeStr))
+    }
   }
 
   private def transformSetOperation(u: proto.SetOperation): LogicalPlan = {

diff --git a/...t/server/src/test/scala/org/apache/spark/sql/connect/planner/SparkConnectProtoSuite.scala b/...t/server/src/test/scala/org/apache/spark/sql/connect/planner/SparkConnectProtoSuite.scala
@@ -550,6 +550,10 @@ class SparkConnectProtoSuite extends PlanTest with SparkConnectPlanTest {
       connectTestRelation.select("id".protoAttr.cast(
         proto.DataType.newBuilder().setString(proto.DataType.String.getDefaultInstance).build())),
       sparkTestRelation.select(col("id").cast(StringType)))
+
+    comparePlans(
+      connectTestRelation.select("id".protoAttr.cast("string")),
+      sparkTestRelation.select(col("id").cast("string")))
   }
 
   test("Test Hint") {

diff --git a/python/pyspark/sql/connect/client.py b/python/pyspark/sql/connect/client.py
@@ -26,30 +26,13 @@
 
 import pyspark.sql.connect.proto as pb2
 import pyspark.sql.connect.proto.base_pb2_grpc as grpc_lib
+import pyspark.sql.connect.types as types
 import pyspark.sql.types
 from pyspark import cloudpickle
 from pyspark.sql.types import (
     DataType,
-    ByteType,
-    ShortType,
-    IntegerType,
-    FloatType,
-    DateType,
-    TimestampType,
-    DayTimeIntervalType,
-    MapType,
-    StringType,
-    CharType,
-    VarcharType,
     StructType,
     StructField,
-    ArrayType,
-    DoubleType,
-    LongType,
-    DecimalType,
-    BinaryType,
-    BooleanType,
-    NullType,
 )
 
 
@@ -350,73 +333,7 @@ def _to_pandas(self, plan: pb2.Plan) -> "pandas.DataFrame":
         return self._execute_and_fetch(req)
 
     def _proto_schema_to_pyspark_schema(self, schema: pb2.DataType) -> DataType:
-        if schema.HasField("null"):
-            return NullType()
-        elif schema.HasField("boolean"):
-            return BooleanType()
-        elif schema.HasField("binary"):
-            return BinaryType()
-        elif schema.HasField("byte"):
-            return ByteType()
-        elif schema.HasField("short"):
-            return ShortType()
-        elif schema.HasField("integer"):
-            return IntegerType()
-        elif schema.HasField("long"):
-            return LongType()
-        elif schema.HasField("float"):
-            return FloatType()
-        elif schema.HasField("double"):
-            return DoubleType()
-        elif schema.HasField("decimal"):
-            p = schema.decimal.precision if schema.decimal.HasField("precision") else 10
-            s = schema.decimal.scale if schema.decimal.HasField("scale") else 0
-            return DecimalType(precision=p, scale=s)
-        elif schema.HasField("string"):
-            return StringType()
-        elif schema.HasField("char"):
-            return CharType(schema.char.length)
-        elif schema.HasField("var_char"):
-            return VarcharType(schema.var_char.length)
-        elif schema.HasField("date"):
-            return DateType()
-        elif schema.HasField("timestamp"):
-            return TimestampType()
-        elif schema.HasField("day_time_interval"):
-            start: Optional[int] = (
-                schema.day_time_interval.start_field
-                if schema.day_time_interval.HasField("start_field")
-                else None
-            )
-            end: Optional[int] = (
-                schema.day_time_interval.end_field
-                if schema.day_time_interval.HasField("end_field")
-                else None
-            )
-            return DayTimeIntervalType(startField=start, endField=end)
-        elif schema.HasField("array"):
-            return ArrayType(
-                self._proto_schema_to_pyspark_schema(schema.array.element_type),
-                schema.array.contains_null,
-            )
-        elif schema.HasField("struct"):
-            fields = [
-                StructField(
-                    f.name,
-                    self._proto_schema_to_pyspark_schema(f.data_type),
-                    f.nullable,
-                )
-                for f in schema.struct.fields
-            ]
-            return StructType(fields)
-        elif schema.HasField("map"):
-            return MapType(
-                self._proto_schema_to_pyspark_schema(schema.map.key_type),
-                self._proto_schema_to_pyspark_schema(schema.map.value_type),
-                schema.map.value_contains_null,
-            )
-        else:
-            raise Exception(f"Unsupported data type {schema}")
+        return types.proto_schema_to_pyspark_data_type(schema)
 
     def schema(self, plan: pb2.Plan) -> StructType:
         proto_schema = self._analyze(plan).schema

diff --git a/python/pyspark/sql/connect/column.py b/python/pyspark/sql/connect/column.py
@@ -21,9 +21,10 @@
 import decimal
 import datetime
 
-from pyspark.sql.types import TimestampType, DayTimeIntervalType, DateType
+from pyspark.sql.types import TimestampType, DayTimeIntervalType, DataType, DateType
 
 import pyspark.sql.connect.proto as proto
+from pyspark.sql.connect.types import pyspark_types_to_proto_types
 
 if TYPE_CHECKING:
     from pyspark.sql.connect._typing import ColumnOrName
@@ -355,6 +356,29 @@ def __repr__(self) -> str:
             return f"{self._name}({', '.join([str(arg) for arg in self._args])})"
 
 
+class CastExpression(Expression):
+    def __init__(
+        self,
+        col: "Column",
+        data_type: Union[DataType, str],
+    ) -> None:
+        super().__init__()
+        self._col = col
+        self._data_type = data_type
+
+    def to_plan(self, session: "SparkConnectClient") -> proto.Expression:
+        fun = proto.Expression()
+        fun.cast.expr.CopyFrom(self._col.to_plan(session))
+        if isinstance(self._data_type, str):
+            fun.cast.type_str = self._data_type
+        else:
+            fun.cast.type.CopyFrom(pyspark_types_to_proto_types(self._data_type))
+        return fun
+
+    def __repr__(self) -> str:
+        return f"({self._col} ({self._data_type}))"
+
+
 class Column:
     """
     A column in a DataFrame. Column can refer to different things based on the
@@ -733,6 +757,28 @@ def desc_nulls_last(self) -> "Column":
     def name(self) -> str:
         return self._expr.name()
 
+    def cast(self, dataType: Union[DataType, str]) -> "Column":
+        """
+        Casts the column into type ``dataType``.
+
+        .. versionadded:: 3.4.0
+
+        Parameters
+        ----------
+        dataType : :class:`DataType` or str
+            a DataType or Python string literal with a DDL-formatted string
+            to use when parsing the column to the same type.
+
+        Returns
+        -------
+        :class:`Column`
+            Column representing whether each element of Column is cast into new type.
+        """
+        if isinstance(dataType, (DataType, str)):
+            return Column(CastExpression(col=self, data_type=dataType))
+        else:
+            raise TypeError("unexpected type: %s" % type(dataType))
+
     # TODO(SPARK-41329): solve the circular import between functions.py and
     # this class if we want to reuse functions.lit
     def _lit(self, x: Any) -> "Column":