Fix DataFrame.koalas.transform_batch to support additional dtypes. #2132

ueshin · 2021-04-01T00:12:50Z

Fix DataFrame.koalas.transform_batch to support additional dtypes.

After this, additional dtypes can be specified in the return type annotation of the UDFs for DataFrame.koalas.transform_batch.

>>> kdf = ks.DataFrame(
...     {"a": ["a", "b", "c", "a", "b", "c"], "b": ["b", "a", "c", "c", "b", "a"]}
... )
>>> dtype = pd.CategoricalDtype(categories=["a", "b", "c", "d"])
>>> def to_category(pdf) -> ks.DataFrame["a":dtype, "b":dtype]:
...   return pdf.astype(dtype)
...
>>> applied = kdf.koalas.transform_batch(to_category)
>>> applied
   a  b
0  a  b
1  b  a
2  c  c
3  a  c
4  b  b
5  c  a
>>> applied.dtypes
a    category
b    category
dtype: object

xinrong-meng · 2021-04-01T01:11:47Z

databricks/koalas/accessors.py

        def pandas_extract(pdf, name):
            # This is for output to work around a DataFrame for struct
            # from Spark 3.0.  See SPARK-23836
            return pdf[name]

-        def pandas_series_func(f):
+        def pandas_series_func(f, by_pass):


Why is it called by_pass? Would you please help me understand?

It uses some new Spark APIs to "by pass" a workaround:

You can see:

koalas/databricks/koalas/accessors.py

Lines 646 to 666 in 80a5893

if should_by_pass:

pudf = pandas_udf(

output_func, returnType=return_schema, functionType=PandasUDFType.SCALAR

)

temp_struct_column = verify_temp_column_name(

self_applied._internal.spark_frame, "__temp_struct__"

)

applied = pudf(F.struct(*columns)).alias(temp_struct_column)

sdf = self_applied._internal.spark_frame.select(applied)

sdf = sdf.selectExpr("%s.*" % temp_struct_column)

else:

applied = []

for field in return_schema.fields:

applied.append(

pandas_udf(

pandas_frame_func(output_func, field.name),

returnType=field.dataType,

functionType=PandasUDFType.SCALAR,

)(*columns).alias(field.name)

)

sdf = self_applied._internal.spark_frame.select(*applied)

koalas/databricks/koalas/accessors.py

Lines 715 to 735 in 80a5893

if should_by_pass:

pudf = pandas_udf(

output_func, returnType=return_schema, functionType=PandasUDFType.SCALAR

)

temp_struct_column = verify_temp_column_name(

self_applied._internal.spark_frame, "__temp_struct__"

)

applied = pudf(F.struct(*columns)).alias(temp_struct_column)

sdf = self_applied._internal.spark_frame.select(applied)

sdf = sdf.selectExpr("%s.*" % temp_struct_column)

else:

applied = []

for field in return_schema.fields:

applied.append(

pandas_udf(

pandas_frame_func(output_func, field.name),

returnType=field.dataType,

functionType=PandasUDFType.SCALAR,

)(*columns).alias(field.name)

)

sdf = self_applied._internal.spark_frame.select(*applied)

xinrong-meng · 2021-04-01T01:12:12Z

Looks great, thank you!

ueshin · 2021-04-01T02:37:36Z

Thanks! merging.

Fix DataFrame.koalas.transform_batch to support additional dtypes.

43b6182

ueshin requested a review from xinrong-meng April 1, 2021 00:12

Merge branch 'master' into dataframe_transform_batch

80a5893

xinrong-meng reviewed Apr 1, 2021

View reviewed changes

xinrong-meng approved these changes Apr 1, 2021

View reviewed changes

ueshin merged commit d7f6e88 into databricks:master Apr 1, 2021

ueshin deleted the dataframe_transform_batch branch April 1, 2021 02:37

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix DataFrame.koalas.transform_batch to support additional dtypes. #2132

Fix DataFrame.koalas.transform_batch to support additional dtypes. #2132

ueshin commented Apr 1, 2021

xinrong-meng Apr 1, 2021

ueshin Apr 1, 2021

xinrong-meng commented Apr 1, 2021

ueshin commented Apr 1, 2021

	if should_by_pass:
	pudf = pandas_udf(
	output_func, returnType=return_schema, functionType=PandasUDFType.SCALAR
	)
	temp_struct_column = verify_temp_column_name(
	self_applied._internal.spark_frame, "__temp_struct__"
	)
	applied = pudf(F.struct(*columns)).alias(temp_struct_column)
	sdf = self_applied._internal.spark_frame.select(applied)
	sdf = sdf.selectExpr("%s.*" % temp_struct_column)
	else:
	applied = []
	for field in return_schema.fields:
	applied.append(
	pandas_udf(
	pandas_frame_func(output_func, field.name),
	returnType=field.dataType,
	functionType=PandasUDFType.SCALAR,
	)(*columns).alias(field.name)
	)
	sdf = self_applied._internal.spark_frame.select(*applied)

Fix DataFrame.koalas.transform_batch to support additional dtypes. #2132

Fix DataFrame.koalas.transform_batch to support additional dtypes. #2132

Conversation

ueshin commented Apr 1, 2021

xinrong-meng Apr 1, 2021

Choose a reason for hiding this comment

ueshin Apr 1, 2021

Choose a reason for hiding this comment

xinrong-meng commented Apr 1, 2021

ueshin commented Apr 1, 2021