[Accuracy diff No.57、69] Fix accuracy diff for sum API (#73012)

ooooo-create · web-flow · commit 9a0351ccf128 · 2025-05-30T16:02:42.000+08:00
diff --git a/paddle/phi/kernels/cpu/reduce_sum_kernel.cc b/paddle/phi/kernels/cpu/reduce_sum_kernel.cc
@@ -44,8 +44,41 @@ void SumRawKernel(const Context& dev_ctx,
                            out);
     return;
   }
-  phi::Reduce<CPUContext, T, phi::funcs::SumFunctor>(
-      dev_ctx, x, reduce_all, dims.GetData(), keep_dim, out_dtype, out);
+  if constexpr (std::is_same_v<T, phi::dtype::float16> ||
+                std::is_same_v<T, phi::dtype::bfloat16>) {
+    DenseTensor x_fp32 = phi::Cast<T, Context>(dev_ctx, x, DataType::FLOAT32);
+    DataType final_out_dtype = out_dtype;
+    if (final_out_dtype == DataType::UNDEFINED) {
+      final_out_dtype = x.dtype();
+    }
+    if (final_out_dtype == DataType::FLOAT32) {
+      phi::Reduce<CPUContext, float, phi::funcs::SumFunctor>(
+          dev_ctx,
+          x_fp32,
+          reduce_all,
+          dims.GetData(),
+          keep_dim,
+          phi::DataType::UNDEFINED,
+          out);
+    } else {
+      DenseTensor intermediate_result;
+      intermediate_result.set_meta(out->meta());
+      phi::Reduce<CPUContext, float, phi::funcs::SumFunctor>(
+          dev_ctx,
+          x_fp32,
+          reduce_all,
+          dims.GetData(),
+          keep_dim,
+          phi::DataType::UNDEFINED,
+          &intermediate_result);
+
+      phi::CastKernel<float, Context>(
+          dev_ctx, intermediate_result, final_out_dtype, out);
+    }
+  } else {
+    phi::Reduce<CPUContext, T, phi::funcs::SumFunctor>(
+        dev_ctx, x, reduce_all, dims.GetData(), keep_dim, out_dtype, out);
+  }
 }
 
 }  // namespace phi
diff --git a/test/legacy_test/test_reduce_op.py b/test/legacy_test/test_reduce_op.py
@@ -207,6 +207,24 @@ def test_check_grad(self):
             )
 
 
+def create_test_fp16_class_cpu(parent):
+    class TestSumOpFp16CPU(parent):
+        def init_dtype(self):
+            self.dtype = np.float16
+
+        def test_check_output(self):
+            self.check_output(check_pir=True, rtol=1e-2, atol=1e-2)
+
+        def test_check_grad(self):
+            self.check_grad(
+                ['X'],
+                'Out',
+                check_prim=True,
+                check_prim_pir=True,
+                check_pir=True,
+            )
+
+
 class TestSumOp3D0size(TestSumOp3Dim):
 
     def test_check_output(self):
@@ -261,6 +279,14 @@ def init_attrs(self):
 create_test_fp16_class(TestSumOp_withInt)
 create_test_fp16_class(TestSumOp3Dim)
 
+create_test_fp16_class_cpu(TestSumOp)
+create_test_fp16_class_cpu(TestSumOp_ZeroDim)
+create_test_fp16_class_cpu(TestSumOp5D)
+create_test_fp16_class_cpu(TestSumOp6D)
+create_test_fp16_class_cpu(TestSumOp8D)
+create_test_fp16_class_cpu(TestSumOp_withInt)
+create_test_fp16_class_cpu(TestSumOp3Dim)
+
 
 def create_test_bf16_class(parent):
     @unittest.skipIf(