update

PaddlePaddle · Feb 7, 2022 · 3786705 · 3786705
1 parent 298e3cb
commit 3786705
Show file tree

Hide file tree

Showing 14 changed files with 90 additions and 81 deletions.
diff --git a/paddle/fluid/operators/conv_cudnn_helper.h b/paddle/fluid/operators/conv_cudnn_helper.h
@@ -26,8 +26,6 @@ limitations under the License. */
 #include "paddle/fluid/operators/eigen/eigen_function.h"
 #include "paddle/fluid/platform/cuda_graph_with_memory_pool.h"
 #include "paddle/fluid/platform/device/gpu/gpu_dnn.h"
-#include "paddle/fluid/platform/device_context.h"
-#include "paddle/pten/backends/gpu/gpu_context.h"
 
 namespace paddle {
 namespace operators {
@@ -288,9 +286,8 @@ struct SearchAlgorithm<cudnnConvolutionFwdAlgoPerf_t> {
     } else {
       auto& dev_ctx =
           ctx.template device_context<platform::CUDADeviceContext>();
-      auto* workspace_handle = dev_ctx.cudnn_workspace_handle();
+      auto workspace_handle = dev_ctx.cudnn_workspace_handle();
 
-      // auto& temp = ctx.cuda_device_context();
       AlgorithmsCache<algo_t>& algo_cache =
           *(framework::ConvSearchCache::Instance().GetForward());
 
@@ -317,8 +314,7 @@ struct SearchAlgorithm<cudnnConvolutionFwdAlgoPerf_t> {
                       perf_stat.data(), cudnn_workspace_ptr,
                       workspace_size_limit));
             };
-            workspace_handle->RunFuncSync(cudnn_find_func,
-                                          workspace_size_limit);
+            workspace_handle.RunFuncSync(cudnn_find_func, workspace_size_limit);
 
             VLOG(3) << "FwdAlgo Perf result: (algo: stat, time, memory)";
             for (int i = 0; i < returned_algo_count; ++i) {
@@ -419,7 +415,7 @@ struct SearchAlgorithm<cudnnConvolutionBwdDataAlgoPerf_t> {
     } else {
       auto& dev_ctx =
           ctx.template device_context<platform::CUDADeviceContext>();
-      auto* workspace_handle = dev_ctx.cudnn_workspace_handle();
+      auto workspace_handle = dev_ctx.cudnn_workspace_handle();
 
       AlgorithmsCache<algo_t>& algo_cache =
           *(framework::ConvSearchCache::Instance().GetBackwardData());
@@ -449,8 +445,7 @@ struct SearchAlgorithm<cudnnConvolutionBwdDataAlgoPerf_t> {
                           perf_stat.data(), cudnn_workspace_ptr,
                           workspace_size_limit));
             };
-            workspace_handle->RunFuncSync(cudnn_find_func,
-                                          workspace_size_limit);
+            workspace_handle.RunFuncSync(cudnn_find_func, workspace_size_limit);
 
             VLOG(3) << "BwdDataAlgo Perf result: (algo: stat, time, memory)";
             for (int i = 0; i < returned_algo_count; ++i) {
@@ -541,7 +536,7 @@ struct SearchAlgorithm<cudnnConvolutionBwdFilterAlgoPerf_t> {
     } else {
       auto& dev_ctx =
           ctx.template device_context<platform::CUDADeviceContext>();
-      auto* workspace_handle = dev_ctx.cudnn_workspace_handle();
+      auto workspace_handle = dev_ctx.cudnn_workspace_handle();
       AlgorithmsCache<algo_t>& algo_cache =
           *(framework::ConvSearchCache::Instance().GetBackwardFilter());
 
@@ -569,8 +564,8 @@ struct SearchAlgorithm<cudnnConvolutionBwdFilterAlgoPerf_t> {
                             perf_stat.data(), cudnn_workspace_ptr,
                             workspace_size_limit));
               };
-              workspace_handle->RunFuncSync(cudnn_find_func,
-                                            workspace_size_limit);
+              workspace_handle.RunFuncSync(cudnn_find_func,
+                                           workspace_size_limit);
 
               VLOG(3)
                   << "BwdFilterAlgo Perf result: (algo: stat, time, memory)";

diff --git a/paddle/fluid/operators/conv_cudnn_op.cu b/paddle/fluid/operators/conv_cudnn_op.cu
@@ -238,7 +238,7 @@ class CUDNNConvOpKernel : public framework::OpKernel<T> {
                   dtype};
 
     auto handle = dev_ctx.cudnn_handle();
-    auto* workspace_handle = dev_ctx.cudnn_workspace_handle();
+    auto workspace_handle = dev_ctx.cudnn_workspace_handle();
     DataLayout layout = compute_format == DataLayout::kNHWC ? DataLayout::kNHWC
                                                             : DataLayout::kNCHW;
     if (transformed_input.dims().size() == 5) {
@@ -326,7 +326,7 @@ class CUDNNConvOpKernel : public framework::OpKernel<T> {
 // VLOG(4) << "Conv: use_addto = " << ctx.Attr<bool>("use_addto");
 
 #ifdef PADDLE_WITH_HIP
-    workspace_handle->RunFunc(
+    workspace_handle.RunFunc(
         [&](void* workspace_ptr) {
           PADDLE_ENFORCE_GPU_SUCCESS(
               platform::dynload::miopenConvolutionForward(
@@ -338,7 +338,7 @@ class CUDNNConvOpKernel : public framework::OpKernel<T> {
         workspace_size);
 #else
     for (int i = 0; i < groups; i++) {
-      workspace_handle->RunFunc(
+      workspace_handle.RunFunc(
           [&](void* workspace_ptr) {
             PADDLE_ENFORCE_GPU_SUCCESS(
                 platform::dynload::cudnnConvolutionForward(
@@ -607,7 +607,7 @@ class CUDNNConvGradOpKernel : public framework::OpKernel<T> {
                                                    : DataLayout::kNCDHW;
     }
     auto layout_tensor = GetCudnnTensorFormat(layout);
-    auto* workspace_handle = dev_ctx.cudnn_workspace_handle();
+    auto workspace_handle = dev_ctx.cudnn_workspace_handle();
 
     int i_n, i_c, i_d, i_h, i_w;
     int o_n, o_c, o_d, o_h, o_w;
@@ -719,7 +719,7 @@ class CUDNNConvGradOpKernel : public framework::OpKernel<T> {
         Tensor temp_tensor(transformed_input_grad.type());
         temp_tensor.Resize(transformed_input_grad.dims());
         T* temp_tensor_data = temp_tensor.mutable_data<T>(ctx.GetPlace());
-        workspace_handle->RunFunc(
+        workspace_handle.RunFunc(
             [&](void* cudnn_workspace_ptr) {
               PADDLE_ENFORCE_GPU_SUCCESS(
                   platform::dynload::miopenConvolutionBackwardData(
@@ -735,7 +735,7 @@ class CUDNNConvGradOpKernel : public framework::OpKernel<T> {
             temp_tensor_data, &beta, args1.idesc.desc(),
             transformed_input_grad_data));
       } else {
-        workspace_handle->RunFunc(
+        workspace_handle.RunFunc(
             [&](void* cudnn_workspace_ptr) {
               PADDLE_ENFORCE_GPU_SUCCESS(
                   platform::dynload::miopenConvolutionBackwardData(
@@ -750,7 +750,7 @@ class CUDNNConvGradOpKernel : public framework::OpKernel<T> {
 
 #else
       for (int i = 0; i < groups; i++) {
-        workspace_handle->RunFunc(
+        workspace_handle.RunFunc(
             [&](void* cudnn_workspace_ptr) {
               PADDLE_ENFORCE_GPU_SUCCESS(
                   platform::dynload::cudnnConvolutionBackwardData(
@@ -797,7 +797,7 @@ class CUDNNConvGradOpKernel : public framework::OpKernel<T> {
     if (filter_grad) {
 // Because beta is zero, it is unnecessary to reset filter_grad.
 #ifdef PADDLE_WITH_HIP
-      workspace_handle->RunFunc(
+      workspace_handle.RunFunc(
           [&](void* cudnn_workspace_ptr) {
             PADDLE_ENFORCE_GPU_SUCCESS(
                 platform::dynload::miopenConvolutionBackwardWeights(
@@ -809,7 +809,7 @@ class CUDNNConvGradOpKernel : public framework::OpKernel<T> {
           workspace_size);
 #else
       for (int i = 0; i < groups; i++) {
-        workspace_handle->RunFunc(
+        workspace_handle.RunFunc(
             [&](void* cudnn_workspace_ptr) {
               PADDLE_ENFORCE_GPU_SUCCESS(
                   platform::dynload::cudnnConvolutionBackwardFilter(
@@ -1224,13 +1224,13 @@ class CUDNNConvDoubleGradOpKernel : public framework::OpKernel<T> {
     // ScalingParamType<T> beta = ctx.Attr<bool>("use_addto") ? 1.0f :
     // 0.0f;
     // VLOG(4) << "Conv_grad_grad: use_addto = " << ctx.Attr<bool>("use_addto");
-    auto* wkspace_handle = dev_ctx.cudnn_workspace_handle();
+    auto wkspace_handle = dev_ctx.cudnn_workspace_handle();
 
     if (ddO) {
       if (ddX) {
         ddx = transformed_ddX.data<T>();
 #ifdef PADDLE_WITH_HIP
-        wkspace_handle->RunFunc(
+        wkspace_handle.RunFunc(
             [&](void* workspace_ptr) {
               PADDLE_ENFORCE_GPU_SUCCESS(
                   platform::dynload::miopenConvolutionForward(
@@ -1242,7 +1242,7 @@ class CUDNNConvDoubleGradOpKernel : public framework::OpKernel<T> {
             workspace_size);
 #else
         for (int i = 0; i < groups; i++) {
-          wkspace_handle->RunFunc(
+          wkspace_handle.RunFunc(
               [&](void* workspace_ptr) {
                 PADDLE_ENFORCE_GPU_SUCCESS(
                     platform::dynload::cudnnConvolutionForward(
@@ -1260,7 +1260,7 @@ class CUDNNConvDoubleGradOpKernel : public framework::OpKernel<T> {
       if (ddW) {
 #ifdef PADDLE_WITH_HIP
         // MIOPEN ONLY support beta to be 0.0f
-        wkspace_handle->RunFunc(
+        wkspace_handle.RunFunc(
             [&](void* workspace_ptr) {
               PADDLE_ENFORCE_GPU_SUCCESS(
                   platform::dynload::miopenConvolutionForward(
@@ -1272,7 +1272,7 @@ class CUDNNConvDoubleGradOpKernel : public framework::OpKernel<T> {
             workspace_size);
 #else
         for (int i = 0; i < groups; i++) {
-          wkspace_handle->RunFunc(
+          wkspace_handle.RunFunc(
               [&](void* workspace_ptr) {
                 PADDLE_ENFORCE_GPU_SUCCESS(
                     platform::dynload::cudnnConvolutionForward(
@@ -1296,7 +1296,7 @@ class CUDNNConvDoubleGradOpKernel : public framework::OpKernel<T> {
     if (dW && ddX) {
       ddx = transformed_ddX.data<T>();
 #ifdef PADDLE_WITH_HIP
-      wkspace_handle->RunFunc(
+      wkspace_handle.RunFunc(
           [&](void* workspace_ptr) {
             PADDLE_ENFORCE_GPU_SUCCESS(
                 platform::dynload::miopenConvolutionBackwardWeights(
@@ -1308,7 +1308,7 @@ class CUDNNConvDoubleGradOpKernel : public framework::OpKernel<T> {
           workspace_size);
 #else
       for (int i = 0; i < groups; i++) {
-        wkspace_handle->RunFunc(
+        wkspace_handle.RunFunc(
             [&](void* workspace_ptr) {
               PADDLE_ENFORCE_GPU_SUCCESS(
                   platform::dynload::cudnnConvolutionBackwardFilter(
@@ -1327,7 +1327,7 @@ class CUDNNConvDoubleGradOpKernel : public framework::OpKernel<T> {
     if (dX && ddW) {
       ddw = ddW->data<T>();
 #ifdef PADDLE_WITH_HIP
-      wkspace_handle->RunFunc(
+      wkspace_handle.RunFunc(
           [&](void* workspace_ptr) {
             PADDLE_ENFORCE_GPU_SUCCESS(
                 platform::dynload::miopenConvolutionBackwardData(
@@ -1339,7 +1339,7 @@ class CUDNNConvDoubleGradOpKernel : public framework::OpKernel<T> {
           workspace_size);
 #else
       for (int i = 0; i < groups; i++) {
-        wkspace_handle->RunFunc(
+        wkspace_handle.RunFunc(
             [&](void* workspace_ptr) {
               PADDLE_ENFORCE_GPU_SUCCESS(
                   platform::dynload::cudnnConvolutionBackwardData(

diff --git a/paddle/fluid/operators/conv_miopen_helper.h b/paddle/fluid/operators/conv_miopen_helper.h
@@ -132,7 +132,7 @@ struct SearchAlgorithm<miopenConvFwdAlgorithm_t> {
     algo_t algo;
 
     auto& dev_ctx = ctx.template device_context<platform::CUDADeviceContext>();
-    auto* workspace_handle = dev_ctx.cudnn_workspace_handle();
+    auto workspace_handle = dev_ctx.cudnn_workspace_handle();
 
     int find_count;
     miopenConvAlgoPerf_t find_result;
@@ -146,7 +146,7 @@ struct SearchAlgorithm<miopenConvFwdAlgorithm_t> {
               cudnn_workspace_ptr, workspace_size, false));
     };
 
-    workspace_handle->RunFuncSync(cudnn_find_func, workspace_size);
+    workspace_handle.RunFuncSync(cudnn_find_func, workspace_size);
     algo = find_result.fwd_algo;
     VLOG(3) << "choose algo " << algo;
     return algo;
@@ -174,7 +174,7 @@ struct SearchAlgorithm<miopenConvBwdDataAlgorithm_t> {
     algo_t algo;
 
     auto& dev_ctx = ctx.template device_context<platform::CUDADeviceContext>();
-    auto* workspace_handle = dev_ctx.cudnn_workspace_handle();
+    auto workspace_handle = dev_ctx.cudnn_workspace_handle();
 
     int find_count;
     miopenConvAlgoPerf_t find_result;
@@ -188,7 +188,7 @@ struct SearchAlgorithm<miopenConvBwdDataAlgorithm_t> {
               cudnn_workspace_ptr, workspace_size, false));
     };
 
-    workspace_handle->RunFuncSync(cudnn_find_func, workspace_size);
+    workspace_handle.RunFuncSync(cudnn_find_func, workspace_size);
     algo = find_result.bwd_data_algo;
     VLOG(3) << "choose algo " << algo;
     return algo;
@@ -216,7 +216,7 @@ struct SearchAlgorithm<miopenConvBwdWeightsAlgorithm_t> {
     algo_t algo;
 
     auto& dev_ctx = ctx.template device_context<platform::CUDADeviceContext>();
-    auto* workspace_handle = dev_ctx.cudnn_workspace_handle();
+    auto workspace_handle = dev_ctx.cudnn_workspace_handle();
 
     int find_count;
     miopenConvAlgoPerf_t find_result;
@@ -230,7 +230,7 @@ struct SearchAlgorithm<miopenConvBwdWeightsAlgorithm_t> {
               cudnn_workspace_ptr, workspace_size, false));
     };
 
-    workspace_handle->RunFuncSync(cudnn_find_func, workspace_size);
+    workspace_handle.RunFuncSync(cudnn_find_func, workspace_size);
     algo = find_result.bwd_weights_algo;
     VLOG(3) << "choose algo " << algo;
     return algo;