Use model methods for gradient checking

tbennun · tbennun · commit f9ea28b510ef · 2024-01-24T14:02:39.000-08:00
diff --git a/include/lbann/models/model.hpp b/include/lbann/models/model.hpp
@@ -399,9 +399,10 @@ class model
   void reset_epoch_statistics(execution_mode mode);
 
   /** @brief Forward propagation step. */
-  void forward_prop(execution_mode mode);
+  void forward_prop(execution_mode mode, bool skip_callbacks = false);
   /** @brief Backward propagation step. */
-  void backward_prop(bool compute_weight_grads_only = true);
+  void backward_prop(bool compute_weight_grads_only = true,
+                     bool skip_callbacks = false);
   /** Evaluate any metrics in the model */
   void evaluate_metrics(execution_mode mode, uint64_t current_mini_batch_size);
   /** @brief Clear each optimizer's gradient.
diff --git a/src/callbacks/check_gradients.cpp b/src/callbacks/check_gradients.cpp
@@ -58,30 +58,12 @@ namespace {
 EvalType compute_objective_function(model& m)
 {
   const auto& c = static_cast<SGDExecutionContext&>(m.get_execution_context());
-  m.get_activation_reference_counter().clear();
-
-  // Forward prop, skipping input layers
-
-  if (m.is_subgraph_parallelism_enabled()) {
-    for (auto&& l : m.get_layers()) {
-      if (dynamic_cast<input_layer<DataType>*>(l) == nullptr &&
-          l->get_run_layer_in_subgraph()) {
-        l->forward_prop();
-      }
-    }
-  }
-  else // sub-graph parallelism not enabled
-  {
-    for (auto&& l : m.get_layers()) {
-      if (dynamic_cast<input_layer<DataType>*>(l) == nullptr) {
-        l->forward_prop();
-      }
-    }
-  }
+  const auto mode = c.get_execution_mode();
 
   // Get objective function value
+  m.forward_prop(mode, true);
   auto&& obj = m.get_objective_function();
-  const auto mode = c.get_execution_mode();
+
   const auto mini_batch_size = m.get_current_mini_batch_size();
   obj->start_evaluation(mode, mini_batch_size);
   return obj->finish_evaluation(mode, mini_batch_size);
@@ -134,6 +116,7 @@ struct CheckWeightsFunctor : DefaultErrorReporter
     // Get weights matrix and gradient
     auto const& weights_matrix = dtw.get_values_sharded();
     auto const& gradient = dtw.get_optimizer()->get_gradient_sharded();
+
     // Iterate through weights matrix entries
     for (El::Int col = 0; col < weights_matrix.Width(); ++col) {
       for (El::Int row = 0; row < weights_matrix.Height(); ++row) {
@@ -275,40 +258,24 @@ void check_gradients::do_check_gradients(model& m) const
   for (auto&& met : m.get_metrics()) {
     met->reset_statistics(mode);
   }
-  for (auto&& w : m.get_weights()) {
-    auto&& opt = w->get_optimizer();
-    if (opt != nullptr) {
-      opt->clear_gradient();
-    }
-  }
-  m.get_activation_reference_counter().clear();
+  m.clear_gradients();
 
   // Load data in input layers
   data_coordinator& dc = get_trainer().get_data_coordinator();
   dc.fetch_active_batch_synchronous(mode);
   El::Int current_mini_batch_size = dc.get_current_mini_batch_size(mode);
   m.set_current_mini_batch_size(current_mini_batch_size);
 
-  // checking subgrpah parallelism
-  if (m.is_subgraph_parallelism_enabled()) {
-    for (auto&& l : m.get_layers()) {
-      if (dynamic_cast<input_layer<DataType>*>(l) != nullptr &&
-          l->get_run_layer_in_subgraph()) {
-        l->forward_prop();
-      }
-    }
-  }
-  else {
-    for (auto&& l : m.get_layers()) {
-      if (dynamic_cast<input_layer<DataType>*>(l) != nullptr) {
-        l->forward_prop();
-      }
-    }
-  }
-
   // Compute objective function
   const EvalType objective = compute_objective_function(m);
 
+  // Compute gradients
+  m.get_objective_function()->differentiate();
+  m.get_objective_function()->compute_weight_regularization();
+
+  // Compute analytical gradients through model
+  m.backward_prop(false, /*skip_callbacks=*/true);
+
   // Choose finite difference step
   // Note: Consider a central difference scheme:
   //   f'(x) ~ ( - f(x+2h) + 8 f(x+h) - 8 f(x-h) + f(x-2h) ) / 12h
@@ -323,31 +290,14 @@ void check_gradients::do_check_gradients(model& m) const
   // epsilon based on the minimum step size of the float data type
   const EvalType epsilon =
     std::pow(std::numeric_limits<DataType>::epsilon(), 0.9);
-  const EvalType step_size =
+  const EvalType step_size = std::max(
+    std::numeric_limits<EvalType>::epsilon(),
     (m_step_size > EvalType{0} ? m_step_size
-                               : std::fabs(objective) * El::Sqrt(epsilon));
+                               : std::fabs(objective) * El::Sqrt(epsilon)));
   EvalType expected_error =
     std::pow((epsilon * objective / step_size + std::pow(step_size, 4) / 18),
              0.9);
 
-  // Compute gradients
-  m.get_objective_function()->differentiate();
-  m.get_objective_function()->compute_weight_regularization();
-
-  // checking subgraph parallelism
-  if (m.is_subgraph_parallelism_enabled()) {
-    for (El::Int i = layers.size() - 1; i >= 0; --i) {
-      if (layers[i]->get_run_layer_in_subgraph()) {
-        layers[i]->back_prop();
-      }
-    }
-  }
-  else {
-    for (El::Int i = layers.size() - 1; i >= 0; --i) {
-      layers[i]->back_prop();
-    }
-  }
-
   // Print objective function value
   if (comm.am_world_master()) {
     std::cout << std::string(64, '-') << "\n"
@@ -383,7 +333,6 @@ void check_gradients::do_check_gradients(model& m) const
   }
 
   // Clean up
-  // TODO: Why
   auto&& dataset = dc.get_dataset(mode);
   dataset.set_initial_position();
   m.get_objective_function()->reset_statistics(mode);
diff --git a/src/models/model.cpp b/src/models/model.cpp
@@ -1573,10 +1573,11 @@ void model::clear_gradients()
   }
 }
 
-void model::forward_prop(execution_mode mode)
+void model::forward_prop(execution_mode mode, bool skip_callbacks)
 {
   LBANN_CALIPER_MARK_FUNCTION;
-  do_model_forward_prop_begin_cbs(mode);
+  if (!skip_callbacks)
+    do_model_forward_prop_begin_cbs(mode);
 
   // Clear activations in reference counter
   m_activation_refcnt.clear();
@@ -1586,25 +1587,30 @@ void model::forward_prop(execution_mode mode)
 
     if (this->is_subgraph_parallelism_enabled()) {
       if (l.get_run_layer_in_subgraph()) {
-        do_layer_forward_prop_begin_cbs(mode, &l);
+        if (!skip_callbacks)
+          do_layer_forward_prop_begin_cbs(mode, &l);
         l.forward_prop();
-        do_layer_forward_prop_end_cbs(mode, &l);
+        if (!skip_callbacks)
+          do_layer_forward_prop_end_cbs(mode, &l);
       }
       else {
         // To Do: Fix last batch problem in sub-graph parallelism
         // experimental code to fix last batch problem in subgraph parallelism
       }
     }
     else {
-      do_layer_forward_prop_begin_cbs(mode, &l);
+      if (!skip_callbacks)
+        do_layer_forward_prop_begin_cbs(mode, &l);
       l.forward_prop();
-      do_layer_forward_prop_end_cbs(mode, &l);
+      if (!skip_callbacks)
+        do_layer_forward_prop_end_cbs(mode, &l);
     }
   }
-  do_model_forward_prop_end_cbs(mode);
+  if (!skip_callbacks)
+    do_model_forward_prop_end_cbs(mode);
 }
 
-void model::backward_prop(bool compute_weight_grads_only)
+void model::backward_prop(bool compute_weight_grads_only, bool skip_callbacks)
 {
   LBANN_CALIPER_MARK_FUNCTION;
 
@@ -1614,7 +1620,8 @@ void model::backward_prop(bool compute_weight_grads_only)
   bool const envvar_disable_layers =
     !arg_parser.get<bool>(LBANN_OPTION_NO_BACKPROP_DISABLE);
 
-  do_model_backward_prop_begin_cbs();
+  if (!skip_callbacks)
+    do_model_backward_prop_begin_cbs();
 
   for (El::Int i = get_num_layers() - 1; i >= 0; --i) {
 
@@ -1644,21 +1651,25 @@ void model::backward_prop(bool compute_weight_grads_only)
 
     if (this->is_subgraph_parallelism_enabled()) {
       if (l.get_run_layer_in_subgraph()) {
-        do_layer_backward_prop_begin_cbs(&l);
+        if (!skip_callbacks)
+          do_layer_backward_prop_begin_cbs(&l);
         if (enable_layer)
           l.back_prop();
-        do_layer_backward_prop_end_cbs(&l);
+        if (!skip_callbacks)
+          do_layer_backward_prop_end_cbs(&l);
       }
       else {
         // To Do: Fix last batch problem in sub-graph parallelism
         // experimental code to fix last batch problem in subgraph parallelism
       }
     }
     else {
-      do_layer_backward_prop_begin_cbs(&l);
+      if (!skip_callbacks)
+        do_layer_backward_prop_begin_cbs(&l);
       if (enable_layer)
         l.back_prop();
-      do_layer_backward_prop_end_cbs(&l);
+      if (!skip_callbacks)
+        do_layer_backward_prop_end_cbs(&l);
     }
 
     // Terminate early if all gradients have been computed
@@ -1683,7 +1694,8 @@ void model::backward_prop(bool compute_weight_grads_only)
     }
   }
 
-  do_model_backward_prop_end_cbs();
+  if (!skip_callbacks)
+    do_model_backward_prop_end_cbs();
 }
 
 void model::update_weights()

Original file line number	Diff line number	Diff line change
`@@ -1573,10 +1573,11 @@ void model::clear_gradients()`
`1573`	`1573`	`}`
`1574`	`1574`	`}`
`1575`	`1575`
`1576`		`-void model::forward_prop(execution_mode mode)`
	`1576`	`+void model::forward_prop(execution_mode mode, bool skip_callbacks)`
`1577`	`1577`	`{`
`1578`	`1578`	`LBANN_CALIPER_MARK_FUNCTION;`
`1579`		`- do_model_forward_prop_begin_cbs(mode);`
	`1579`	`+ if (!skip_callbacks)`
	`1580`	`+ do_model_forward_prop_begin_cbs(mode);`
`1580`	`1581`
`1581`	`1582`	`// Clear activations in reference counter`
`1582`	`1583`	`m_activation_refcnt.clear();`
`@@ -1586,25 +1587,30 @@ void model::forward_prop(execution_mode mode)`
`1586`	`1587`
`1587`	`1588`	`if (this->is_subgraph_parallelism_enabled()) {`
`1588`	`1589`	`if (l.get_run_layer_in_subgraph()) {`
`1589`		`- do_layer_forward_prop_begin_cbs(mode, &l);`
	`1590`	`+ if (!skip_callbacks)`
	`1591`	`+ do_layer_forward_prop_begin_cbs(mode, &l);`
`1590`	`1592`	`l.forward_prop();`
`1591`		`- do_layer_forward_prop_end_cbs(mode, &l);`
	`1593`	`+ if (!skip_callbacks)`
	`1594`	`+ do_layer_forward_prop_end_cbs(mode, &l);`
`1592`	`1595`	`}`
`1593`	`1596`	`else {`
`1594`	`1597`	`// To Do: Fix last batch problem in sub-graph parallelism`
`1595`	`1598`	`// experimental code to fix last batch problem in subgraph parallelism`
`1596`	`1599`	`}`
`1597`	`1600`	`}`
`1598`	`1601`	`else {`
`1599`		`- do_layer_forward_prop_begin_cbs(mode, &l);`
	`1602`	`+ if (!skip_callbacks)`
	`1603`	`+ do_layer_forward_prop_begin_cbs(mode, &l);`
`1600`	`1604`	`l.forward_prop();`
`1601`		`- do_layer_forward_prop_end_cbs(mode, &l);`
	`1605`	`+ if (!skip_callbacks)`
	`1606`	`+ do_layer_forward_prop_end_cbs(mode, &l);`
`1602`	`1607`	`}`
`1603`	`1608`	`}`
`1604`		`- do_model_forward_prop_end_cbs(mode);`
	`1609`	`+ if (!skip_callbacks)`
	`1610`	`+ do_model_forward_prop_end_cbs(mode);`
`1605`	`1611`	`}`
`1606`	`1612`
`1607`		`-void model::backward_prop(bool compute_weight_grads_only)`
	`1613`	`+void model::backward_prop(bool compute_weight_grads_only, bool skip_callbacks)`
`1608`	`1614`	`{`
`1609`	`1615`	`LBANN_CALIPER_MARK_FUNCTION;`
`1610`	`1616`
`@@ -1614,7 +1620,8 @@ void model::backward_prop(bool compute_weight_grads_only)`
`1614`	`1620`	`bool const envvar_disable_layers =`
`1615`	`1621`	`!arg_parser.get<bool>(LBANN_OPTION_NO_BACKPROP_DISABLE);`
`1616`	`1622`
`1617`		`- do_model_backward_prop_begin_cbs();`
	`1623`	`+ if (!skip_callbacks)`
	`1624`	`+ do_model_backward_prop_begin_cbs();`
`1618`	`1625`
`1619`	`1626`	`for (El::Int i = get_num_layers() - 1; i >= 0; --i) {`
`1620`	`1627`
`@@ -1644,21 +1651,25 @@ void model::backward_prop(bool compute_weight_grads_only)`
`1644`	`1651`
`1645`	`1652`	`if (this->is_subgraph_parallelism_enabled()) {`
`1646`	`1653`	`if (l.get_run_layer_in_subgraph()) {`
`1647`		`- do_layer_backward_prop_begin_cbs(&l);`
	`1654`	`+ if (!skip_callbacks)`
	`1655`	`+ do_layer_backward_prop_begin_cbs(&l);`
`1648`	`1656`	`if (enable_layer)`
`1649`	`1657`	`l.back_prop();`
`1650`		`- do_layer_backward_prop_end_cbs(&l);`
	`1658`	`+ if (!skip_callbacks)`
	`1659`	`+ do_layer_backward_prop_end_cbs(&l);`
`1651`	`1660`	`}`
`1652`	`1661`	`else {`
`1653`	`1662`	`// To Do: Fix last batch problem in sub-graph parallelism`
`1654`	`1663`	`// experimental code to fix last batch problem in subgraph parallelism`
`1655`	`1664`	`}`
`1656`	`1665`	`}`
`1657`	`1666`	`else {`
`1658`		`- do_layer_backward_prop_begin_cbs(&l);`
	`1667`	`+ if (!skip_callbacks)`
	`1668`	`+ do_layer_backward_prop_begin_cbs(&l);`
`1659`	`1669`	`if (enable_layer)`
`1660`	`1670`	`l.back_prop();`
`1661`		`- do_layer_backward_prop_end_cbs(&l);`
	`1671`	`+ if (!skip_callbacks)`
	`1672`	`+ do_layer_backward_prop_end_cbs(&l);`
`1662`	`1673`	`}`
`1663`	`1674`
`1664`	`1675`	`// Terminate early if all gradients have been computed`
`@@ -1683,7 +1694,8 @@ void model::backward_prop(bool compute_weight_grads_only)`
`1683`	`1694`	`}`
`1684`	`1695`	`}`
`1685`	`1696`
`1686`		`- do_model_backward_prop_end_cbs();`
	`1697`	`+ if (!skip_callbacks)`
	`1698`	`+ do_model_backward_prop_end_cbs();`
`1687`	`1699`	`}`
`1688`	`1700`
`1689`	`1701`	`void model::update_weights()`