Use model methods for gradient checking

tbennun · tbennun · commit 9c3343422ba4 · 2023-11-01T09:03:33.000-07:00
diff --git a/include/lbann/models/model.hpp b/include/lbann/models/model.hpp
@@ -399,9 +399,10 @@ class model
   void reset_epoch_statistics(execution_mode mode);
 
   /** @brief Forward propagation step. */
-  void forward_prop(execution_mode mode);
+  void forward_prop(execution_mode mode, bool skip_callbacks = false);
   /** @brief Backward propagation step. */
-  void backward_prop(bool compute_weight_grads_only = true);
+  void backward_prop(bool compute_weight_grads_only = true,
+                     bool skip_callbacks = false);
   /** Evaluate any metrics in the model */
   void evaluate_metrics(execution_mode mode, size_t current_mini_batch_size);
   /** @brief Clear each optimizer's gradient.
diff --git a/src/callbacks/check_gradients.cpp b/src/callbacks/check_gradients.cpp
@@ -58,30 +58,12 @@ namespace {
 EvalType compute_objective_function(model& m)
 {
   const auto& c = static_cast<SGDExecutionContext&>(m.get_execution_context());
-  m.get_activation_reference_counter().clear();
-
-  // Forward prop, skipping input layers
-
-  if (m.is_subgraph_parallelism_enabled()) {
-    for (auto&& l : m.get_layers()) {
-      if (dynamic_cast<input_layer<DataType>*>(l) == nullptr &&
-          l->get_run_layer_in_subgraph()) {
-        l->forward_prop();
-      }
-    }
-  }
-  else // sub-graph parallelism not enabled
-  {
-    for (auto&& l : m.get_layers()) {
-      if (dynamic_cast<input_layer<DataType>*>(l) == nullptr) {
-        l->forward_prop();
-      }
-    }
-  }
+  const auto mode = c.get_execution_mode();
 
   // Get objective function value
+  m.forward_prop(mode, true);
   auto&& obj = m.get_objective_function();
-  const auto mode = c.get_execution_mode();
+
   const auto mini_batch_size = m.get_current_mini_batch_size();
   obj->start_evaluation(mode, mini_batch_size);
   return obj->finish_evaluation(mode, mini_batch_size);
@@ -134,6 +116,7 @@ struct CheckWeightsFunctor : DefaultErrorReporter
     // Get weights matrix and gradient
     auto const& weights_matrix = dtw.get_values_sharded();
     auto const& gradient = dtw.get_optimizer()->get_gradient_sharded();
+
     // Iterate through weights matrix entries
     for (El::Int col = 0; col < weights_matrix.Width(); ++col) {
       for (El::Int row = 0; row < weights_matrix.Height(); ++row) {
@@ -275,40 +258,24 @@ void check_gradients::do_check_gradients(model& m) const
   for (auto&& met : m.get_metrics()) {
     met->reset_statistics(mode);
   }
-  for (auto&& w : m.get_weights()) {
-    auto&& opt = w->get_optimizer();
-    if (opt != nullptr) {
-      opt->clear_gradient();
-    }
-  }
-  m.get_activation_reference_counter().clear();
+  m.clear_gradients();
 
   // Load data in input layers
   data_coordinator& dc = get_trainer().get_data_coordinator();
   dc.fetch_active_batch_synchronous(mode);
   El::Int current_mini_batch_size = dc.get_current_mini_batch_size(mode);
   m.set_current_mini_batch_size(current_mini_batch_size);
 
-  // checking subgrpah parallelism
-  if (m.is_subgraph_parallelism_enabled()) {
-    for (auto&& l : m.get_layers()) {
-      if (dynamic_cast<input_layer<DataType>*>(l) != nullptr &&
-          l->get_run_layer_in_subgraph()) {
-        l->forward_prop();
-      }
-    }
-  }
-  else {
-    for (auto&& l : m.get_layers()) {
-      if (dynamic_cast<input_layer<DataType>*>(l) != nullptr) {
-        l->forward_prop();
-      }
-    }
-  }
-
   // Compute objective function
   const EvalType objective = compute_objective_function(m);
 
+  // Compute gradients
+  m.get_objective_function()->differentiate();
+  m.get_objective_function()->compute_weight_regularization();
+
+  // Compute analytical gradients through model
+  m.backward_prop(false, /*skip_callbacks=*/true);
+
   // Choose finite difference step
   // Note: Consider a central difference scheme:
   //   f'(x) ~ ( - f(x+2h) + 8 f(x+h) - 8 f(x-h) + f(x-2h) ) / 12h
@@ -323,31 +290,14 @@ void check_gradients::do_check_gradients(model& m) const
   // epsilon based on the minimum step size of the float data type
   const EvalType epsilon =
     std::pow(std::numeric_limits<DataType>::epsilon(), 0.9);
-  const EvalType step_size =
+  const EvalType step_size = std::max(
+    std::numeric_limits<EvalType>::epsilon(),
     (m_step_size > EvalType{0} ? m_step_size
-                               : std::fabs(objective) * El::Sqrt(epsilon));
+                               : std::fabs(objective) * El::Sqrt(epsilon)));
   EvalType expected_error =
     std::pow((epsilon * objective / step_size + std::pow(step_size, 4) / 18),
              0.9);
 
-  // Compute gradients
-  m.get_objective_function()->differentiate();
-  m.get_objective_function()->compute_weight_regularization();
-
-  // checking subgraph parallelism
-  if (m.is_subgraph_parallelism_enabled()) {
-    for (El::Int i = layers.size() - 1; i >= 0; --i) {
-      if (layers[i]->get_run_layer_in_subgraph()) {
-        layers[i]->back_prop();
-      }
-    }
-  }
-  else {
-    for (El::Int i = layers.size() - 1; i >= 0; --i) {
-      layers[i]->back_prop();
-    }
-  }
-
   // Print objective function value
   if (comm.am_world_master()) {
     std::cout << std::string(64, '-') << "\n"
@@ -383,7 +333,6 @@ void check_gradients::do_check_gradients(model& m) const
   }
 
   // Clean up
-  // TODO: Why
   auto&& dataset = dc.get_dataset(mode);
   dataset.set_initial_position();
   m.get_objective_function()->reset_statistics(mode);
diff --git a/src/models/model.cpp b/src/models/model.cpp
@@ -1550,10 +1550,11 @@ void model::clear_gradients()
   }
 }
 
-void model::forward_prop(execution_mode mode)
+void model::forward_prop(execution_mode mode, bool skip_callbacks)
 {
   LBANN_CALIPER_MARK_FUNCTION;
-  do_model_forward_prop_begin_cbs(mode);
+  if (!skip_callbacks)
+    do_model_forward_prop_begin_cbs(mode);
 
   // Clear activations in reference counter
   m_activation_refcnt.clear();
@@ -1563,25 +1564,30 @@ void model::forward_prop(execution_mode mode)
 
     if (this->is_subgraph_parallelism_enabled()) {
       if (l.get_run_layer_in_subgraph() || l.get_name() == "layer1") {
-        do_layer_forward_prop_begin_cbs(mode, &l);
+        if (!skip_callbacks)
+          do_layer_forward_prop_begin_cbs(mode, &l);
         l.forward_prop();
-        do_layer_forward_prop_end_cbs(mode, &l);
+        if (!skip_callbacks)
+          do_layer_forward_prop_end_cbs(mode, &l);
       }
       else {
         // To Do: Fix last batch problem in sub-graph parallelism
         // experimental code to fix last batch problem in subgraph parallelism
       }
     }
     else {
-      do_layer_forward_prop_begin_cbs(mode, &l);
+      if (!skip_callbacks)
+        do_layer_forward_prop_begin_cbs(mode, &l);
       l.forward_prop();
-      do_layer_forward_prop_end_cbs(mode, &l);
+      if (!skip_callbacks)
+        do_layer_forward_prop_end_cbs(mode, &l);
     }
   }
-  do_model_forward_prop_end_cbs(mode);
+  if (!skip_callbacks)
+    do_model_forward_prop_end_cbs(mode);
 }
 
-void model::backward_prop(bool compute_weight_grads_only)
+void model::backward_prop(bool compute_weight_grads_only, bool skip_callbacks)
 {
   LBANN_CALIPER_MARK_FUNCTION;
 
@@ -1591,7 +1597,8 @@ void model::backward_prop(bool compute_weight_grads_only)
   bool const envvar_disable_layers =
     !arg_parser.get<bool>(LBANN_OPTION_NO_BACKPROP_DISABLE);
 
-  do_model_backward_prop_begin_cbs();
+  if (!skip_callbacks)
+    do_model_backward_prop_begin_cbs();
 
   for (El::Int i = get_num_layers() - 1; i >= 0; --i) {
 
@@ -1621,21 +1628,25 @@ void model::backward_prop(bool compute_weight_grads_only)
 
     if (this->is_subgraph_parallelism_enabled()) {
       if (l.get_run_layer_in_subgraph()) {
-        do_layer_backward_prop_begin_cbs(&l);
+        if (!skip_callbacks)
+          do_layer_backward_prop_begin_cbs(&l);
         if (enable_layer)
           l.back_prop();
-        do_layer_backward_prop_end_cbs(&l);
+        if (!skip_callbacks)
+          do_layer_backward_prop_end_cbs(&l);
       }
       else {
         // To Do: Fix last batch problem in sub-graph parallelism
         // experimental code to fix last batch problem in subgraph parallelism
       }
     }
     else {
-      do_layer_backward_prop_begin_cbs(&l);
+      if (!skip_callbacks)
+        do_layer_backward_prop_begin_cbs(&l);
       if (enable_layer)
         l.back_prop();
-      do_layer_backward_prop_end_cbs(&l);
+      if (!skip_callbacks)
+        do_layer_backward_prop_end_cbs(&l);
     }
 
     // Terminate early if all gradients have been computed
@@ -1660,7 +1671,8 @@ void model::backward_prop(bool compute_weight_grads_only)
     }
   }
 
-  do_model_backward_prop_end_cbs();
+  if (!skip_callbacks)
+    do_model_backward_prop_end_cbs();
 }
 
 void model::update_weights()

Original file line number	Diff line number	Diff line change
`@@ -1550,10 +1550,11 @@ void model::clear_gradients()`
`1550`	`1550`	`}`
`1551`	`1551`	`}`
`1552`	`1552`
`1553`		`-void model::forward_prop(execution_mode mode)`
	`1553`	`+void model::forward_prop(execution_mode mode, bool skip_callbacks)`
`1554`	`1554`	`{`
`1555`	`1555`	`LBANN_CALIPER_MARK_FUNCTION;`
`1556`		`- do_model_forward_prop_begin_cbs(mode);`
	`1556`	`+ if (!skip_callbacks)`
	`1557`	`+ do_model_forward_prop_begin_cbs(mode);`
`1557`	`1558`
`1558`	`1559`	`// Clear activations in reference counter`
`1559`	`1560`	`m_activation_refcnt.clear();`
`@@ -1563,25 +1564,30 @@ void model::forward_prop(execution_mode mode)`
`1563`	`1564`
`1564`	`1565`	`if (this->is_subgraph_parallelism_enabled()) {`
`1565`	`1566`	`if (l.get_run_layer_in_subgraph() \|\| l.get_name() == "layer1") {`
`1566`		`- do_layer_forward_prop_begin_cbs(mode, &l);`
	`1567`	`+ if (!skip_callbacks)`
	`1568`	`+ do_layer_forward_prop_begin_cbs(mode, &l);`
`1567`	`1569`	`l.forward_prop();`
`1568`		`- do_layer_forward_prop_end_cbs(mode, &l);`
	`1570`	`+ if (!skip_callbacks)`
	`1571`	`+ do_layer_forward_prop_end_cbs(mode, &l);`
`1569`	`1572`	`}`
`1570`	`1573`	`else {`
`1571`	`1574`	`// To Do: Fix last batch problem in sub-graph parallelism`
`1572`	`1575`	`// experimental code to fix last batch problem in subgraph parallelism`
`1573`	`1576`	`}`
`1574`	`1577`	`}`
`1575`	`1578`	`else {`
`1576`		`- do_layer_forward_prop_begin_cbs(mode, &l);`
	`1579`	`+ if (!skip_callbacks)`
	`1580`	`+ do_layer_forward_prop_begin_cbs(mode, &l);`
`1577`	`1581`	`l.forward_prop();`
`1578`		`- do_layer_forward_prop_end_cbs(mode, &l);`
	`1582`	`+ if (!skip_callbacks)`
	`1583`	`+ do_layer_forward_prop_end_cbs(mode, &l);`
`1579`	`1584`	`}`
`1580`	`1585`	`}`
`1581`		`- do_model_forward_prop_end_cbs(mode);`
	`1586`	`+ if (!skip_callbacks)`
	`1587`	`+ do_model_forward_prop_end_cbs(mode);`
`1582`	`1588`	`}`
`1583`	`1589`
`1584`		`-void model::backward_prop(bool compute_weight_grads_only)`
	`1590`	`+void model::backward_prop(bool compute_weight_grads_only, bool skip_callbacks)`
`1585`	`1591`	`{`
`1586`	`1592`	`LBANN_CALIPER_MARK_FUNCTION;`
`1587`	`1593`
`@@ -1591,7 +1597,8 @@ void model::backward_prop(bool compute_weight_grads_only)`
`1591`	`1597`	`bool const envvar_disable_layers =`
`1592`	`1598`	`!arg_parser.get<bool>(LBANN_OPTION_NO_BACKPROP_DISABLE);`
`1593`	`1599`
`1594`		`- do_model_backward_prop_begin_cbs();`
	`1600`	`+ if (!skip_callbacks)`
	`1601`	`+ do_model_backward_prop_begin_cbs();`
`1595`	`1602`
`1596`	`1603`	`for (El::Int i = get_num_layers() - 1; i >= 0; --i) {`
`1597`	`1604`
`@@ -1621,21 +1628,25 @@ void model::backward_prop(bool compute_weight_grads_only)`
`1621`	`1628`
`1622`	`1629`	`if (this->is_subgraph_parallelism_enabled()) {`
`1623`	`1630`	`if (l.get_run_layer_in_subgraph()) {`
`1624`		`- do_layer_backward_prop_begin_cbs(&l);`
	`1631`	`+ if (!skip_callbacks)`
	`1632`	`+ do_layer_backward_prop_begin_cbs(&l);`
`1625`	`1633`	`if (enable_layer)`
`1626`	`1634`	`l.back_prop();`
`1627`		`- do_layer_backward_prop_end_cbs(&l);`
	`1635`	`+ if (!skip_callbacks)`
	`1636`	`+ do_layer_backward_prop_end_cbs(&l);`
`1628`	`1637`	`}`
`1629`	`1638`	`else {`
`1630`	`1639`	`// To Do: Fix last batch problem in sub-graph parallelism`
`1631`	`1640`	`// experimental code to fix last batch problem in subgraph parallelism`
`1632`	`1641`	`}`
`1633`	`1642`	`}`
`1634`	`1643`	`else {`
`1635`		`- do_layer_backward_prop_begin_cbs(&l);`
	`1644`	`+ if (!skip_callbacks)`
	`1645`	`+ do_layer_backward_prop_begin_cbs(&l);`
`1636`	`1646`	`if (enable_layer)`
`1637`	`1647`	`l.back_prop();`
`1638`		`- do_layer_backward_prop_end_cbs(&l);`
	`1648`	`+ if (!skip_callbacks)`
	`1649`	`+ do_layer_backward_prop_end_cbs(&l);`
`1639`	`1650`	`}`
`1640`	`1651`
`1641`	`1652`	`// Terminate early if all gradients have been computed`
`@@ -1660,7 +1671,8 @@ void model::backward_prop(bool compute_weight_grads_only)`
`1660`	`1671`	`}`
`1661`	`1672`	`}`
`1662`	`1673`
`1663`		`- do_model_backward_prop_end_cbs();`
	`1674`	`+ if (!skip_callbacks)`
	`1675`	`+ do_model_backward_prop_end_cbs();`
`1664`	`1676`	`}`
`1665`	`1677`
`1666`	`1678`	`void model::update_weights()`