Softmax support

v-Golubev · v-Golubev · commit d6835cb3bf35 · 2023-11-27T21:10:24.000+01:00
diff --git a/src/common/snippets/include/snippets/lowered/linear_ir.hpp b/src/common/snippets/include/snippets/lowered/linear_ir.hpp
@@ -110,6 +110,7 @@ class LinearIR {
 
     void init_emitters(const std::shared_ptr<TargetMachine>& target);
     void serialize(const std::string& xml, const std::string& bin) const;
+    void serialize2(const std::string& xml, const std::string& bin) const;
 
     class LoopManager;
     using LoopManagerPtr = std::shared_ptr<LoopManager>;
diff --git a/src/common/snippets/include/snippets/lowered/pass/iter_handler.hpp b/src/common/snippets/include/snippets/lowered/pass/iter_handler.hpp
@@ -59,15 +59,16 @@ class ZeroFinalizationOffsets : public pass::SubgraphPass {
     bool run(const LinearIR& linear_ir, LinearIR::constExprIt begin, LinearIR::constExprIt end) override;
 };
 
-class InsertFill : public pass::SubgraphPass {
+class SetFillOffset : public pass::SubgraphPass {
 public:
-    InsertFill(size_t tail_size);
-    OPENVINO_RTTI("InsertFill", "Pass")
+    SetFillOffset(size_t offset);
+    OPENVINO_RTTI("SetFillOffset", "Pass")
     bool run(const LinearIR& linear_ir, LinearIR::constExprIt begin, LinearIR::constExprIt end) override;
 
 private:
-    size_t m_tail_size;
+    size_t m_offset;
 };
+
 } // namespace pass
 } // namespace lowered
 } // namespace snippets
diff --git a/src/common/snippets/src/generator.cpp b/src/common/snippets/src/generator.cpp
@@ -26,15 +26,6 @@ void Generator::generate(lowered::LinearIR& linear_ir, LoweringResult& result, c
     std::function<opRegType(const std::shared_ptr<Node>& op)> reg_type_mapper = [&](const std::shared_ptr<Node>& op) -> opRegType {
         return get_op_reg_type(op);
     };
-    lowered::pass::PassPipeline pre_pipeline;
-    pre_pipeline.register_pass<lowered::pass::AssignRegisters>(reg_type_mapper);
-    pre_pipeline.run(linear_ir);
-
-    // auto clone = *linear_ir.clone();
-    // lowered::pass::PassPipeline reference_pipeline;
-    // reference_pipeline.register_pass<lowered::pass::InsertTailLoop>();
-    // reference_pipeline.run(clone);
-    // clone.serialize("/home/vgolubev/models/specific_iteration_reference.xml", "");
 
     lowered::pass::PassPipeline lowered_pipeline;
     // Note: the order of all passes in this pipeline must not be changed since they have hard dependencies
@@ -46,6 +37,7 @@ void Generator::generate(lowered::LinearIR& linear_ir, LoweringResult& result, c
     //       since CleanupLoopOffsets can't handle loops with evaluate_once = true
     lowered_pipeline.register_pass<lowered::pass::AssignRegisters>(reg_type_mapper);
     lowered_pipeline.run(linear_ir);
+    linear_ir.serialize2("/home/vgolubev/models/test.xml", "/dev/null");
 
     // lowered::pass::PassPipeline reference_pipeline;
     // reference_pipeline.register_pass<lowered::pass::InsertTailLoop>();
@@ -60,7 +52,7 @@ void Generator::generate(lowered::LinearIR& linear_ir, LoweringResult& result, c
     target_pipeline.register_pass<lowered::pass::CleanupLoopOffsets>();
     target_pipeline.register_pass<lowered::pass::OptimizeLoopSingleEvaluation>();
     target_pipeline.run(linear_ir);
-    linear_ir.serialize("/home/vgolubev/models/specific_iteration.xml", "");
+    linear_ir.serialize("/home/vgolubev/models/specific_iteration.xml", "/dev/null");
     linear_ir.init_emitters(target);
 
     OV_ITT_TASK_NEXT(GENERATE, "::EmitCode")
diff --git a/src/common/snippets/src/lowered/linear_ir.cpp b/src/common/snippets/src/lowered/linear_ir.cpp
@@ -118,6 +118,48 @@ void LinearIR::serialize(const std::string& xml, const std::string& bin) const {
     ov::pass::Serialize(xml, bin).run_on_model(tmp_model);
 }
 
+void LinearIR::serialize2(const std::string& xml, const std::string& bin) const {
+    ov::ParameterVector parameters;
+    std::map<ExpressionPtr, std::shared_ptr<Node>> ops_map;
+    for (const auto& ioexpr : m_io_expressions) {
+        if (ioexpr->get_type() == IOExpression::io_type::INPUT) {
+            const auto parameter = std::make_shared<ov::op::v0::Parameter>(element::f32, Shape{});
+            ops_map[ioexpr] = parameter;
+            parameters.push_back(parameter);
+        }
+    }
+
+    for (const auto& expr : m_expressions) {
+        if (std::dynamic_pointer_cast<IOExpression>(expr))
+            continue;
+
+        const auto node = expr->get_node();
+        ov::OutputVector inputs(expr->get_input_count());
+        for (size_t i = 0; i < expr->get_input_count(); ++i) {
+            const auto& input_expr = expr->get_input_port_connector(i);
+            inputs[i] = ops_map[input_expr->get_source().get_expr()]->output(0);
+        }
+        const auto serialization_node = std::make_shared<op::SerializationNode>(inputs, expr);
+        ops_map[expr] = serialization_node;
+    }
+
+    ov::ResultVector results;
+    for (const auto& ioexpr : m_io_expressions) {
+        if (ioexpr->get_type() == IOExpression::io_type::OUTPUT) {
+            ov::OutputVector inputs(ioexpr->get_input_count());
+            for (size_t i = 0; i < ioexpr->get_input_count(); ++i) {
+                const auto& input_expr = ioexpr->get_input_port_connector(i);
+                inputs[i] = ops_map[input_expr->get_source().get_expr()]->output(0);
+            }
+            const auto result = std::make_shared<ov::op::v0::Result>(inputs[0]);
+            ops_map[ioexpr] = result;
+            results.push_back(result);
+        }
+    }
+    const auto tmp_model = std::make_shared<ov::Model>(results, parameters, "Lowered_IR_Serialization");
+    ov::pass::Serialize(xml, bin).run_on_model(tmp_model);
+}
+
 LinearIR::container LinearIR::deep_copy_range(LinearIR::container::const_iterator begin,
                                               LinearIR::container::const_iterator end,
                                               ExressionMap& expression_map) {
diff --git a/src/common/snippets/src/lowered/pass/assign_registers.cpp b/src/common/snippets/src/lowered/pass/assign_registers.cpp
@@ -80,10 +80,10 @@ bool AssignRegisters::run(LinearIR& linear_ir) {
             for (const auto& tensor : input_expr_input_tensors) {
                 const auto parent_expr = tensor->get_source().get_expr();
                 if (ov::is_type<op::Fill>(parent_expr->get_node())) {
-                    manually_assigned_vecs[tensor] = static_cast<Reg>(accumulator_reg);
                     if (ov::is_type<op::VectorBuffer>(parent_expr->get_input_port_connector(0)->get_source().get_expr()->get_node())) {
+                        manually_assigned_vecs[tensor] = static_cast<Reg>(accumulator_reg);
                         manually_assigned_vecs[parent_expr->get_input_port_connector(0)] = static_cast<Reg>(accumulator_reg);
-                }
+                    }
                 }
             }
             const auto& output_tensor = expr->get_output_port_connector(0);
diff --git a/src/common/snippets/src/lowered/pass/iter_handler.cpp b/src/common/snippets/src/lowered/pass/iter_handler.cpp
@@ -100,58 +100,13 @@ bool ZeroFinalizationOffsets::run(const LinearIR& linear_ir, LinearIR::constExpr
     return true;
 }
 
-InsertFill::InsertFill(size_t tail_size) : m_tail_size(tail_size) {}
-
-bool InsertFill::run(const LinearIR& linear_ir, LinearIR::constExprIt begin, LinearIR::constExprIt end) {
-    const auto& config = linear_ir.get_config();
-    if (!config.m_need_fill_tail_register)
-        return false;
-
-    auto insertFill = [&](const ov::Input<ov::Node>& input) -> std::shared_ptr<ov::Node> {
-        std::shared_ptr<ov::Node> fill = nullptr;
-        auto& rt = input.get_rt_info();
-        auto fill_rt = rt.find("set_fill");
-        if (fill_rt != rt.end()) {
-            const auto fill_value = fill_rt->second.as<uint32_t>();
-            fill = std::make_shared<ov::snippets::op::Fill>(input.get_source_output(), m_tail_size, fill_value);
-            input.get_node()->set_argument(input.get_index(), fill);
-        }
-        return fill;
-    };
+SetFillOffset::SetFillOffset(size_t offset) : SubgraphPass(), m_offset(offset) {}
 
+bool SetFillOffset::run(const LinearIR& linear_ir, LinearIR::constExprIt begin, LinearIR::constExprIt end) {
     for (auto expr_it = std::next(begin); expr_it != end; expr_it++) {
-        const auto expr = expr_it->get();
-        const auto op = expr->get_node();
-        // Skip inner Loops
-        const auto loop_begin = ov::as_type_ptr<op::LoopBegin>(op);
-        if (loop_begin) {
-            expr_it = linear_ir.find(expr_it, end, linear_ir.get_expr_by_node(loop_begin->get_loop_end()));
-            continue;
-        }
-
-        auto casted_linear_ir = const_cast<LinearIR&>(linear_ir);
-        if (ov::is_type<ov::op::v1::Maximum>(op) || ov::is_type<ov::op::v1::Add>(op)) {
-            for (size_t i = 0; i < op->inputs().size(); ++i) {
-                if (auto fill = insertFill(op->input(i))) {
-                    const auto& input = expr->get_input_port_connector(i);
-                    const auto consumers = input->get_consumers();
-                    // If there are several consumers, fill expression must be inserted before first of them
-                    auto fst_consumer = std::min_element(consumers.cbegin(), consumers.cend(), [&](ExpressionPort lhs, ExpressionPort rhs) {
-                        auto lhs_it = casted_linear_ir.find(lhs.get_expr());
-                        auto rhs_it = casted_linear_ir.find(rhs.get_expr());
-                        return std::distance(casted_linear_ir.cbegin(), lhs_it) < std::distance(casted_linear_ir.cbegin(), rhs_it);
-                    });
-                    const auto insert_pos = casted_linear_ir.find(fst_consumer->get_expr());
-                    auto fill_expr = casted_linear_ir.create_expression(fill, {input});
-                    casted_linear_ir.insert(insert_pos, fill_expr);
-                    casted_linear_ir.replace_input(consumers, fill_expr->get_output_port_connector(0));
-                    // in_reg == out_reg since we want to modify vector reg inplace
-                    const auto reg = expr->get_input_port_descriptor(0)->get_reg();
-                    fill_expr->get_input_port_descriptor(0)->set_reg(reg);
-                    fill_expr->get_output_port_descriptor(0)->set_reg(reg);
-                    fill_expr->set_loop_ids(expr->get_loop_ids());
-                }
-            }
+        const auto& node = expr_it->get()->get_node();
+        if (const auto fill = ov::as_type_ptr<ov::snippets::op::Fill>(node)) {
+            fill->set_offset(m_offset);
         }
     }
     return true;
diff --git a/src/common/snippets/src/lowered/pass/softmax_decomposition.cpp b/src/common/snippets/src/lowered/pass/softmax_decomposition.cpp
@@ -61,20 +61,22 @@ bool SoftmaxDecomposition::run(LinearIR& linear_ir) {
             // Init value of vector buffer for ReduceMax is -FLOAT_MIN.
             const auto fill_max = push_node(std::make_shared<op::Fill>(vector_buffer_max.second, 0, float_min_constant));
             // ReduceMax loop
-            const auto& max = push_node(std::make_shared<ov::op::v1::Maximum>(softmax->get_input_source_output(0), fill_max.second));
+            const auto fill_max_tail = push_node(std::make_shared<op::Fill>(softmax->get_input_source_output(0), m_vector_size, float_min_constant));
+
+            const auto& max = push_node(std::make_shared<ov::op::v1::Maximum>(fill_max_tail.second, fill_max.second));
 
             const auto horizon_max = push_node(std::make_shared<op::HorizonMax>(max.second));
 
             // Markup of ReduceMax Loop
-            const auto reduce_max_loop_id = loop_manager->mark_loop(max.first, horizon_max.first, inner_work_amount, m_vector_size, 0,
-                                                                    std::vector<ExpressionPort>{(*max.first)->get_input_port(0),
+            const auto reduce_max_loop_id = loop_manager->mark_loop(fill_max_tail.first, horizon_max.first, inner_work_amount, m_vector_size, 0,
+                                                                    std::vector<ExpressionPort>{(*fill_max_tail.first)->get_input_port(0),
                                                                                                 (*max.first)->get_input_port(1)},
                                                                     std::vector<ExpressionPort>{(*max.first)->get_output_port(0)});
             const auto& reduce_max_loop_info = loop_manager->get_loop_info(reduce_max_loop_id);
             const auto tail_size = inner_work_amount % m_vector_size;
             if (tail_size != 0) {
                 reduce_max_loop_info->handlers[LoopInfo::LAST_ITER].register_pass<DefaultTailLoopHandler>(tail_size);
-                reduce_max_loop_info->handlers[LoopInfo::LAST_ITER].register_pass<InsertFill>(tail_size);
+                reduce_max_loop_info->handlers[LoopInfo::LAST_ITER].register_pass<SetFillOffset>(tail_size);
                 if (inner_work_amount > m_vector_size) {
                     reduce_max_loop_info->handlers[LoopInfo::MAIN_BODY].register_pass<ReduceWorkAmount>(tail_size);
                     reduce_max_loop_info->handlers[LoopInfo::MAIN_BODY].register_pass<ZeroFinalizationOffsets>();
@@ -88,7 +90,8 @@ bool SoftmaxDecomposition::run(LinearIR& linear_ir) {
             // Sub + Exp + ReduceSum Loop
             const auto sub = push_node(std::make_shared<ov::op::v1::Subtract>(softmax->get_input_source_output(0), broadcast_horizon_max.second));
             const auto exp = push_node(std::make_shared<ov::op::v0::Exp>(sub.second));
-            const auto sum = push_node(std::make_shared<ov::op::v1::Add>(exp.second, fill_sum.second));
+            const auto fill_sum_tail = push_node(std::make_shared<op::Fill>(exp.second, m_vector_size, zero_constant));
+            const auto sum = push_node(std::make_shared<ov::op::v1::Add>(fill_sum_tail.second, fill_sum.second));
 
             const auto horizon_sum = push_node(std::make_shared<op::HorizonSum>(sum.second));
 
@@ -97,12 +100,12 @@ bool SoftmaxDecomposition::run(LinearIR& linear_ir) {
                                                                     std::vector<ExpressionPort>{(*sub.first)->get_input_port(0),
                                                                                                 (*sub.first)->get_input_port(1),
                                                                                                 (*sum.first)->get_input_port(1)},
-                                                                    std::vector<ExpressionPort>{(*exp.first)->get_output_port(0),
+                                                                    std::vector<ExpressionPort>{(*fill_sum_tail.first)->get_output_port(0),
                                                                                                 (*sum.first)->get_output_port(0)});
             const auto& reduce_sum_loop_info = loop_manager->get_loop_info(reduce_sum_loop_id);
             if (tail_size != 0) {
-                reduce_max_loop_info->handlers[LoopInfo::LAST_ITER].register_pass<InsertFill>(tail_size);
                 reduce_sum_loop_info->handlers[LoopInfo::LAST_ITER].register_pass<DefaultTailLoopHandler>(tail_size);
+                reduce_sum_loop_info->handlers[LoopInfo::LAST_ITER].register_pass<SetFillOffset>(tail_size);
                 if (inner_work_amount > m_vector_size) {
                     reduce_sum_loop_info->handlers[LoopInfo::MAIN_BODY].register_pass<ReduceWorkAmount>(tail_size);
                     reduce_sum_loop_info->handlers[LoopInfo::MAIN_BODY].register_pass<ZeroFinalizationOffsets>();
@@ -114,10 +117,10 @@ bool SoftmaxDecomposition::run(LinearIR& linear_ir) {
             const auto broadcast_pow = push_node(std::make_shared<op::BroadcastMove>(pow.second, broadcasted_dim));
 
             // Mul (pseudo-Divide loop)
-            const auto mul = push_node(std::make_shared<ov::op::v1::Multiply>(exp.second, broadcast_pow.second));
+            const auto mul = push_node(std::make_shared<ov::op::v1::Multiply>(fill_sum_tail.second, broadcast_pow.second));
 
             // Transfer original ExpressionPorts
-            linear_ir.replace_input((*max.first)->get_input_port(0), input_connector);
+            linear_ir.replace_input((*fill_max_tail.first)->get_input_port(0), input_connector);
             linear_ir.replace_input((*sub.first)->get_input_port(0), input_connector);
             linear_ir.replace_input(output_connector->get_consumers(), (*mul.first)->get_output_port_connector(0));
 
@@ -136,24 +139,14 @@ bool SoftmaxDecomposition::run(LinearIR& linear_ir) {
             }
 
             // Update Loop info for outer loops
-            const auto entry_points = std::vector<ExpressionPort>{(*max.first)->get_input_port(0),
+            const auto entry_points = std::vector<ExpressionPort>{(*fill_max_tail.first)->get_input_port(0),
                                                                   (*sub.first)->get_input_port(0)};
             const auto exit_points = std::vector<ExpressionPort>{(*mul.first)->get_output_port(0)};
             for (auto loop_id : softmax_loop_ids) {
                 loop_manager->expression_replacement(vector_buffer_max.first, expr_it, softmax_expr, loop_id, entry_points, exit_points);
             }
 
             expr_it = linear_ir.erase(expr_it);   // Remove Softmax
-
-            /* =========================================== */
-
-            /* ============= Runtime Info ================ */
-
-            // For tail loop we should fill input of Max by float min and
-            // input of Sum by zero to avoid math incorrect calculations
-            // TODO [111383]: It should be covered via general pipeline (for example, via analyze in InsertTailLoop?)
-            max.second->input(0).get_rt_info()["set_fill"] = float_min_constant;
-            sum.second->input(0).get_rt_info()["set_fill"] = zero_constant;
             modified = true;
         }
     }
diff --git a/src/common/snippets/src/op/subgraph.cpp b/src/common/snippets/src/op/subgraph.cpp
@@ -410,6 +410,7 @@ void Subgraph::data_flow_transformations(const BlockedShapeVector& blocked_input
     manager.register_pass<snippets::pass::PropagatePrecision>(m_generator->get_target_machine());
     manager.register_pass<ov::pass::ConstantFolding>();
     manager.register_pass<snippets::pass::ConvertConstantsToScalars>();
+    manager.register_pass<ov::pass::Serialize>("/home/vgolubev/models/data_flow.xml", "");
 
     manager.register_positioned_passes(backend_passes);
     manager.run_passes(body_ptr());

Original file line number	Diff line number	Diff line change
`@@ -80,10 +80,10 @@ bool AssignRegisters::run(LinearIR& linear_ir) {`
`80`	`80`	`for (const auto& tensor : input_expr_input_tensors) {`
`81`	`81`	`const auto parent_expr = tensor->get_source().get_expr();`
`82`	`82`	`if (ov::is_type<op::Fill>(parent_expr->get_node())) {`
`83`		`- manually_assigned_vecs[tensor] = static_cast<Reg>(accumulator_reg);`
`84`	`83`	`if (ov::is_type<op::VectorBuffer>(parent_expr->get_input_port_connector(0)->get_source().get_expr()->get_node())) {`
	`84`	`+ manually_assigned_vecs[tensor] = static_cast<Reg>(accumulator_reg);`
`85`	`85`	`manually_assigned_vecs[parent_expr->get_input_port_connector(0)] = static_cast<Reg>(accumulator_reg);`
`86`		`- }`
	`86`	`+ }`
`87`	`87`	`}`
`88`	`88`	`}`
`89`	`89`	`const auto& output_tensor = expr->get_output_port_connector(0);`