pszmel
diff --git a/‎inference-engine/src/gna_plugin/backend/gna_limitations.hpp‎
Lines changed: 5 additions & 1 deletion b/‎inference-engine/src/gna_plugin/backend/gna_limitations.hpp‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎inference-engine/src/gna_plugin/gna_plugin.cpp‎
Lines changed: 2 additions & 0 deletions b/‎inference-engine/src/gna_plugin/gna_plugin.cpp‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎inference-engine/src/gna_plugin/transformations/handle_transposes_around_matmul.cpp‎
Lines changed: 43 additions & 18 deletions b/‎inference-engine/src/gna_plugin/transformations/handle_transposes_around_matmul.cpp‎
Lines changed: 43 additions & 18 deletions
diff --git a/‎inference-engine/src/gna_plugin/transformations/handle_transposes_around_matmul.hpp‎
Lines changed: 16 additions & 5 deletions b/‎inference-engine/src/gna_plugin/transformations/handle_transposes_around_matmul.hpp‎
Lines changed: 16 additions & 5 deletions
@@ -31,10 +31,14 @@ constexpr uint32_t maxPoolMaxWindowSize = 6;
 constexpr uint32_t copyMaxGrouping = 8;
 constexpr uint32_t transposeMaxSize = 65528;
 
+inline bool IsTranspose2d(const std::vector<size_t>& shape) {
+    return std::count_if(std::begin(shape), std::end(shape), [](size_t dim) { return dim != 1; }) == 2;
+}
+
 inline bool IsTransposeSupported(const std::vector<size_t>& shape) {
+    if (!IsTranspose2d(shape)) return false;
     auto shape_no_1 = shape;
     shape_no_1.erase(std::remove(shape_no_1.begin(), shape_no_1.end(), 1), shape_no_1.end());
-    if (shape_no_1.size() != 2) return false;
     size_t min, max;
     std::tie(min, max) = std::minmax(shape_no_1[0], shape_no_1[1]);
     return min <= 8 && max % 8 == 0 && max >= 8 && max <= transposeMaxSize;
 
@@ -711,6 +711,8 @@ void GNAPlugin::LoadNetwork(CNNNetwork & _network) {
         manager.register_pass<InsertReshapeAroundMatmulWithFq>();
         manager.register_pass<InsertReshapeAroundMatmulWithAdd>();
         manager.register_pass<InsertReshapeAroundMatmul>();
+        manager.register_pass<SwapInputMatMulWithTrailingTranspose>();
+        manager.register_pass<SwapInputMatMulWithAct>();
         manager.register_pass<SwapInputMatMulWithFq>();
         manager.register_pass<SwapInputMatMulWithBias>();
         manager.register_pass<SwapInputMatMul>();
 
@@ -34,7 +34,15 @@ void ReplaceTransposeWithReshape(std::shared_ptr<ngraph::Node> transpose_node) {
     transpose_node->output(0).replace(reshape_node->output(0));
 }
 
-void InsertTranspose(std::shared_ptr<ngraph::Node> prev_node, const std::string& base_name) {
+void InsertTranspose(std::shared_ptr<ngraph::Node> prev_node, const std::string& base_name, bool before_matmul) {
+    auto create_reshape = [](const ngraph::Shape& shape, std::shared_ptr<ngraph::Node> input_node, const std::string& name) {
+        auto reshape_const = std::make_shared<ngraph::opset8::Constant>(ngraph::element::Type_t::i64,
+            ngraph::Shape{shape.size()}, shape);
+        auto node = std::make_shared<ngraph::opset8::Reshape>(input_node, reshape_const, false);
+        node->set_friendly_name(name);
+        return node;
+    };
+
     auto consumers = prev_node->output(0).get_target_inputs();
     const auto orig_shape = prev_node->get_output_shape(0);
     std::vector<size_t> transpose_ids;
@@ -48,18 +56,29 @@ void InsertTranspose(std::shared_ptr<ngraph::Node> prev_node, const std::string&
     std::iota(std::begin(permute_order), std::end(permute_order), 0);
     std::swap(permute_order[transpose_ids[0]], permute_order[transpose_ids[1]]);
 
+    ngraph::NodeVector new_ops;
+    std::shared_ptr<ngraph::Node> node = prev_node;
+    if (!before_matmul) {
+        auto shape = prev_node->get_output_shape(0);
+        std::swap(shape[0], shape[1]);
+        node = create_reshape(shape, node, base_name + "/reshape_before_transpose");
+        new_ops.push_back(node);
+    }
+
     auto transpose_order = ngraph::opset8::Constant::create(ngraph::element::i64, ngraph::Shape{permute_order.size()}, permute_order);
-    auto transpose = std::make_shared<ngraph::opset8::Transpose>(prev_node, transpose_order);
-    transpose->set_friendly_name(base_name + "/in_transpose");
+    node = std::make_shared<ngraph::opset8::Transpose>(node, transpose_order);
+    node->set_friendly_name(base_name + "/in_transpose");
+    new_ops.push_back(node);
 
-    auto reshapeConstAfter = std::make_shared<ngraph::opset8::Constant>(ngraph::element::Type_t::i64,
-        ngraph::Shape{orig_shape.size()}, orig_shape);
-    auto reshapeAfter = std::make_shared<ngraph::opset8::Reshape>(transpose, reshapeConstAfter, false);
-    reshapeAfter->set_friendly_name(base_name + "/reshape_after_transpose");
-    ngraph::copy_runtime_info(prev_node, ngraph::NodeVector{transpose, reshapeAfter});
+    if (before_matmul) {
+        node = create_reshape(orig_shape, node, base_name + "/reshape_after_transpose");
+        new_ops.push_back(node);
+    }
+
+    ngraph::copy_runtime_info(prev_node, new_ops);
 
     for (auto input : consumers) {
-        input.replace_source_output(reshapeAfter);
+        input.replace_source_output(node);
     }
 }
 
@@ -94,24 +113,25 @@ HandleTransposeBeforeMatMul::HandleTransposeBeforeMatMul() {
             return false;
         }
 
+        auto matmul_node = matmul_iter->second.get_node_shared_ptr();
         auto transpose_reshape_it = pattern_map.find(transpose);
         if (transpose_reshape_it != std::end(pattern_map)) {
             ReplaceTransposeWithReshape(transpose_reshape_it->second.get_node_shared_ptr());
         } else if ((transpose_reshape_it = pattern_map.find(reshape)) != std::end(pattern_map)) {
             auto reshape_node = pattern_map.at(reshape).get_node_shared_ptr();
             if (GNALimitations::IsTransposeSupported(reshape_node->get_output_shape(0))) {
-                auto matmul_node = matmul_iter->second.get_node_shared_ptr();
-                InsertTranspose(reshape_node, matmul_node->get_friendly_name());
+                InsertTranspose(reshape_node, matmul_node->get_friendly_name(), true);
             }
         }
 
+        // Transpose the constant input if it's the first input
         auto iter = pattern_map.find(fq);
         if (iter != pattern_map.end() ||
             (iter = pattern_map.find(constant)) != pattern_map.end()) {
             auto prev_node = iter->second.get_node_shared_ptr();
-            if (!GNALimitations::IsTransposeSupported(prev_node->get_output_shape(0))) return false;
-            auto matmul_node = iter->second.get_node_shared_ptr();
-            InsertTranspose(prev_node, matmul_node->get_friendly_name());
+            if (GNALimitations::IsTranspose2d(prev_node->get_output_shape(0))) {
+                InsertTranspose(prev_node, prev_node->get_friendly_name(), true);
+            }
         }
         return true;
     };
@@ -129,7 +149,11 @@ HandleTransposeAfterMatMul::HandleTransposeAfterMatMul() {
     auto fq_input = std::make_shared<ngraph::pattern::op::Or>(ngraph::OutputVector{matmul, add_left, add_right});
     auto fq = ngraph::pattern::wrap_type<ngraph::opset8::FakeQuantize>({fq_input, ngraph::pattern::any_input(),
         ngraph::pattern::any_input(), ngraph::pattern::any_input(), ngraph::pattern::any_input()});
-    auto transpose_input = std::make_shared<ngraph::pattern::op::Or>(ngraph::OutputVector{fq_input, fq});
+    auto act_input = std::make_shared<ngraph::pattern::op::Or>(ngraph::OutputVector{fq_input, fq});
+    auto act = ngraph::pattern::wrap_type<ngraph::opset8::Relu, ngraph::opset8::Sigmoid,
+            ngraph::opset8::Tanh, ngraph::opset8::Abs, ngraph::opset8::Log, ngraph::opset8::Exp,
+            ngraph::opset8::Sign, ngraph::opset8::Clamp>({act_input});
+    auto transpose_input = std::make_shared<ngraph::pattern::op::Or>(ngraph::OutputVector{act_input, act});
     auto transpose = ngraph::pattern::wrap_type<ngraph::opset8::Transpose>({transpose_input, ngraph::pattern::any_input()});
     auto reshape_input = std::make_shared<ngraph::pattern::op::Or>(ngraph::OutputVector{transpose_input, transpose});
     auto reshape = ngraph::pattern::wrap_type<ngraph::opset8::Reshape>(
@@ -142,16 +166,17 @@ HandleTransposeAfterMatMul::HandleTransposeAfterMatMul() {
             ReplaceTransposeWithReshape(transpose_it->second.get_node_shared_ptr());
         } else {
             auto reshape_node = pattern_map.at(reshape).get_node_shared_ptr();
-            if (!GNALimitations::IsTransposeSupported(reshape_node->get_output_shape(0))) return false;
-            auto iter = pattern_map.find(fq);
+            if (!GNALimitations::IsTransposeSupported(reshape_node->get_input_shape(0))) return false;
+            auto iter = pattern_map.find(act);
             if (iter == pattern_map.end() &&
+                (iter = pattern_map.find(fq)) == pattern_map.end() &&
                 (iter = pattern_map.find(add_left)) == pattern_map.end() &&
                 (iter = pattern_map.find(add_right)) == pattern_map.end() &&
                 (iter = pattern_map.find(matmul)) == pattern_map.end()) {
                 return false;
             }
             auto node = iter->second.get_node_shared_ptr();
-            InsertTranspose(node, node->get_friendly_name());
+            InsertTranspose(node, node->get_friendly_name(), false);
         }
         return true;
     };
 
@@ -11,15 +11,18 @@ namespace GNAPluginNS {
 /**
  * @brief Inserts Transpose before MatMul or removes it (if it exists) if there is Reshape
  * before MatMul which changes the batch size:
- *    [1, A*B]                 [1, A*B]
+ *    [1, A*B]                [1, A*B]
  *       |                       |
  *    Reshape                 Reshape
  *       |                       |
- * [1, A, 1, B]            [1, A, 1, B]
+ *    [A, B]                  [A, B]
  *       |                       |
  *       |                   Transpose
  *       |           ->          |
- *       |           <-     [1, B, 1, A]
+ *       |           <-       [B, A]
+ *       |                       |
+ *       |                    Reshape
+ *       |                    [A, B]
  *       |                       |
  *    MatMul                   MatMul
  */
@@ -33,12 +36,20 @@ class HandleTransposeBeforeMatMul : public ngraph::pass::MatcherPass {
  * @brief Inserts Transpose after MatMul or removes it (if it exists) if there is Reshape
  * after MatMul which changes the batch size:
  *    MatMul                  MatMul
+ *    [A, B]                  [A, B]
+ *       |                       |
+ *     [Add]                   [Add]
+ *       |                       |
+ *  [FakeQuantize]        [FakeQuantize]
+ *       |                       |
+ *   [Activation]          [Activation]
  *       |                       |
- * [1, A, 1, B]            [1, A, 1, B]
+ *       |                    Reshape
+ *       |                    [B, A]
  *       |                       |
  *       |                   Transpose
  *       |           ->          |
- *       |           <-     [1, B, 1, A]
+ *       |           <-        [A, B]
  *       |                       |
  *    Reshape                 Reshape
  *       |                       |