Silv3S
diff --git a/‎test/inductor/test_mkldnn_pattern_matcher.py‎
Lines changed: 84 additions & 0 deletions b/‎test/inductor/test_mkldnn_pattern_matcher.py‎
Lines changed: 84 additions & 0 deletions
diff --git a/‎torch/_inductor/fx_passes/quantization.py‎
Lines changed: 50 additions & 24 deletions b/‎torch/_inductor/fx_passes/quantization.py‎
Lines changed: 50 additions & 24 deletions
diff --git a/‎torch/_inductor/mkldnn_ir.py‎
Lines changed: 3 additions & 3 deletions b/‎torch/_inductor/mkldnn_ir.py‎
Lines changed: 3 additions & 3 deletions
@@ -1164,6 +1164,25 @@ def matcher_check_fn():
             quantization_with_autocast=quantization_with_autocast,
         )
 
+        if torch._inductor.config.cpp_wrapper:
+            self._test_code_common(
+                mod,
+                (v,),
+                [f"aoti_torch_{device}__qconv_pointwise_tensor"],
+                [],
+                check_quantization=True,
+                num_include_ops=[3],
+            )
+        else:
+            self._test_code_common(
+                mod,
+                (v,),
+                ["torch.ops.onednn.qconv_pointwise.tensor"],
+                [],
+                check_quantization=True,
+                num_include_ops=[3],
+            )
+
     @skipIfNoDynamoSupport
     @skipIfNoONEDNN
     @skipIfRocm
@@ -1270,6 +1289,25 @@ def matcher_check_fn():
             matcher_check_fn=matcher_check_fn,
         )
 
+        if torch._inductor.config.cpp_wrapper:
+            self._test_code_common(
+                mod,
+                (v,),
+                [f"aoti_torch_{device}__qconv_pointwise_tensor"],
+                [],
+                check_quantization=True,
+                num_include_ops=[2],
+            )
+        else:
+            self._test_code_common(
+                mod,
+                (v,),
+                ["torch.ops.onednn.qconv_pointwise.tensor"],
+                [],
+                check_quantization=True,
+                num_include_ops=[2],
+            )
+
     @skipIfNoDynamoSupport
     @skipIfNoONEDNN
     def test_qconv2d_relu_cpu(self):
@@ -1548,6 +1586,32 @@ def matcher_check_fn():
                 check_autocast=torch.bfloat16 if int8_mixed_bf16 else torch.float,
             )
 
+            if not TEST_ACL:
+                if torch._inductor.config.cpp_wrapper:
+                    self._test_code_common(
+                        mod,
+                        (v,),
+                        [
+                            f"aoti_torch_{device}__qconv_pointwise_tensor",
+                            f"aoti_torch_{device}__qconv2d_pointwise_binary_tensor",
+                        ],
+                        [],
+                        check_quantization=True,
+                        num_include_ops=[2, 2],
+                    )
+                else:
+                    self._test_code_common(
+                        mod,
+                        (v,),
+                        [
+                            "torch.ops.onednn.qconv_pointwise.tensor",
+                            "torch.ops.onednn.qconv2d_pointwise.binary_tensor",
+                        ],
+                        [],
+                        check_quantization=True,
+                        num_include_ops=[2, 2],
+                    )
+
     def _qconv2d_add_test_helper2(
         self, device="cpu", use_relu=False, int8_mixed_bf16=False
     ):
@@ -1645,6 +1709,26 @@ def matcher_check_fn():
                 check_autocast=torch.bfloat16 if int8_mixed_bf16 else torch.float,
             )
 
+            if not TEST_ACL:
+                if torch._inductor.config.cpp_wrapper:
+                    self._test_code_common(
+                        mod,
+                        (x, x2, x3),
+                        [f"aoti_torch_{device}__qconv2d_pointwise_binary_tensor"],
+                        [],
+                        check_quantization=True,
+                        num_include_ops=[2],
+                    )
+                else:
+                    self._test_code_common(
+                        mod,
+                        (x, x2, x3),
+                        ["torch.ops.onednn.qconv2d_pointwise.binary_tensor"],
+                        [],
+                        check_quantization=True,
+                        num_include_ops=[2],
+                    )
+
     @skipIfNoDynamoSupport
     @skipIfNoONEDNN
     def test_qconv2d_add_cpu(self):
 
@@ -179,9 +179,14 @@ def get_dequantize_per_tensor_activation_pattern(is_tensor_overload=False):
 )
 
 
-def get_qconv_pt2e_pattern(users=1):
+def get_qconv_pt2e_pattern(x_scale_zp_are_tensors=False, users=1):
+    qconv_op = (
+        torch.ops.onednn.qconv_pointwise.tensor
+        if x_scale_zp_are_tensors
+        else torch.ops.onednn.qconv_pointwise.default
+    )
     return CallFunction(
-        torch.ops.onednn.qconv_pointwise.default,
+        qconv_op,
         KeywordArg("x"),
         KeywordArg("x_scale"),
         KeywordArg("x_zp"),
@@ -203,9 +208,14 @@ def get_qconv_pt2e_pattern(users=1):
     )
 
 
-def get_qconv2d_binary_pt2e_pattern(users=1):
+def get_qconv2d_binary_pt2e_pattern(x_scale_zp_are_tensors=False, users=1):
+    qconv_op = (
+        torch.ops.onednn.qconv2d_pointwise.binary_tensor
+        if x_scale_zp_are_tensors
+        else torch.ops.onednn.qconv2d_pointwise.binary
+    )
     return CallFunction(
-        torch.ops.onednn.qconv2d_pointwise.binary,
+        qconv_op,
         KeywordArg("x"),
         KeywordArg("x_scale"),
         KeywordArg("x_zp"),
@@ -431,7 +441,13 @@ def qconv(match: Match, *args, **kwargs):
             kwargs["groups"],
         )
         output_dtype = _get_pattern_output_dtype(match)
-        assert output_dtype in [torch.int8, torch.uint8, torch.float32, torch.bfloat16]
+        assert output_dtype in [
+            torch.int8,
+            torch.uint8,
+            torch.float8_e4m3fn,
+            torch.float32,
+            torch.bfloat16,
+        ]
         # Output QParams
         o_inv_scale = kwargs["output_scale"]
         o_zero_point = kwargs["output_zero_point"]
@@ -816,12 +832,17 @@ def qconv_binary(match: Match, *args, **kwargs):
 
 def _register_quantization_unary_lowering():
     # QConv2d
-    for users in [1, 2]:
-        qconv_pattern = get_qconv_pt2e_pattern(users)
+    for x_scale_zp_are_tensors, users in itertools.product([False, True], [1, 2]):
+        qconv_pattern = get_qconv_pt2e_pattern(x_scale_zp_are_tensors, users)
+        computation_op = (
+            torch.ops.onednn.qconv_pointwise.tensor
+            if x_scale_zp_are_tensors
+            else torch.ops.onednn.qconv_pointwise.default
+        )
         _register_quantized_conv_lowering(
             qconv_pattern,
             2,  # pass_number
-            torch.ops.onednn.qconv_pointwise.default,  # computation_op
+            computation_op,
         )
 
     # QLinear
@@ -841,12 +862,17 @@ def _register_quantization_unary_lowering():
 
 def _register_quantization_binary_lowering():
     # QConv2d
-    for users in (1, 2):
-        qconv_pattern = get_qconv2d_binary_pt2e_pattern(users)
+    for x_scale_zp_are_tensors, users in itertools.product([False, True], [1, 2]):
+        qconv_pattern = get_qconv2d_binary_pt2e_pattern(x_scale_zp_are_tensors, users)
+        computation_op = (
+            torch.ops.onednn.qconv2d_pointwise.binary_tensor
+            if x_scale_zp_are_tensors
+            else torch.ops.onednn.qconv2d_pointwise.binary
+        )
         _register_quantized_conv_binary_lowering(
             qconv_pattern,
             2,  # pass_number
-            torch.ops.onednn.qconv2d_pointwise.binary,  # computation_op
+            computation_op,
         )
 
     # QLinear
@@ -3027,21 +3053,21 @@ def _register_qconv_unary_fusion():
             PostOpAttr(
                 "none", None, "none", [], ""
             ): generate_pattern_with_output_quant(
-                get_qconv_pt2e_pattern(1),
+                get_qconv_pt2e_pattern(users=1),
             ),
             PostOpAttr(
                 "none", None, "relu", [], ""
             ): generate_pattern_with_output_quant(
                 generate_pattern_with_unary(
-                    get_qconv_pt2e_pattern(1), aten.relu.default
+                    get_qconv_pt2e_pattern(users=1), aten.relu.default
                 ),
             ),
             PostOpAttr(
                 "none", None, "hardtanh", [], ""
             ): generate_pattern_with_output_quant(
                 _unary_fusion_pattern(
                     _hardtanh_fusion,
-                    get_qconv_pt2e_pattern(1),
+                    get_qconv_pt2e_pattern(users=1),
                     1,
                     is_bf16,
                 ),
@@ -3052,7 +3078,7 @@ def _register_qconv_unary_fusion():
             ): generate_pattern_with_output_quant(
                 _unary_fusion_pattern(
                     _hardswish_fusion,
-                    get_qconv_pt2e_pattern(1 if is_bf16 else 2),
+                    get_qconv_pt2e_pattern(users=1 if is_bf16 else 2),
                     2,
                     is_bf16,
                 ),
@@ -3063,7 +3089,7 @@ def _register_qconv_unary_fusion():
             ): generate_pattern_with_output_quant(
                 _unary_fusion_pattern(
                     _silu_fusion,
-                    get_qconv_pt2e_pattern(1 if is_bf16 else 2),
+                    get_qconv_pt2e_pattern(users=1 if is_bf16 else 2),
                     2,
                     is_bf16,
                 ),
@@ -3083,14 +3109,14 @@ def _register_qconv_unary_fusion():
         # Priority 2 to match: QConv2d Unary pattern with fp32/bfloat16 output
         conv_unary_replace_float_out_patterns = {
             PostOpAttr("none", None, "relu", [], ""): generate_pattern_with_unary(
-                get_qconv_pt2e_pattern(1), aten.relu.default
+                get_qconv_pt2e_pattern(users=1), aten.relu.default
             ),
             PostOpAttr(
                 "none", None, "hardtanh", [], ""
             ): _may_generate_pattern_with_dtype_convert(
                 _unary_fusion_pattern(
                     _hardtanh_fusion,
-                    get_qconv_pt2e_pattern(1),
+                    get_qconv_pt2e_pattern(users=1),
                     1,
                     is_bf16,
                 ),
@@ -3102,7 +3128,7 @@ def _register_qconv_unary_fusion():
             ): _may_generate_pattern_with_dtype_convert(
                 _unary_fusion_pattern(
                     _hardswish_fusion,
-                    get_qconv_pt2e_pattern(1 if is_bf16 else 2),
+                    get_qconv_pt2e_pattern(users=1 if is_bf16 else 2),
                     2,
                     is_bf16,
                 ),
@@ -3114,7 +3140,7 @@ def _register_qconv_unary_fusion():
             ): _may_generate_pattern_with_dtype_convert(
                 _unary_fusion_pattern(
                     _silu_fusion,
-                    get_qconv_pt2e_pattern(1 if is_bf16 else 2),
+                    get_qconv_pt2e_pattern(users=1 if is_bf16 else 2),
                     2,
                     is_bf16,
                 ),
@@ -3146,7 +3172,7 @@ def _register_qconv_binary_fusion():
                     ): generate_pattern_with_output_quant(
                         generate_pattern_with_binary(
                             aten.add.Tensor,
-                            get_qconv_pt2e_pattern(1),
+                            get_qconv_pt2e_pattern(users=1),
                             dequantize_accum_pattern,
                             int8_mixed_bf16_with_inplace_add,
                             swap_inputs=swap_inputs,
@@ -3158,7 +3184,7 @@ def _register_qconv_binary_fusion():
                         generate_pattern_with_unary(
                             generate_pattern_with_binary(
                                 aten.add.Tensor,
-                                get_qconv_pt2e_pattern(1),
+                                get_qconv_pt2e_pattern(users=1),
                                 dequantize_accum_pattern,
                                 int8_mixed_bf16_with_inplace_add,
                                 swap_inputs=swap_inputs,
@@ -3185,7 +3211,7 @@ def _register_qconv_binary_fusion():
                     PostOpAttr("sum", 1.0, "relu", [], ""): generate_pattern_with_unary(
                         generate_pattern_with_binary(
                             aten.add.Tensor,
-                            get_qconv_pt2e_pattern(1),
+                            get_qconv_pt2e_pattern(users=1),
                             KeywordArg("accum_after_dequant"),
                             int8_mixed_bf16_with_inplace_add,
                             swap_inputs=swap_inputs,
@@ -3223,7 +3249,7 @@ def _register_qconv_binary_fusion():
                         "sum", 1.0, "none", [], ""
                     ): generate_pattern_with_binary(
                         aten.add.Tensor,
-                        get_qconv_pt2e_pattern(1),
+                        get_qconv_pt2e_pattern(users=1),
                         KeywordArg("accum_after_dequant"),
                         int8_mixed_bf16_with_inplace_add,
                         swap_inputs=swap_inputs,
 
@@ -603,7 +603,7 @@ def __init__(
             inputs,
             constant_args,
             None,
-            op_overload=torch.ops.onednn.qconv_pointwise.default,
+            op_overload=torch.ops.onednn.qconv_pointwise.tensor,
             cpp_kernel_name=f"aoti_torch_{self.device_type}__qconv_pointwise_tensor",
         )
 
@@ -623,7 +623,7 @@ def create(
         x_zero_point: Union["ShapeAsConstantBuffer", "TensorBox"],
         qw: "TensorBox",  # qw
         w_scale: "TensorBox",
-        w_zero_point: "TensorBox",
+        w_zero_point,
         bias: "TensorBox",
         stride: list[int],
         padding: list[int],
@@ -711,7 +711,7 @@ def __init__(
             inputs,
             constant_args,
             None,
-            op_overload=torch.ops.onednn.qconv2d_pointwise.binary,
+            op_overload=torch.ops.onednn.qconv2d_pointwise.binary_tensor,
             cpp_kernel_name=(
                 f"aoti_torch_{self.device_type}__qconv2d_pointwise_binary_tensor"
             ),