nv-guomingz
diff --git a/‎cpp/micro_benchmarks/mixtureOfExpertsBackendBenchmarkFixture.h‎
Lines changed: 23 additions & 15 deletions b/‎cpp/micro_benchmarks/mixtureOfExpertsBackendBenchmarkFixture.h‎
Lines changed: 23 additions & 15 deletions
diff --git a/‎cpp/tensorrt_llm/cutlass_extensions/include/cutlass_extensions/gemm/kernel/fused_moe_kernel.cuh‎
Lines changed: 2 additions & 2 deletions b/‎cpp/tensorrt_llm/cutlass_extensions/include/cutlass_extensions/gemm/kernel/fused_moe_kernel.cuh‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎cpp/tensorrt_llm/cutlass_extensions/include/cutlass_extensions/gemm/kernel/fused_moe_kernel_routine.cuh‎
Lines changed: 2 additions & 2 deletions b/‎cpp/tensorrt_llm/cutlass_extensions/include/cutlass_extensions/gemm/kernel/fused_moe_kernel_routine.cuh‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎cpp/tensorrt_llm/cutlass_extensions/include/cutlass_extensions/gemm/kernel/fused_moe_kernel_traits.cuh‎
Lines changed: 2 additions & 2 deletions b/‎cpp/tensorrt_llm/cutlass_extensions/include/cutlass_extensions/gemm/kernel/fused_moe_kernel_traits.cuh‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/cutlass_kernels/CMakeLists.txt‎
Lines changed: 2 additions & 2 deletions b/‎cpp/tensorrt_llm/kernels/cutlass_kernels/CMakeLists.txt‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/cutlass_kernels/cutlass_heuristic.cpp‎
Lines changed: 18 additions & 18 deletions b/‎cpp/tensorrt_llm/kernels/cutlass_kernels/cutlass_heuristic.cpp‎
Lines changed: 18 additions & 18 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/cutlass_kernels/moe_gemm/launchers/fused_moe_gemm_launcher_sm80.inl‎
Lines changed: 8 additions & 8 deletions b/‎cpp/tensorrt_llm/kernels/cutlass_kernels/moe_gemm/launchers/fused_moe_gemm_launcher_sm80.inl‎
Lines changed: 8 additions & 8 deletions
@@ -549,6 +549,9 @@ class MixtureOfExpertsBenchmark : public ::benchmark::Fixture
     ActivationType mActType = ActivationType::Relu;
 
     constexpr static int64_t NUM_BUFFERS = 32;
+    int64_t mNumWorkspaceBuffers = NUM_BUFFERS;
+    int64_t mNumInputBuffers = NUM_BUFFERS;
+    int64_t mNumGemmProfilerBuffers = NUM_BUFFERS;
 
     std::array<QuantParams, NUM_BUFFERS> mQuantParams{};
     bool mUseLora = false;
@@ -619,12 +622,12 @@ class MixtureOfExpertsBenchmark : public ::benchmark::Fixture
 
         if (gemm_to_profile == GemmToProfile::LAYER)
         {
-
             mWorkspaceSize = mMoERunner.getWorkspaceSize(mTotalTokens, mHiddenSize, mInterSize, mNumExperts, mK,
                 mActType, parallelism_config, mUseLora, /*use_deepseek_fp8_block_scale=*/false,
                 /*min_latency_mode=*/false, mUsePrequantScale);
 
-            mWorkspace = allocBuffer<char>(mWorkspaceSize * NUM_BUFFERS);
+            mNumWorkspaceBuffers = mWorkspaceSize > 1024 * 1024 * 1024 ? 2 : NUM_BUFFERS;
+            mWorkspace = allocBuffer<char>(mWorkspaceSize * mNumWorkspaceBuffers);
 
             mExpertBias1 = nullptr;
             mExpertBias2 = nullptr;
@@ -690,9 +693,10 @@ class MixtureOfExpertsBenchmark : public ::benchmark::Fixture
             mScaleProbsSize = padSize(mTotalTokens * mK);
             mScaleProbs = allocBuffer<float>(mScaleProbsSize * NUM_BUFFERS);
             mInputTensorSize = padSize(mTotalTokens * mHiddenSize);
-            mInputTensor = allocBuffer<DataType>(mInputTensorSize * NUM_BUFFERS);
+            mNumInputBuffers = mInputTensorSize > 1024 * 1024 * 1024 ? 2 : NUM_BUFFERS;
+            mInputTensor = allocBuffer<DataType>(mInputTensorSize * mNumInputBuffers);
             mFinalOutputSize = padSize(mTotalTokens * mHiddenSize);
-            mFinalOutput = allocBuffer<OutputType>(mFinalOutputSize * NUM_BUFFERS);
+            mFinalOutput = allocBuffer<OutputType>(mFinalOutputSize * mNumInputBuffers);
 
             mSourceToExpandedMapSize = padSize(mTotalTokens * mK);
             mSourceToExpandedMap = allocBuffer<int>(mSourceToExpandedMapSize * NUM_BUFFERS);
@@ -732,10 +736,11 @@ class MixtureOfExpertsBenchmark : public ::benchmark::Fixture
                 = std::max(mGemmProfilerWorkspaceSize, mGemmProfilerBackend.getWorkspaceSize(mTotalTokens));
         }
 
-        int64_t num_gemm_buffers = gemm_to_profile == GemmToProfile::LAYER ? 1 : NUM_BUFFERS;
         mGemmProfilerWorkspaceSize = padSize(mGemmProfilerWorkspaceSize);
+        mNumGemmProfilerBuffers = mGemmProfilerWorkspaceSize > 1024 * 1024 * 1024 ? 2 : NUM_BUFFERS;
+        mNumGemmProfilerBuffers = gemm_to_profile == GemmToProfile::LAYER ? 1 : mNumGemmProfilerBuffers;
         mGemmProfilerWorkspace = mGemmProfilerWorkspaceSize > 0
-            ? allocBuffer<char>(mGemmProfilerWorkspaceSize * num_gemm_buffers)
+            ? allocBuffer<char>(mGemmProfilerWorkspaceSize * mNumGemmProfilerBuffers)
             : nullptr;
 
         check_cuda_error(cudaStreamSynchronize(streamPtr->get()));
@@ -748,7 +753,8 @@ class MixtureOfExpertsBenchmark : public ::benchmark::Fixture
         mGemmProfilerBackend.mGemmToProfile = static_cast<GemmProfilerBackend::GemmToProfile>(gemm_to_profile);
         auto* expert_weights = gemm_to_profile == GemmToProfile::GEMM_1 ? mExpertWeight1 : mExpertWeight2;
         auto expert_weights_size = gemm_to_profile == GemmToProfile::GEMM_1 ? mExpertWeight1Size : mExpertWeight2Size;
-        mGemmProfilerBackend.prepare(mTotalTokens, mGemmProfilerWorkspace + mGemmProfilerWorkspaceSize * mBufferIndex,
+        mGemmProfilerBackend.prepare(mTotalTokens,
+            mGemmProfilerWorkspace + mGemmProfilerWorkspaceSize * (mBufferIndex % mNumGemmProfilerBuffers),
             /*expert_weights=*/expert_weights + expert_weights_size * mBufferIndex, streamPtr->get());
     }
 
@@ -865,7 +871,7 @@ class MixtureOfExpertsBenchmark : public ::benchmark::Fixture
                 }
 
                 // Profile all samples or for 1 sec
-                int const max_iters = mGemmProfilerBackend.NUM_ROUTING_SAMPLES;
+                int const max_iters = mGemmProfilerBackend.NUM_ROUTING_SAMPLES * 2;
                 float const max_time_ms = 1000.f;
 
                 float time = 0.f;
@@ -974,7 +980,7 @@ class MixtureOfExpertsBenchmark : public ::benchmark::Fixture
             }
             mGemmProfilerBackend.mSampleIndex = mBufferIndex % mGemmProfilerBackend.NUM_ROUTING_SAMPLES;
             mGemmProfilerBackend.runProfiler(mTotalTokens, tactics,
-                mGemmProfilerWorkspace + mGemmProfilerWorkspaceSize * mBufferIndex,
+                mGemmProfilerWorkspace + mGemmProfilerWorkspaceSize * (mBufferIndex % mNumGemmProfilerBuffers),
                 /*expert_weights=*/expert_weights + expert_weights_size * mBufferIndex, streamPtr->get());
             break;
         }
@@ -983,26 +989,28 @@ class MixtureOfExpertsBenchmark : public ::benchmark::Fixture
             auto stream = streamPtr->get();
             MoeMinLatencyParams min_latency_params;
 #ifdef USING_OSS_CUTLASS_MOE_GEMM
-            mMoERunner.runMoe(mInputTensor + mInputTensorSize * mBufferIndex, nullptr, true,
+            mMoERunner.runMoe(mInputTensor + mInputTensorSize * (mBufferIndex % mNumInputBuffers), nullptr, true,
                 mSelectedExperts + mSelectedExpertsSize * mBufferIndex,
                 mUseFinalScale ? mScaleProbs + mScaleProbsSize * mBufferIndex : nullptr,
                 mExpertWeight1 + mExpertWeight1Size * mBufferIndex, mExpertBias1 + mExpertBias1Size * mBufferIndex,
                 ActivationParams(mActType), mExpertWeight2 + mExpertWeight2Size * mBufferIndex,
                 mExpertBias2 + mExpertBias2Size * mBufferIndex, mQuantParams[mBufferIndex], mTotalTokens, mHiddenSize,
-                mHiddenSize, mInterSize, mNumExperts, mK, mWorkspace + mWorkspaceSize * mBufferIndex,
-                mFinalOutput + mFinalOutputSize * mBufferIndex,
+                mHiddenSize, mInterSize, mNumExperts, mK,
+                mWorkspace + mWorkspaceSize * (mBufferIndex % mNumWorkspaceBuffers),
+                mFinalOutput + mFinalOutputSize * (mBufferIndex % mNumInputBuffers),
                 mSourceToExpandedMap + mSourceToExpandedMapSize * mBufferIndex, parallelism_config,
                 /*enable_alltoall=*/false, mUseLora, mLoraParams[mBufferIndex],
                 /*use_fp8_block_scaling=*/false, /*min_latency_mode=*/false, min_latency_params, stream);
 #else
-            mMoERunner.runMoe(mInputTensor + mInputTensorSize * mBufferIndex, nullptr, true,
+            mMoERunner.runMoe(mInputTensor + mInputTensorSize * (mBufferIndex % mNumInputBuffers), nullptr, true,
                 mSelectedExperts + mSelectedExpertsSize * mBufferIndex,
                 mUseFinalScale ? mScaleProbs + mScaleProbsSize * mBufferIndex : nullptr,
                 mExpertWeight1 + mExpertWeight1Size * mBufferIndex, mExpertBias1 + mExpertBias1Size * mBufferIndex,
                 ActivationParams(mActType), mExpertWeight2 + mExpertWeight2Size * mBufferIndex,
                 mExpertBias2 + mExpertBias2Size * mBufferIndex, mQuantParams[mBufferIndex], mTotalTokens, mHiddenSize,
-                mHiddenSize, mInterSize, mNumExperts, mK, mWorkspace + mWorkspaceSize * mBufferIndex,
-                mFinalOutput + mFinalOutputSize * mBufferIndex,
+                mHiddenSize, mInterSize, mNumExperts, mK,
+                mWorkspace + mWorkspaceSize * (mBufferIndex % mNumWorkspaceBuffers),
+                mFinalOutput + mFinalOutputSize * (mBufferIndex % mNumInputBuffers),
                 mSourceToExpandedMap + mSourceToExpandedMapSize * mBufferIndex, parallelism_config,
                 /*enable_alltoall=*/false, mUseLora, mLoraParams[mBufferIndex],
                 /*use_fp8_block_scaling=*/false, /*min_latency_mode=*/false, min_latency_params, stream);
 
@@ -22,7 +22,7 @@
 #include <cutlass_extensions/gemm/kernel/fused_moe_kernel_traits.cuh>
 #include <cutlass_extensions/gemm/kernel/moe_problem_visitor.h>
 
-namespace fused_moe
+namespace fused_moe_oss
 {
 template <typename ElementInput_, typename ElementWeight_, typename ElementOutput_, int MaxTileM_, int TileN_,
     int TileK_, int Stages_, Activation_Type activation_type_>
@@ -215,4 +215,4 @@ static int fused_gemm_maximum_active_blocks(int smem_capacity = -1)
     CUTLASS_TRACE_HOST("  max_active_blocks: " << max_active_blocks);
     return max_active_blocks;
 }
-} // namespace fused_moe
+} // namespace fused_moe_oss
@@ -18,7 +18,7 @@
 #pragma once
 #include <cutlass_extensions/gemm/kernel/fused_moe_kernel_traits.cuh>
 
-namespace fused_moe
+namespace fused_moe_oss
 {
 
 template <typename ElementInput_, typename ElementWeight_, typename ElementOutput_, int TileM_, int TileN_, int TileK_,
@@ -798,4 +798,4 @@ struct Fused_Moe_Kernel_routine_sm80<ElementInput_, ElementWeight_, ElementOutpu
     }
 };
 
-} // namespace fused_moe
+} // namespace fused_moe_oss
@@ -22,7 +22,7 @@
 #include <cutlass_extensions/gemm/kernel/moe_cute_util.cuh>
 #include <cutlass_extensions/gemm/kernel/moe_problem_visitor.h>
 
-namespace fused_moe
+namespace fused_moe_oss
 {
 template <typename ElementInput, typename ElementWeight, typename ElementOutput>
 struct Routine_Arguments
@@ -212,4 +212,4 @@ struct Fused_Moe_Kernel_traits_sm80
 
     // #endif
 };
-} // namespace fused_moe
+} // namespace fused_moe_oss
@@ -138,8 +138,8 @@ function(add_instantiations library base_dir)
     endif()
   endmacro()
 
-  glob_src_create_target(80 "80;86;90;100f;120f") # we use 80 kernels to support
-                                                  # fp16 of all archs
+  glob_src_create_target(80 "80;86;90;100f;120f") # we use sm80 kernels to
+                                                  # support fp16 of all archs
   glob_src_create_target(90 90)
   glob_src_create_target(100 100f)
   glob_src_create_target(103 103)
 
@@ -367,9 +367,9 @@ std::vector<CutlassGemmConfig> get_candidate_configs_sm90(CutlassGemmConfig::Can
     return candidate_configs;
 }
 
-std::vector<CutlassGemmConfig> get_candidate_configs_sm100_dynamic_cluster_shape(
+std::vector<CutlassGemmConfig> get_candidate_configs_sm100_dynamic_cluster_shape(int sm,
     CutlassGemmConfig::CandidateConfigTypeParam const config, EpilogueScheduleType schedule,
-    ClusterShape const dynamic_cluster_shape, ClusterShape const fallback_cluster_shape, int sm)
+    ClusterShape const dynamic_cluster_shape, ClusterShape const fallback_cluster_shape)
 {
     auto cluster1sm = ClusterShape::ClusterShape_1x1x1;
     auto cluster2sm = ClusterShape::ClusterShape_2x1x1;
@@ -379,8 +379,20 @@ std::vector<CutlassGemmConfig> get_candidate_configs_sm100_dynamic_cluster_shape
     std::vector<CutlassGemmConfig> candidate_configs;
     if ((config & CutlassGemmConfig::FP4_ONLY) != 0)
     {
-        if (schedule != EpilogueScheduleType::TMA)
-            return {};
+        if (sm == 100)
+        {
+            if (schedule != EpilogueScheduleType::TMA)
+                return {};
+            candidate_configs.push_back(CutlassGemmConfig{CutlassTileConfigSM100::CtaShape128x64x128B,
+                MainloopScheduleType::AUTO, schedule, cluster1sm, dynamic_cluster_shape, fallback_cluster_shape, sm});
+            if (supports_2sm)
+            {
+                candidate_configs.push_back(
+                    CutlassGemmConfig{CutlassTileConfigSM100::CtaShape128x64x128B, MainloopScheduleType::AUTO, schedule,
+                        cluster2sm, dynamic_cluster_shape, fallback_cluster_shape, sm});
+            }
+        }
+
         candidate_configs.push_back(CutlassGemmConfig{CutlassTileConfigSM100::CtaShape128x128x128B,
             MainloopScheduleType::AUTO, schedule, cluster1sm, dynamic_cluster_shape, fallback_cluster_shape, sm});
         candidate_configs.push_back(CutlassGemmConfig{CutlassTileConfigSM100::CtaShape128x256x128B,
@@ -392,18 +404,6 @@ std::vector<CutlassGemmConfig> get_candidate_configs_sm100_dynamic_cluster_shape
             candidate_configs.push_back(CutlassGemmConfig{CutlassTileConfigSM100::CtaShape128x256x128B,
                 MainloopScheduleType::AUTO, schedule, cluster2sm, dynamic_cluster_shape, fallback_cluster_shape, sm});
         }
-        if (sm == 103)
-        {
-            return candidate_configs;
-        }
-
-        candidate_configs.push_back(CutlassGemmConfig{CutlassTileConfigSM100::CtaShape128x64x128B,
-            MainloopScheduleType::AUTO, schedule, cluster1sm, dynamic_cluster_shape, fallback_cluster_shape, sm});
-        if (supports_2sm)
-        {
-            candidate_configs.push_back(CutlassGemmConfig{CutlassTileConfigSM100::CtaShape128x64x128B,
-                MainloopScheduleType::AUTO, schedule, cluster2sm, dynamic_cluster_shape, fallback_cluster_shape, sm});
-        }
         return candidate_configs;
     }
 
@@ -468,12 +468,12 @@ std::vector<CutlassGemmConfig> get_candidate_configs_sm100(
                     ? ClusterShape::ClusterShape_1x1x1
                     : ClusterShape::ClusterShape_2x1x1;
                 auto configs = get_candidate_configs_sm100_dynamic_cluster_shape(
-                    config, schedule, cluster_shape, fallback_cluster_shape, sm);
+                    sm, config, schedule, cluster_shape, fallback_cluster_shape);
                 candidate_configs.insert(candidate_configs.end(), configs.begin(), configs.end());
             }
 
             auto configs = get_candidate_configs_sm100_dynamic_cluster_shape(
-                config, schedule, ClusterShape::Undefined, ClusterShape::Undefined, sm);
+                sm, config, schedule, ClusterShape::Undefined, ClusterShape::Undefined);
             candidate_configs.insert(candidate_configs.end(), configs.begin(), configs.end());
         }
         return candidate_configs;
 
@@ -36,9 +36,9 @@ void sm80_generic_fused_moe_gemm_kernelLauncher(ElementType_ const* A, CutlassWe
     int64_t num_rows, int64_t gemm_n, int64_t gemm_k, int num_experts, int multi_processor_count, cudaStream_t stream,
     int* kernel_occupancy)
 {
-    constexpr auto activation_type = fused_moe::EpilogueRouting<EpilogueTag>(true);
-    using GemmType = fused_moe::Fused_Moe_Kernel_sm80<ElementType_, CutlassWeightType_, ElementType_, MaxTileM_, TileN_,
-        TileK_, Stages_, activation_type>;
+    constexpr auto activation_type = fused_moe_oss::EpilogueRouting<EpilogueTag>(true);
+    using GemmType = fused_moe_oss::Fused_Moe_Kernel_sm80<ElementType_, CutlassWeightType_, ElementType_, MaxTileM_,
+        TileN_, TileK_, Stages_, activation_type>;
 
     // make sure GPU has enough resources..
     if (kernel_occupancy != nullptr)
@@ -53,7 +53,7 @@ void sm80_generic_fused_moe_gemm_kernelLauncher(ElementType_ const* A, CutlassWe
             tensorrt_llm::common::check_cuda_error(cudaGetDevice(&device));
             tensorrt_llm::common::check_cuda_error(
                 cudaDeviceGetAttribute(&max_smem_per_block, cudaDevAttrMaxSharedMemoryPerBlockOptin, device));
-            tensorrt_llm::common::check_cuda_error(cudaFuncGetAttributes(&attr, fused_moe::run_global<GemmType>));
+            tensorrt_llm::common::check_cuda_error(cudaFuncGetAttributes(&attr, fused_moe_oss::run_global<GemmType>));
             if (smem_size + attr.sharedSizeBytes >= static_cast<size_t>(max_smem_per_block))
             {
                 // This should mean that
@@ -67,11 +67,11 @@ void sm80_generic_fused_moe_gemm_kernelLauncher(ElementType_ const* A, CutlassWe
 
         int max_active_blocks = -1;
         tensorrt_llm::common::check_cuda_error(cudaOccupancyMaxActiveBlocksPerMultiprocessor(
-            &max_active_blocks, fused_moe::run_global<GemmType>, GemmType::kThreadCount, smem_size));
+            &max_active_blocks, fused_moe_oss::run_global<GemmType>, GemmType::kThreadCount, smem_size));
         *kernel_occupancy = max_active_blocks;
         return;
     }
-    int occupancy = std::min(2, fused_moe::fused_gemm_maximum_active_blocks<GemmType>());
+    int occupancy = std::min(2, fused_moe_oss::fused_gemm_maximum_active_blocks<GemmType>());
     int const threadblock_count = multi_processor_count * occupancy;
     TLLM_CHECK_WITH_INFO(occupancy > 0, "GPU lacks the shared memory resources to run fused_moe kernel");
     using Arguments = typename GemmType::Arguments;
@@ -83,13 +83,13 @@ void sm80_generic_fused_moe_gemm_kernelLauncher(ElementType_ const* A, CutlassWe
     if (GemmType::kSmemSize >= (48 << 10))
     {
         cudaError_t result = cudaFuncSetAttribute(
-            fused_moe::run_global<GemmType>, cudaFuncAttributeMaxDynamicSharedMemorySize, GemmType::kSmemSize);
+            fused_moe_oss::run_global<GemmType>, cudaFuncAttributeMaxDynamicSharedMemorySize, GemmType::kSmemSize);
         TLLM_CHECK_WITH_INFO(result == cudaSuccess,
             "Fail to set the max smem size to " + std::to_string(GemmType::kSmemSize) + " for fused moe kernel");
     }
     dim3 grid(params.threadblock_count, 1, 1);
     dim3 block(GemmType::kThreadCount);
-    fused_moe::run_global<GemmType><<<grid, block, GemmType::kSmemSize, stream>>>(params);
+    fused_moe_oss::run_global<GemmType><<<grid, block, GemmType::kSmemSize, stream>>>(params);
     auto result = cudaGetLastError();
     TLLM_CHECK_WITH_INFO(result == cudaSuccess, "Fail to execute fused moe kernel, cuda error %d\n", (int) (result));
 }
Original file line number	Diff line number	Diff line change
`@@ -22,7 +22,7 @@`
`22`	`22`	`#include <cutlass_extensions/gemm/kernel/fused_moe_kernel_traits.cuh>`
`23`	`23`	`#include <cutlass_extensions/gemm/kernel/moe_problem_visitor.h>`
`24`	`24`
`25`		`-namespace fused_moe`
	`25`	`+namespace fused_moe_oss`
`26`	`26`	`{`
`27`	`27`	`template <typename ElementInput_, typename ElementWeight_, typename ElementOutput_, int MaxTileM_, int TileN_,`
`28`	`28`	`int TileK_, int Stages_, Activation_Type activation_type_>`
`@@ -215,4 +215,4 @@ static int fused_gemm_maximum_active_blocks(int smem_capacity = -1)`
`215`	`215`	`CUTLASS_TRACE_HOST(" max_active_blocks: " << max_active_blocks);`
`216`	`216`	`return max_active_blocks;`
`217`	`217`	`}`
`218`		`-} // namespace fused_moe`
	`218`	`+} // namespace fused_moe_oss`
Original file line number	Diff line number	Diff line change
`@@ -18,7 +18,7 @@`
`18`	`18`	`#pragma once`
`19`	`19`	`#include <cutlass_extensions/gemm/kernel/fused_moe_kernel_traits.cuh>`
`20`	`20`
`21`		`-namespace fused_moe`
	`21`	`+namespace fused_moe_oss`
`22`	`22`	`{`
`23`	`23`
`24`	`24`	`template <typename ElementInput_, typename ElementWeight_, typename ElementOutput_, int TileM_, int TileN_, int TileK_,`
`@@ -798,4 +798,4 @@ struct Fused_Moe_Kernel_routine_sm80<ElementInput_, ElementWeight_, ElementOutpu`
`798`	`798`	`}`
`799`	`799`	`};`
`800`	`800`
`801`		`-} // namespace fused_moe`
	`801`	`+} // namespace fused_moe_oss`