intel
diff --git a/‎sycl/source/detail/kernel_name_based_cache_t.hpp renamed to ‎sycl/include/sycl/detail/kernel_name_based_cache_t.hpp
Lines changed: 10 additions & 7 deletions b/‎sycl/source/detail/kernel_name_based_cache_t.hpp renamed to ‎sycl/include/sycl/detail/kernel_name_based_cache_t.hpp
Lines changed: 10 additions & 7 deletions
diff --git a/‎sycl/include/sycl/khr/free_function_commands.hpp
Lines changed: 23 additions & 18 deletions b/‎sycl/include/sycl/khr/free_function_commands.hpp
Lines changed: 23 additions & 18 deletions
diff --git a/‎sycl/include/sycl/khr/requirements.hpp
Lines changed: 62 additions & 0 deletions b/‎sycl/include/sycl/khr/requirements.hpp
Lines changed: 62 additions & 0 deletions
@@ -7,8 +7,8 @@
 //===----------------------------------------------------------------------===//
 #pragma once
 
-#include <detail/hashers.hpp>
-#include <detail/kernel_arg_mask.hpp>
+//#include <detail/hashers.hpp>
+//#include <sycl/detail/kernel_arg_mask.hpp>
 #include <emhash/hash_table8.hpp>
 #include <sycl/detail/spinlock.hpp>
 #include <sycl/detail/ur.hpp>
@@ -20,6 +20,7 @@ namespace sycl {
 inline namespace _V1 {
 namespace detail {
 using FastKernelCacheKeyT = std::pair<ur_device_handle_t, ur_context_handle_t>;
+using KernelArgMask = std::vector<bool>;
 
 struct FastKernelCacheVal {
   ur_kernel_handle_t MKernelHandle;    /* UR kernel handle pointer. */
@@ -29,25 +30,27 @@ struct FastKernelCacheVal {
   const KernelArgMask *MKernelArgMask; /* Eliminated kernel argument mask. */
   ur_program_handle_t MProgramHandle;  /* UR program handle corresponding to
                                      this kernel. */
-  const Adapter &MAdapterPtr;          /* We can keep reference to the adapter
+  /*const Adapter &MAdapterPtr;*/          /* We can keep reference to the adapter
                                      because during 2-stage shutdown the kernel
                                      cache is destroyed deliberately before the
                                      adapter. */
 
   FastKernelCacheVal(ur_kernel_handle_t KernelHandle, std::mutex *Mutex,
                      const KernelArgMask *KernelArgMask,
-                     ur_program_handle_t ProgramHandle,
-                     const Adapter &AdapterPtr)
+                     ur_program_handle_t ProgramHandle)
+                     //const Adapter &AdapterPtr)
       : MKernelHandle(KernelHandle), MMutex(Mutex),
-        MKernelArgMask(KernelArgMask), MProgramHandle(ProgramHandle),
-        MAdapterPtr(AdapterPtr) {}
+        MKernelArgMask(KernelArgMask), MProgramHandle(ProgramHandle)
+        /*MAdapterPtr(AdapterPtr)*/ {}
 
   ~FastKernelCacheVal() {
+    /*
     if (MKernelHandle)
       MAdapterPtr.call<sycl::detail::UrApiKind::urKernelRelease>(MKernelHandle);
     if (MProgramHandle)
       MAdapterPtr.call<sycl::detail::UrApiKind::urProgramRelease>(
           MProgramHandle);
+    */
     MKernelHandle = nullptr;
     MMutex = nullptr;
     MKernelArgMask = nullptr;
 
@@ -1,11 +1,13 @@
 #pragma once
 
 #include <sycl/ext/oneapi/experimental/enqueue_functions.hpp>
+#include <sycl/khr/requirements.hpp>
 
 namespace sycl {
 inline namespace _V1 {
 
-#ifdef __DPCPP_ENABLE_UNFINISHED_KHR_EXTENSIONS
+
+//#ifdef __DPCPP_ENABLE_UNFINISHED_KHR_EXTENSIONS
 namespace khr {
 
 template <typename CommandGroupFunc>
@@ -148,33 +150,30 @@ void launch_grouped(handler &h, range<3> r, range<3> size,
   h.parallel_for(nd_range<3>(r, size), k);
 }
 
-template <typename KernelType>
-void launch_grouped(const queue &q, range<1> r, range<1> size,
+template <typename KernelType, typename... Requirements>
+void launch_grouped(queue &q, range<1> r, range<1> size,
                     const KernelType &k,
-                    const sycl::detail::code_location &codeLoc =
-                        sycl::detail::code_location::current()) {
-  submit(
-      q, [&](handler &h) { launch_grouped<KernelType>(h, r, size, k); },
-      codeLoc);
+                    const requirements<Requirements...> req = {}) {
+  q.parallel_for_no_handler_v2(nd_range<1>(r, size), k, req);
 }
+/*
 template <typename KernelType>
-void launch_grouped(const queue &q, range<2> r, range<2> size,
+void launch_grouped(queue &q, range<2> r, range<2> size,
                     const KernelType &k,
                     const sycl::detail::code_location &codeLoc =
                         sycl::detail::code_location::current()) {
-  submit(
-      q, [&](handler &h) { launch_grouped<KernelType>(h, r, size, k); },
-      codeLoc);
+  (void)codeLoc;
+  q.parallel_for_no_handler_v2(nd_range<2>(r, size), k);
 }
 template <typename KernelType>
-void launch_grouped(const queue &q, range<3> r, range<3> size,
+void launch_grouped(queue &q, range<3> r, range<3> size,
                     const KernelType &k,
                     const sycl::detail::code_location &codeLoc =
                         sycl::detail::code_location::current()) {
-  submit(
-      q, [&](handler &h) { launch_grouped<KernelType>(h, r, size, k); },
-      codeLoc);
+  (void)codeLoc;
+  q.parallel_for_no_handler_v2(nd_range<3>(r, size), k);
 }
+*/
 
 template <typename... Args>
 void launch_grouped(sycl::handler &h, sycl::range<1> r, sycl::range<1> size,
@@ -283,7 +282,8 @@ template <typename KernelType>
 void launch_task(const sycl::queue &q, const KernelType &k,
                  const sycl::detail::code_location &codeLoc =
                      sycl::detail::code_location::current()) {
-  submit(q, [&](handler &h) { launch_task<KernelType>(h, k); }, codeLoc);
+  (void)codeLoc;
+  q.single_task_no_handler(k);
 }
 
 template <typename... Args>
@@ -298,6 +298,11 @@ void launch_task(const queue &q, const kernel &k, Args &&...args) {
          [&](handler &h) { launch_task(h, k, std::forward<Args>(args)...); });
 }
 
+template <typename FuncT>
+void launch_host_task(queue &q, FuncT &&Func) {
+  q.host_task_no_handler(std::move(Func));
+}
+
 inline void memcpy(handler &h, void *dest, const void *src, size_t numBytes) {
   h.memcpy(dest, src, numBytes);
 }
@@ -520,6 +525,6 @@ inline void event_barrier(const queue &q, const std::vector<event> &events,
 }
 
 } // namespace khr
-#endif
+//#endif
 } // namespace _V1
 } // namespace sycl
@@ -0,0 +1,62 @@
+#pragma once
+
+namespace sycl {
+inline namespace _V1 {
+
+//#ifdef __DPCPP_ENABLE_UNFINISHED_KHR_EXTENSIONS
+namespace khr {
+
+template <typename... Requirements>
+class requirements;
+
+template <typename... Requirements>
+void add_dependencies(requirements<Requirements...> &Reqs, std::vector<event> &Events);
+
+template <typename... Requirements>
+class requirements {
+public:
+  requirements(Requirements... r) : MRequirements(r...) {}
+
+private:
+  std::tuple<Requirements...> MRequirements;
+
+	template <typename... R>
+  friend void add_dependencies(const requirements<R...> &Reqs, std::vector<event> &Events);
+};
+
+template <typename... Requirements>
+requirements(Requirements... r) -> requirements<Requirements...>;
+
+template <typename Requirement>
+void add_dependency(std::vector<event> &Events, const Requirement &Req) {
+	if constexpr (std::is_same_v<Requirement, event>)
+		Events.push_back(Req);
+}
+
+template <typename Requirement, typename... Requirements>
+void add_dependency(std::vector<event> &Events, const Requirement &Req, const Requirements&... Rest) {
+	if constexpr (std::is_same_v<Requirement, event>)
+		Events.push_back(Req);
+	add_dependency(Events, Rest...);
+}
+
+template <typename... Requirements, size_t... Is>
+void add_dependencies(const std::tuple<Requirements...> &ReqsTuple, std::vector<event> &Events,
+	std::index_sequence<Is...>) {
+	add_dependency(Events, std::get<Is>(ReqsTuple)...);
+}
+
+template <typename... Requirements>
+void add_dependencies(const sycl::khr::requirements<Requirements...> &Reqs, std::vector<event> &Events) {
+	add_dependencies(Reqs.MRequirements, Events, std::make_index_sequence<sizeof...(Requirements)>());
+}
+
+template <typename... Requirements>
+constexpr bool has_dependencies() {
+	return std::disjunction_v<std::is_same<event, Requirements>...>;
+}
+
+} // namespace khr
+//#endif
+} // namespace _V1
+} // namespace sycl