Revert "Use pinned host memory for improved async performance" (#739)

PointKernel · web-flow · commit a5888e0d5c12 · 2025-07-11T10:49:40.000-07:00
Reverts #727 as it introduces performance regressions in several places.
diff --git a/include/cuco/detail/dynamic_map.inl b/include/cuco/detail/dynamic_map.inl
@@ -157,17 +157,14 @@ void dynamic_map<Key, Value, Scope, Allocator>::insert(
                                                hash,
                                                key_equal);
 
-      std::size_t* h_num_successes;
-      CUCO_CUDA_TRY(cudaMallocHost(&h_num_successes, sizeof(std::size_t)));
-      CUCO_CUDA_TRY(cudaMemcpyAsync(h_num_successes,
+      std::size_t h_num_successes;
+      CUCO_CUDA_TRY(cudaMemcpyAsync(&h_num_successes,
                                     submap_num_successes_[submap_idx],
                                     sizeof(atomic_ctr_type),
                                     cudaMemcpyDeviceToHost,
                                     stream));
-      CUCO_CUDA_TRY(cudaStreamSynchronize(stream));
-      submaps_[submap_idx]->size_ += *h_num_successes;
-      size_ += *h_num_successes;
-      CUCO_CUDA_TRY(cudaFreeHost(h_num_successes));
+      submaps_[submap_idx]->size_ += h_num_successes;
+      size_ += h_num_successes;
       first += n;
       num_to_insert -= n;
     }
@@ -208,17 +205,14 @@ void dynamic_map<Key, Value, Scope, Allocator>::erase(
                                                            key_equal);
 
   for (uint32_t i = 0; i < submaps_.size(); ++i) {
-    std::size_t* h_submap_num_successes;
-    CUCO_CUDA_TRY(cudaMallocHost(&h_submap_num_successes, sizeof(std::size_t)));
-    CUCO_CUDA_TRY(cudaMemcpyAsync(h_submap_num_successes,
+    std::size_t h_submap_num_successes;
+    CUCO_CUDA_TRY(cudaMemcpyAsync(&h_submap_num_successes,
                                   submap_num_successes_[i],
                                   sizeof(atomic_ctr_type),
                                   cudaMemcpyDeviceToHost,
                                   stream));
-    CUCO_CUDA_TRY(cudaStreamSynchronize(stream));
-    submaps_[i]->size_ -= *h_submap_num_successes;
-    size_ -= *h_submap_num_successes;
-    CUCO_CUDA_TRY(cudaFreeHost(h_submap_num_successes));
+    submaps_[i]->size_ -= h_submap_num_successes;
+    size_ -= h_submap_num_successes;
   }
 }
 
diff --git a/include/cuco/detail/hyperloglog/hyperloglog_impl.cuh b/include/cuco/detail/hyperloglog/hyperloglog_impl.cuh
@@ -405,10 +405,10 @@ class hyperloglog_impl {
   [[nodiscard]] __host__ size_t estimate(cuda::stream_ref stream) const
   {
     auto const num_regs = 1ull << this->precision_;
-    register_type* host_sketch;
-    CUCO_CUDA_TRY(cudaMallocHost(&host_sketch, sizeof(register_type) * num_regs));
+    std::vector<register_type> host_sketch(num_regs);
 
-    CUCO_CUDA_TRY(cudaMemcpyAsync(host_sketch,
+    // TODO check if storage is host accessible
+    CUCO_CUDA_TRY(cudaMemcpyAsync(host_sketch.data(),
                                   this->sketch_.data(),
                                   sizeof(register_type) * num_regs,
                                   cudaMemcpyDefault,
@@ -419,14 +419,11 @@ class hyperloglog_impl {
     int zeroes  = 0;
 
     // geometric mean computation + count registers with 0s
-    for (size_t i = 0; i < num_regs; i++) {
-      auto const reg = host_sketch[i];
+    for (auto const reg : host_sketch) {
       sum += fp_type{1} / static_cast<fp_type>(1ull << reg);
       zeroes += reg == 0;
     }
 
-    CUCO_CUDA_TRY(cudaFreeHost(host_sketch));
-
     auto const finalize = cuco::hyperloglog_ns::detail::finalizer(this->precision_);
 
     // pass intermediate result to finalizer for bias correction, etc.
diff --git a/include/cuco/detail/open_addressing/open_addressing_impl.cuh b/include/cuco/detail/open_addressing/open_addressing_impl.cuh
@@ -876,13 +876,11 @@ class open_addressing_impl {
                                           is_filled,
                                           stream.get()));
 
-      size_type* temp_count;
-      CUCO_CUDA_TRY(cudaMallocHost(&temp_count, sizeof(size_type)));
+      size_type temp_count;
       CUCO_CUDA_TRY(cudaMemcpyAsync(
-        temp_count, d_num_out, sizeof(size_type), cudaMemcpyDeviceToHost, stream.get()));
+        &temp_count, d_num_out, sizeof(size_type), cudaMemcpyDeviceToHost, stream.get()));
       stream.wait();
-      h_num_out += *temp_count;
-      CUCO_CUDA_TRY(cudaFreeHost(temp_count));
+      h_num_out += temp_count;
       temp_allocator.deallocate(d_temp_storage, temp_storage_bytes);
     }
 
diff --git a/include/cuco/detail/static_map.inl b/include/cuco/detail/static_map.inl
@@ -104,19 +104,16 @@ void static_map<Key, Value, Scope, Allocator>::insert(
   // TODO: memset an atomic variable is unsafe
   static_assert(sizeof(std::size_t) == sizeof(atomic_ctr_type));
   CUCO_CUDA_TRY(cudaMemsetAsync(num_successes_, 0, sizeof(atomic_ctr_type), stream));
-
-  std::size_t* h_num_successes;
-  CUCO_CUDA_TRY(cudaMallocHost(&h_num_successes, sizeof(std::size_t)));
+  std::size_t h_num_successes;
 
   detail::insert<block_size, tile_size>
     <<<grid_size, block_size, 0, stream>>>(first, num_keys, num_successes_, view, hash, key_equal);
   CUCO_CUDA_TRY(cudaMemcpyAsync(
-    h_num_successes, num_successes_, sizeof(atomic_ctr_type), cudaMemcpyDeviceToHost, stream));
+    &h_num_successes, num_successes_, sizeof(atomic_ctr_type), cudaMemcpyDeviceToHost, stream));
 
   CUCO_CUDA_TRY(cudaStreamSynchronize(stream));  // stream sync to ensure h_num_successes is updated
 
-  size_ += *h_num_successes;
-  CUCO_CUDA_TRY(cudaFreeHost(h_num_successes));
+  size_ += h_num_successes;
 }
 
 template <typename Key, typename Value, cuda::thread_scope Scope, typename Allocator>
@@ -145,18 +142,15 @@ void static_map<Key, Value, Scope, Allocator>::insert_if(InputIt first,
   // TODO: memset an atomic variable is unsafe
   static_assert(sizeof(std::size_t) == sizeof(atomic_ctr_type));
   CUCO_CUDA_TRY(cudaMemsetAsync(num_successes_, 0, sizeof(atomic_ctr_type), stream));
-
-  std::size_t* h_num_successes;
-  CUCO_CUDA_TRY(cudaMallocHost(&h_num_successes, sizeof(std::size_t)));
+  std::size_t h_num_successes;
 
   detail::insert_if_n<block_size, tile_size><<<grid_size, block_size, 0, stream>>>(
     first, num_keys, num_successes_, view, stencil, pred, hash, key_equal);
   CUCO_CUDA_TRY(cudaMemcpyAsync(
-    h_num_successes, num_successes_, sizeof(atomic_ctr_type), cudaMemcpyDeviceToHost, stream));
+    &h_num_successes, num_successes_, sizeof(atomic_ctr_type), cudaMemcpyDeviceToHost, stream));
   CUCO_CUDA_TRY(cudaStreamSynchronize(stream));
 
-  size_ += *h_num_successes;
-  CUCO_CUDA_TRY(cudaFreeHost(h_num_successes));
+  size_ += h_num_successes;
 }
 
 template <typename Key, typename Value, cuda::thread_scope Scope, typename Allocator>
@@ -180,19 +174,16 @@ void static_map<Key, Value, Scope, Allocator>::erase(
   // TODO: memset an atomic variable is unsafe
   static_assert(sizeof(std::size_t) == sizeof(atomic_ctr_type));
   CUCO_CUDA_TRY(cudaMemsetAsync(num_successes_, 0, sizeof(atomic_ctr_type), stream));
-
-  std::size_t* h_num_successes;
-  CUCO_CUDA_TRY(cudaMallocHost(&h_num_successes, sizeof(std::size_t)));
+  std::size_t h_num_successes;
 
   detail::erase<block_size, tile_size>
     <<<grid_size, block_size, 0, stream>>>(first, num_keys, num_successes_, view, hash, key_equal);
   CUCO_CUDA_TRY(cudaMemcpyAsync(
-    h_num_successes, num_successes_, sizeof(atomic_ctr_type), cudaMemcpyDeviceToHost, stream));
+    &h_num_successes, num_successes_, sizeof(atomic_ctr_type), cudaMemcpyDeviceToHost, stream));
 
   CUCO_CUDA_TRY(cudaStreamSynchronize(stream));  // stream sync to ensure h_num_successes is updated
 
-  size_ -= *h_num_successes;
-  CUCO_CUDA_TRY(cudaFreeHost(h_num_successes));
+  size_ -= h_num_successes;
 }
 
 template <typename Key, typename Value, cuda::thread_scope Scope, typename Allocator>
@@ -258,21 +249,16 @@ std::pair<KeyOut, ValueOut> static_map<Key, Value, Scope, Allocator>::retrieve_a
                         filled,
                         stream);
 
-  std::size_t* h_num_out;
-  CUCO_CUDA_TRY(cudaMallocHost(&h_num_out, sizeof(std::size_t)));
+  std::size_t h_num_out;
   CUCO_CUDA_TRY(
-    cudaMemcpyAsync(h_num_out, d_num_out, sizeof(std::size_t), cudaMemcpyDeviceToHost, stream));
+    cudaMemcpyAsync(&h_num_out, d_num_out, sizeof(std::size_t), cudaMemcpyDeviceToHost, stream));
   CUCO_CUDA_TRY(cudaStreamSynchronize(stream));
-
-  auto result = std::make_pair(keys_out + *h_num_out, values_out + *h_num_out);
-
-  CUCO_CUDA_TRY(cudaFreeHost(h_num_out));
   std::allocator_traits<temp_allocator_type>::deallocate(
     temp_allocator, reinterpret_cast<char*>(d_num_out), sizeof(std::size_t));
   std::allocator_traits<temp_allocator_type>::deallocate(
     temp_allocator, d_temp_storage, temp_storage_bytes);
 
-  return result;
+  return std::make_pair(keys_out + h_num_out, values_out + h_num_out);
 }
 
 template <typename Key, typename Value, cuda::thread_scope Scope, typename Allocator>
diff --git a/include/cuco/detail/storage/counter_storage.cuh b/include/cuco/detail/storage/counter_storage.cuh
@@ -92,14 +92,11 @@ class counter_storage : public storage_base<cuco::extent<SizeType, 1>> {
    */
   [[nodiscard]] constexpr size_type load_to_host(cuda::stream_ref stream) const
   {
-    size_type* h_count;
-    CUCO_CUDA_TRY(cudaMallocHost(&h_count, sizeof(size_type)));
+    size_type h_count;
     CUCO_CUDA_TRY(cudaMemcpyAsync(
-      h_count, this->data(), sizeof(size_type), cudaMemcpyDeviceToHost, stream.get()));
+      &h_count, this->data(), sizeof(size_type), cudaMemcpyDeviceToHost, stream.get()));
     stream.wait();
-    size_type result = *h_count;
-    CUCO_CUDA_TRY(cudaFreeHost(h_count));
-    return result;
+    return h_count;
   }
 
  private:
diff --git a/include/cuco/detail/trie/dynamic_bitset/dynamic_bitset.inl b/include/cuco/detail/trie/dynamic_bitset/dynamic_bitset.inl
@@ -209,17 +209,15 @@ constexpr void dynamic_bitset<Allocator>::build_ranks_and_selects(
                                        num_blocks,
                                        stream.get()));
 
-  size_type* h_num_selects;
-  CUCO_CUDA_TRY(cudaMallocHost(&h_num_selects, sizeof(size_type)));
+  size_type num_selects{};
   CUCO_CUDA_TRY(
-    cudaMemcpyAsync(h_num_selects, d_sum, sizeof(size_type), cudaMemcpyDeviceToHost, stream.get()));
+    cudaMemcpyAsync(&num_selects, d_sum, sizeof(size_type), cudaMemcpyDeviceToHost, stream.get()));
   stream.wait();
   std::allocator_traits<temp_allocator_type>::deallocate(
     temp_allocator, thrust::device_ptr<char>{reinterpret_cast<char*>(d_sum)}, sizeof(size_type));
   temp_allocator.deallocate(d_temp_storage, temp_storage_bytes);
 
-  selects.resize(*h_num_selects);
-  CUCO_CUDA_TRY(cudaFreeHost(h_num_selects));
+  selects.resize(num_selects);
 
   auto const select_begin = thrust::raw_pointer_cast(selects.data());