Fix list slicing of np.ndarrays on CPU (#1817)

karlhigley · web-flow · commit feaa418ad7c7 · 2023-05-10T14:45:28.000-04:00
* Move `ListSlice` tests to a separate file

* Add a failing test for slicing `np.ndarray` and make it pass

* Adjust the `ListSlice` test for better CPU/GPU compatibility
diff --git a/nvtabular/ops/list_slice.py b/nvtabular/ops/list_slice.py
@@ -79,6 +79,11 @@ def transform(self, col_selector: ColumnSelector, df: DataFrameType) -> DataFram
         on_cpu = is_cpu_object(df)
         ret = type(df)()
 
+        if on_cpu:
+            xp = np
+        else:
+            xp = cp
+
         for col in col_selector.names:
             # handle CPU via normal python slicing (not very efficient)
             if on_cpu:
@@ -88,7 +93,11 @@ def transform(self, col_selector: ColumnSelector, df: DataFrameType) -> DataFram
                 if self.pad:
                     for v in values:
                         if len(v) < self.max_elements:
-                            v.extend([self.pad_value] * (self.max_elements - len(v)))
+                            padding = [self.pad_value] * (self.max_elements - len(v))
+                            if isinstance(v, xp.ndarray):
+                                xp.append(v, padding)
+                            else:
+                                v.extend(padding)
 
                 ret[col] = values
             else:
@@ -115,11 +124,18 @@ def transform(self, col_selector: ColumnSelector, df: DataFrameType) -> DataFram
 
                 # create a new array for the sliced elements
                 new_elements = cp.full(
-                    new_offsets[-1].item(), fill_value=self.pad_value, dtype=elements.dtype
+                    new_offsets[-1].item(),
+                    fill_value=self.pad_value,
+                    dtype=elements.dtype,
                 )
                 if new_elements.size:
                     _slice_rows[blocks, threads](
-                        self.start, self.end, offsets, elements, new_offsets, new_elements
+                        self.start,
+                        self.end,
+                        offsets,
+                        elements,
+                        new_offsets,
+                        new_elements,
                     )
 
                 # build up a list column with the sliced values
@@ -133,7 +149,10 @@ def _compute_dtype(self, col_schema, input_schema):
 
     def _compute_properties(self, col_schema, input_schema):
         col_schema = super()._compute_properties(col_schema, input_schema)
-        properties = {**col_schema.properties, **{"value_count": {"min": 0, "max": None}}}
+        properties = {
+            **col_schema.properties,
+            **{"value_count": {"min": 0, "max": None}},
+        }
         if self.max_elements != np.iinfo(np.int64).max:
             properties["value_count"]["max"] = self.max_elements
             if self.pad:
diff --git a/tests/unit/ops/test_list_slice.py b/tests/unit/ops/test_list_slice.py
@@ -0,0 +1,112 @@
+#
+# Copyright (c) 2023, NVIDIA CORPORATION.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+#
+import pytest
+
+import nvtabular as nvt
+from merlin.core.compat import cudf, numpy, pandas
+from merlin.core.dispatch import make_df
+from nvtabular import ColumnSelector, ops
+from tests.conftest import assert_eq
+
+if cudf:
+    _CPU = [True, False]
+else:
+    _CPU = [True]
+
+
+@pytest.mark.parametrize("cpu", _CPU)
+def test_list_slice(cpu):
+    DataFrame = pandas.DataFrame if cpu else cudf.DataFrame
+
+    df = DataFrame({"y": [[0, 1, 2, 2, 767], [1, 2, 2, 3], [1, 223, 4]]})
+
+    op = ops.ListSlice(0, 2)
+    selector = ColumnSelector(["y"])
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[0, 1], [1, 2], [1, 223]]})
+    assert_eq(transformed, expected)
+
+    op = ops.ListSlice(3, 5)
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[2, 767], [3], []]})
+    assert_eq(transformed, expected)
+
+    op = ops.ListSlice(4, 10)
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[767], [], []]})
+    assert_eq(transformed, expected)
+
+    op = ops.ListSlice(100, 20000)
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[], [], []]})
+    assert_eq(transformed, expected)
+
+    op = ops.ListSlice(-4)
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[1, 2, 2, 767], [1, 2, 2, 3], [1, 223, 4]]})
+    assert_eq(transformed, expected)
+
+    op = ops.ListSlice(-3, -1)
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[2, 2], [2, 2], [1, 223]]})
+    assert_eq(transformed, expected)
+
+
+@pytest.mark.parametrize("cpu", _CPU)
+def test_list_slice_pad(cpu):
+    DataFrame = pandas.DataFrame if cpu else cudf.DataFrame
+    df = DataFrame({"y": [[0, 1, 2, 2, 767], [1, 2, 2, 3], [1, 223, 4]]})
+
+    # 0 pad to 5 elements
+    op = ops.ListSlice(5, pad=True)
+    selector = ColumnSelector(["y"])
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[0, 1, 2, 2, 767], [1, 2, 2, 3, 0], [1, 223, 4, 0, 0]]})
+    assert_eq(transformed, expected)
+
+    # make sure we can also pad when start != 0, and when pad_value is set
+    op = ops.ListSlice(1, 6, pad=True, pad_value=123)
+    selector = ColumnSelector(["y"])
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[1, 2, 2, 767, 123], [2, 2, 3, 123, 123], [223, 4, 123, 123, 123]]})
+    assert_eq(transformed, expected)
+
+    # we should be able to do pad out negative offsets as well
+    op = ops.ListSlice(-4, pad=True, pad_value=-1)
+    selector = ColumnSelector(["y"])
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[1, 2, 2, 767], [1, 2, 2, 3], [1, 223, 4, -1]]})
+    assert_eq(transformed, expected)
+
+    op = ops.ListSlice(-4, -1, pad=True, pad_value=-1)
+    selector = ColumnSelector(["y"])
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[1, 2, 2], [1, 2, 2], [1, 223, -1]]})
+    assert_eq(transformed, expected)
+
+    op = ops.ListSlice(-4, pad=True, pad_value=-1)
+    selector = ColumnSelector(["y"])
+    transformed = op.transform(selector, df)
+    expected = DataFrame({"y": [[1, 2, 2, 767], [1, 2, 2, 3], [1, 223, 4, -1]]})
+    assert_eq(transformed, expected)
+
+
+def test_slice_ndarrays():
+    out = ["test"] >> nvt.ops.ListSlice(10, pad=True)
+    workflow = nvt.Workflow(out)
+    df = make_df({"test": [[x for x in numpy.asarray(range(1, 4)).astype(numpy.int32)]]})
+    workflow.fit(nvt.Dataset(df, cpu=True))
+    workflow.transform(nvt.Dataset(df, cpu=True)).compute()
diff --git a/tests/unit/ops/test_ops.py b/tests/unit/ops/test_ops.py
@@ -299,83 +299,6 @@ def test_data_stats(tmpdir, df, datasets, engine, cpu):
         )
 
 
-@pytest.mark.parametrize("cpu", _CPU)
-def test_list_slice(cpu):
-    DataFrame = pd.DataFrame if cpu else cudf.DataFrame
-
-    df = DataFrame({"y": [[0, 1, 2, 2, 767], [1, 2, 2, 3], [1, 223, 4]]})
-
-    op = ops.ListSlice(0, 2)
-    selector = ColumnSelector(["y"])
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[0, 1], [1, 2], [1, 223]]})
-    assert_eq(transformed, expected)
-
-    op = ops.ListSlice(3, 5)
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[2, 767], [3], []]})
-    assert_eq(transformed, expected)
-
-    op = ops.ListSlice(4, 10)
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[767], [], []]})
-    assert_eq(transformed, expected)
-
-    op = ops.ListSlice(100, 20000)
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[], [], []]})
-    assert_eq(transformed, expected)
-
-    op = ops.ListSlice(-4)
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[1, 2, 2, 767], [1, 2, 2, 3], [1, 223, 4]]})
-    assert_eq(transformed, expected)
-
-    op = ops.ListSlice(-3, -1)
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[2, 2], [2, 2], [1, 223]]})
-    assert_eq(transformed, expected)
-
-
-@pytest.mark.parametrize("cpu", _CPU)
-def test_list_slice_pad(cpu):
-    DataFrame = pd.DataFrame if cpu else cudf.DataFrame
-    df = DataFrame({"y": [[0, 1, 2, 2, 767], [1, 2, 2, 3], [1, 223, 4]]})
-
-    # 0 pad to 5 elements
-    op = ops.ListSlice(5, pad=True)
-    selector = ColumnSelector(["y"])
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[0, 1, 2, 2, 767], [1, 2, 2, 3, 0], [1, 223, 4, 0, 0]]})
-    assert_eq(transformed, expected)
-
-    # make sure we can also pad when start != 0, and when pad_value is set
-    op = ops.ListSlice(1, 6, pad=True, pad_value=123)
-    selector = ColumnSelector(["y"])
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[1, 2, 2, 767, 123], [2, 2, 3, 123, 123], [223, 4, 123, 123, 123]]})
-    assert_eq(transformed, expected)
-
-    # we should be able to do pad out negative offsets as well
-    op = ops.ListSlice(-4, pad=True, pad_value=-1)
-    selector = ColumnSelector(["y"])
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[1, 2, 2, 767], [1, 2, 2, 3], [1, 223, 4, -1]]})
-    assert_eq(transformed, expected)
-
-    op = ops.ListSlice(-4, -1, pad=True, pad_value=-1)
-    selector = ColumnSelector(["y"])
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[1, 2, 2], [1, 2, 2], [1, 223, -1]]})
-    assert_eq(transformed, expected)
-
-    op = ops.ListSlice(-4, pad=True, pad_value=-1)
-    selector = ColumnSelector(["y"])
-    transformed = op.transform(selector, df)
-    expected = DataFrame({"y": [[1, 2, 2, 767], [1, 2, 2, 3], [1, 223, 4, -1]]})
-    assert_eq(transformed, expected)
-
-
 @pytest.mark.parametrize("cpu", _CPU)
 def test_rename(cpu):
     DataFrame = pd.DataFrame if cpu else cudf.DataFrame