refactor: Kupyna - replace byte-level operations with word-level operations (#693)

AnarchistHoneybun · web-flow · commit 2bcfb5a0a849 · 2025-06-02T19:31:52.000+03:00
diff --git a/.github/workflows/kupyna.yml b/.github/workflows/kupyna.yml
@@ -68,3 +68,31 @@ jobs:
     uses: RustCrypto/actions/.github/workflows/minimal-versions.yml@master
     with:
         working-directory: ${{ github.workflow }}
+
+  # Cross-compiled tests
+  cross:
+    needs: set-msrv
+    strategy:
+      matrix:
+        rust:
+          - ${{needs.set-msrv.outputs.msrv}}
+          - stable
+        target:
+          - aarch64-unknown-linux-gnu
+          - powerpc-unknown-linux-gnu
+        features:
+          - default
+
+    runs-on: ubuntu-latest
+    defaults:
+      run:
+      # Cross mounts only current package, i.e. by default it ignores workspace's Cargo.toml
+        working-directory: .
+    steps:
+      - uses: actions/checkout@v4
+      - uses: ./.github/actions/cross-tests
+        with:
+          rust: ${{ matrix.rust }}
+          package: ${{ github.workflow }}
+          target: ${{ matrix.target }}
+          features: ${{ matrix.features }}
diff --git a/kupyna/src/block_api.rs b/kupyna/src/block_api.rs
@@ -1,6 +1,6 @@
 use crate::{
     long, short,
-    utils::{read_u64_le, write_u64_le, xor_bytes},
+    utils::{read_u64_le, write_u64_be, write_u64_le, xor},
 };
 use core::fmt;
 use digest::{
@@ -72,25 +72,12 @@ impl VariableOutputCore for KupynaShortVarCore {
             short::compress(&mut self.state, block.as_ref());
         });
 
-        let mut state_u8 = [0u8; 64];
-        for (src, dst) in self.state.iter().zip(state_u8.chunks_exact_mut(8)) {
-            dst.copy_from_slice(&src.to_be_bytes());
-        }
-
-        // Call t_xor_l with u8 array
-        let t_xor_ult_processed_block = short::t_xor_l(state_u8);
+        // Process final state with t_xor_l
+        let t_xor_ult_processed_block = short::t_xor_l(self.state);
 
-        let result_u8 = xor_bytes(state_u8, t_xor_ult_processed_block);
+        let result_state = xor(self.state, t_xor_ult_processed_block);
 
-        // Convert result back to u64s
-        let mut res = [0u64; 8];
-        for (dst, src) in res.iter_mut().zip(result_u8.chunks_exact(8)) {
-            *dst = u64::from_be_bytes(src.try_into().unwrap());
-        }
-        let n = short::COLS / 2;
-        for (chunk, v) in out.chunks_exact_mut(8).zip(res[n..].iter()) {
-            chunk.copy_from_slice(&v.to_be_bytes());
-        }
+        write_u64_be(&result_state[short::COLS / 2..], out);
     }
 }
 
@@ -204,25 +191,12 @@ impl VariableOutputCore for KupynaLongVarCore {
             long::compress(&mut self.state, block.as_ref());
         });
 
-        let mut state_u8 = [0u8; 128];
-        for (src, dst) in self.state.iter().zip(state_u8.chunks_exact_mut(8)) {
-            dst.copy_from_slice(&src.to_be_bytes());
-        }
-
-        // Call t_xor_l with u8 array
-        let t_xor_ult_processed_block = long::t_xor_l(state_u8);
+        // Process final state with t_xor_l
+        let t_xor_ult_processed_block = long::t_xor_l(self.state);
 
-        let result_u8 = xor_bytes(state_u8, t_xor_ult_processed_block);
+        let result_state = xor(self.state, t_xor_ult_processed_block);
 
-        // Convert result back to u64s
-        let mut res = [0u64; 16];
-        for (dst, src) in res.iter_mut().zip(result_u8.chunks_exact(8)) {
-            *dst = u64::from_be_bytes(src.try_into().unwrap());
-        }
-        let n = long::COLS / 2;
-        for (chunk, v) in out.chunks_exact_mut(8).zip(res[n..].iter()) {
-            chunk.copy_from_slice(&v.to_be_bytes());
-        }
+        write_u64_be(&result_state[long::COLS / 2..], out);
     }
 }
 
diff --git a/kupyna/src/consts.rs b/kupyna/src/consts.rs
@@ -1,12 +1,12 @@
-pub const MDS_MATRIX: [[u8; 8]; 8] = [
-    [0x01, 0x01, 0x05, 0x01, 0x08, 0x06, 0x07, 0x04],
-    [0x04, 0x01, 0x01, 0x05, 0x01, 0x08, 0x06, 0x07],
-    [0x07, 0x04, 0x01, 0x01, 0x05, 0x01, 0x08, 0x06],
-    [0x06, 0x07, 0x04, 0x01, 0x01, 0x05, 0x01, 0x08],
-    [0x08, 0x06, 0x07, 0x04, 0x01, 0x01, 0x05, 0x01],
-    [0x01, 0x08, 0x06, 0x07, 0x04, 0x01, 0x01, 0x05],
-    [0x05, 0x01, 0x08, 0x06, 0x07, 0x04, 0x01, 0x01],
-    [0x01, 0x05, 0x01, 0x08, 0x06, 0x07, 0x04, 0x01],
+pub const MDS_MATRIX: [u64; 8] = [
+    0x0101050108060704,
+    0x0401010501080607,
+    0x0704010105010806,
+    0x0607040101050108,
+    0x0806070401010501,
+    0x0108060704010105,
+    0x0501080607040101,
+    0x0105010806070401,
 ];
 
 pub const SBOXES: [[u8; 256]; 4] = [
diff --git a/kupyna/src/long.rs b/kupyna/src/long.rs
@@ -1,95 +1,53 @@
-use crate::utils::{add_constant_plus, add_constant_xor, apply_s_box, mix_columns, xor_bytes};
+use crate::utils::{
+    add_constant_plus, add_constant_xor, apply_s_box, mix_columns, read_u64s_be, xor,
+};
+use core::array;
 
 pub(crate) const COLS: usize = 16;
 const ROUNDS: u64 = 14;
 
-type Matrix = [[u8; 8]; 16];
-
 pub(crate) fn compress(prev_vector: &mut [u64; COLS], message_block: &[u8; 128]) {
-    let mut prev_vector_u8 = [0u8; 128];
-    for (src, dst) in prev_vector.iter().zip(prev_vector_u8.chunks_exact_mut(8)) {
-        dst.copy_from_slice(&src.to_be_bytes());
-    }
-
-    let m_xor_p = xor_bytes(*message_block, prev_vector_u8);
-
+    // Convert message block from u8 to u64 (column-major order as per paper)
+    let message_u64 = read_u64s_be::<128, COLS>(message_block);
+    let m_xor_p = xor(*prev_vector, message_u64);
     let t_xor_mp = t_xor_l(m_xor_p);
-
-    let t_plus_m = t_plus_l(*message_block);
-
-    prev_vector_u8 = xor_bytes(xor_bytes(t_xor_mp, t_plus_m), prev_vector_u8);
-
-    for (dst, src) in prev_vector.iter_mut().zip(prev_vector_u8.chunks_exact(8)) {
-        *dst = u64::from_be_bytes(src.try_into().unwrap());
-    }
+    let t_plus_m = t_plus_l(message_u64);
+    *prev_vector = xor(xor(t_xor_mp, t_plus_m), *prev_vector);
 }
 
-pub(crate) fn t_plus_l(block: [u8; 128]) -> [u8; 128] {
-    let mut state = block_to_matrix(block);
+fn t_plus_l(state: [u64; COLS]) -> [u64; COLS] {
+    let mut state = state;
     for nu in 0..ROUNDS {
-        state = add_constant_plus(state, nu as usize);
-        state = apply_s_box(state);
+        add_constant_plus(&mut state, nu as usize);
+        apply_s_box(&mut state);
         state = rotate_rows(state);
-        state = mix_columns(state);
+        mix_columns(&mut state);
     }
-    matrix_to_block(state)
-}
-
-fn block_to_matrix(block: [u8; 128]) -> Matrix {
-    const ROWS: usize = 16;
-    const COLS: usize = 8;
-
-    let mut matrix = [[0u8; COLS]; ROWS];
-    for i in 0..ROWS {
-        for j in 0..COLS {
-            matrix[i][j] = block[i * COLS + j];
-        }
-    }
-    matrix
-}
-
-fn matrix_to_block(matrix: Matrix) -> [u8; 128] {
-    const ROWS: usize = 16;
-    const COLS: usize = 8;
-
-    let mut block = [0u8; ROWS * COLS];
-    for i in 0..ROWS {
-        for j in 0..COLS {
-            block[i * COLS + j] = matrix[i][j];
-        }
-    }
-    block
+    state
 }
 
-fn rotate_rows(mut state: Matrix) -> Matrix {
-    const ROWS: usize = 16;
-    let cols = 8;
-
-    let mut temp = [0u8; ROWS];
-    let mut shift: i32 = -1;
-    for i in 0..cols {
-        if i == cols - 1 {
-            shift = 11;
-        } else {
-            shift += 1;
-        }
-        for col in 0..ROWS {
-            temp[(col + shift as usize) % ROWS] = state[col][i];
-        }
-        for col in 0..ROWS {
-            state[col][i] = temp[col];
-        }
-    }
-    state
+fn rotate_rows(state: [u64; COLS]) -> [u64; COLS] {
+    //shift amounts for each row (0-6: row index, 7: special case = 11)
+    const SHIFTS: [usize; 8] = [0, 1, 2, 3, 4, 5, 6, 11];
+
+    array::from_fn(|col| {
+        let rotated_bytes = array::from_fn(|row| {
+            let shift = SHIFTS[row];
+            let src_col = (col + COLS - shift) % COLS;
+            let src_bytes = state[src_col].to_be_bytes();
+            src_bytes[row]
+        });
+        u64::from_be_bytes(rotated_bytes)
+    })
 }
 
-pub(crate) fn t_xor_l(block: [u8; 128]) -> [u8; 128] {
-    let mut state = block_to_matrix(block);
+pub(crate) fn t_xor_l(state: [u64; COLS]) -> [u64; COLS] {
+    let mut state = state;
     for nu in 0..ROUNDS {
-        state = add_constant_xor(state, nu as usize);
-        state = apply_s_box(state);
+        add_constant_xor(&mut state, nu as usize);
+        apply_s_box(&mut state);
         state = rotate_rows(state);
-        state = mix_columns(state);
+        mix_columns(&mut state);
     }
-    matrix_to_block(state)
+    state
 }
diff --git a/kupyna/src/short.rs b/kupyna/src/short.rs
@@ -1,95 +1,53 @@
-use crate::utils::{add_constant_plus, add_constant_xor, apply_s_box, mix_columns, xor_bytes};
+use crate::utils::{
+    add_constant_plus, add_constant_xor, apply_s_box, mix_columns, read_u64s_be, xor,
+};
+use core::array;
 
 pub(crate) const COLS: usize = 8;
 const ROUNDS: u64 = 10;
 
-type Matrix = [[u8; 8]; 8];
-
 pub(crate) fn compress(prev_vector: &mut [u64; COLS], message_block: &[u8; 64]) {
-    let mut prev_vector_u8 = [0u8; 64];
-    for (src, dst) in prev_vector.iter().zip(prev_vector_u8.chunks_exact_mut(8)) {
-        dst.copy_from_slice(&src.to_be_bytes());
-    }
-
-    let m_xor_p = xor_bytes(*message_block, prev_vector_u8);
-
+    // Convert message block from u8 to u64 (column-major order as per paper)
+    let message_u64 = read_u64s_be::<64, COLS>(message_block);
+    let m_xor_p = xor(*prev_vector, message_u64);
     let t_xor_mp = t_xor_l(m_xor_p);
-
-    let t_plus_m = t_plus_l(*message_block);
-
-    prev_vector_u8 = xor_bytes(xor_bytes(t_xor_mp, t_plus_m), prev_vector_u8);
-
-    for (dst, src) in prev_vector.iter_mut().zip(prev_vector_u8.chunks_exact(8)) {
-        *dst = u64::from_be_bytes(src.try_into().unwrap());
-    }
+    let t_plus_m = t_plus_l(message_u64);
+    *prev_vector = xor(xor(t_xor_mp, t_plus_m), *prev_vector);
 }
 
-fn t_plus_l(block: [u8; 64]) -> [u8; 64] {
-    let mut state = block_to_matrix(block);
+fn t_plus_l(state: [u64; COLS]) -> [u64; COLS] {
+    let mut state = state;
     for nu in 0..ROUNDS {
-        state = add_constant_plus(state, nu as usize);
-        state = apply_s_box(state);
+        add_constant_plus(&mut state, nu as usize);
+        apply_s_box(&mut state);
         state = rotate_rows(state);
-        state = mix_columns(state);
+        mix_columns(&mut state);
     }
-    matrix_to_block(state)
-}
-
-fn block_to_matrix(block: [u8; 64]) -> Matrix {
-    const ROWS: usize = 8;
-    const COLS: usize = 8;
-
-    let mut matrix = [[0u8; COLS]; ROWS];
-    for i in 0..ROWS {
-        for j in 0..COLS {
-            matrix[i][j] = block[i * COLS + j];
-        }
-    }
-    matrix
-}
-
-fn matrix_to_block(matrix: Matrix) -> [u8; 64] {
-    const ROWS: usize = 8;
-    const COLS: usize = 8;
-
-    let mut block = [0u8; ROWS * COLS];
-    for i in 0..ROWS {
-        for j in 0..COLS {
-            block[i * COLS + j] = matrix[i][j];
-        }
-    }
-    block
+    state
 }
 
-fn rotate_rows(mut state: Matrix) -> Matrix {
-    const ROWS: usize = 8;
-    let cols = 8;
-
-    let mut temp = [0u8; ROWS];
-    let mut shift: i32 = -1;
-    for i in 0..cols {
-        if i == cols - 1 {
-            shift = 7;
-        } else {
-            shift += 1;
-        }
-        for col in 0..ROWS {
-            temp[(col + shift as usize) % ROWS] = state[col][i];
-        }
-        for col in 0..ROWS {
-            state[col][i] = temp[col];
-        }
-    }
-    state
+fn rotate_rows(state: [u64; COLS]) -> [u64; COLS] {
+    //shift amounts for each row (0-6: row index, 7: special case)
+    const SHIFTS: [usize; 8] = [0, 1, 2, 3, 4, 5, 6, 7];
+
+    array::from_fn(|col| {
+        let rotated_bytes = array::from_fn(|row| {
+            let shift = SHIFTS[row];
+            let src_col = (col + COLS - shift) % COLS;
+            let src_bytes = state[src_col].to_be_bytes();
+            src_bytes[row]
+        });
+        u64::from_be_bytes(rotated_bytes)
+    })
 }
 
-pub(crate) fn t_xor_l(block: [u8; 64]) -> [u8; 64] {
-    let mut state = block_to_matrix(block);
+pub(crate) fn t_xor_l(state: [u64; COLS]) -> [u64; COLS] {
+    let mut state = state;
     for nu in 0..ROUNDS {
-        state = add_constant_xor(state, nu as usize);
-        state = apply_s_box(state);
+        add_constant_xor(&mut state, nu as usize);
+        apply_s_box(&mut state);
         state = rotate_rows(state);
-        state = mix_columns(state);
+        mix_columns(&mut state);
     }
-    matrix_to_block(state)
+    state
 }
diff --git a/kupyna/src/utils.rs b/kupyna/src/utils.rs