rtosholdings
diff --git a/‎.clang-format‎
Lines changed: 6 additions & 5 deletions b/‎.clang-format‎
Lines changed: 6 additions & 5 deletions
diff --git a/‎.github/workflows/native_sanity.yml‎
Lines changed: 2 additions & 2 deletions b/‎.github/workflows/native_sanity.yml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎.github/workflows/python_package.yml‎
Lines changed: 25 additions & 10 deletions b/‎.github/workflows/python_package.yml‎
Lines changed: 25 additions & 10 deletions
diff --git a/‎bench/riptide_bench/riptide_bench/CMakeLists.txt‎
Lines changed: 2 additions & 0 deletions b/‎bench/riptide_bench/riptide_bench/CMakeLists.txt‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎bench/riptide_bench/riptide_bench/bench_groupby.cpp‎
Lines changed: 189 additions & 0 deletions b/‎bench/riptide_bench/riptide_bench/bench_groupby.cpp‎
Lines changed: 189 additions & 0 deletions
diff --git a/‎bench/riptide_bench/riptide_bench/bench_reduce.cpp‎
Lines changed: 55 additions & 0 deletions b/‎bench/riptide_bench/riptide_bench/bench_reduce.cpp‎
Lines changed: 55 additions & 0 deletions
@@ -3,10 +3,10 @@ Language:        Cpp
 # BasedOnStyle:  GNU
 AccessModifierOffset: -4
 AlignAfterOpenBracket: Align
-AlignConsecutiveMacros: None
 AlignConsecutiveAssignments: None
 AlignConsecutiveBitFields: AcrossEmptyLinesAndComments
 AlignConsecutiveDeclarations: None
+AlignConsecutiveMacros: None
 AlignEscapedNewlines: DontAlign
 AlignOperands:   Align
 AlignTrailingComments: true
@@ -28,7 +28,6 @@ AttributeMacros:
   - __capability
 BinPackArguments: true
 BinPackParameters: true
-BreakBeforeBraces: Custom
 BraceWrapping:
   AfterCaseLabel:  true
   AfterClass:      true
@@ -50,7 +49,9 @@ BraceWrapping:
   SplitEmptyNamespace: true
 BreakBeforeBinaryOperators: None
 BreakBeforeConceptDeclarations: true
+BreakBeforeBraces: Custom
 BreakBeforeInheritanceComma: false
+BreakInheritanceList: BeforeColon
 BreakBeforeTernaryOperators: false
 BreakConstructorInitializersBeforeComma: true
 BreakConstructorInitializers: BeforeComma
@@ -72,8 +73,6 @@ ForEachMacros:
   - foreach
   - Q_FOREACH
   - BOOST_FOREACH
-StatementAttributeLikeMacros:
-  - Q_EMIT
 IncludeBlocks:   Preserve
 IncludeCategories:
   - Regex:           '^"(llvm|llvm-c|clang|clang-c)/'
@@ -139,7 +138,7 @@ SpaceBeforeRangeBasedForLoopColon: true
 SpaceInEmptyBlock: false
 SpaceInEmptyParentheses: false
 SpacesBeforeTrailingComments: 1
-SpacesInAngles:  false
+SpacesInAngles:  Never
 SpacesInConditionalStatement: false
 SpacesInContainerLiterals: true
 SpacesInCStyleCastParentheses: false
@@ -151,6 +150,8 @@ SpacesInSquareBrackets: false
 SpaceBeforeSquareBrackets: false
 BitFieldColonSpacing: None
 Standard:        Latest
+StatementAttributeLikeMacros:
+  - Q_EMIT
 StatementMacros:
   - Q_UNUSED
   - QT_REQUIRE_VERSION
 
@@ -21,8 +21,8 @@ jobs:
     strategy:
       matrix:
         os: [ubuntu-latest, windows-latest]
-        python-version: ["3.10", "3.11"]
-        numpy-version: [1.23]
+        python-version: ["3.10", "3.11", "3.12"]
+        numpy-version: [1.26]
         build-config: ["Debug", "Release"]
     steps:
       - uses: actions/checkout@v4
 
@@ -20,8 +20,8 @@ jobs:
     strategy:
       matrix:
         os: ["ubuntu-latest", "windows-2022"]
-        python-version: ["3.10", "3.11"]
-        numpy-version: [1.23]
+        python-version: ["3.10", "3.11", "3.12"]
+        numpy-version: [1.26]
     steps:
       - name: Checkout repo
         uses: actions/checkout@v4
@@ -85,13 +85,14 @@ jobs:
         shell: bash -l {0}
     strategy:
       matrix:
-        os: [ubuntu-latest, windows-2022]
-        python-version: ["3.10", "3.11"]
-        numpy-version: [1.23]
-        exclude:
-          # only latest needed for sdist, so exlude all others
+        os: [windows-2022]
+        python-version: ["3.10", "3.11", "3.12"]
+        numpy-version: [1.26]
+        include:
+          # only one python/numpy combo needed for sdist
           - os: ubuntu-latest
-            python-version: "3.10"
+            python-version: "3.12"
+            numpy-version: 1.26
     steps:
       - name: Checkout repo
         uses: actions/checkout@v4
@@ -150,7 +151,14 @@ jobs:
       matrix:
         os: ["ubuntu-latest", "windows-2022"]
         python-version: ["3.10", "3.11"]
-        numpy-version: [1.23, 1.24]
+        numpy-version: [1.23, 1.24, 1.25, 1.26]
+        include:
+          - os: "ubuntu-latest"
+            python-version: "3.12"
+            numpy-version: "1.26"
+          - os: "windows-2022"
+            python-version: "3.12"
+            numpy-version: "1.26"
     env:
       ANACONDA_USER: rtosholdings
       BUILD_VERSION: ${{needs.conda_build.outputs.build_version}}
@@ -214,7 +222,14 @@ jobs:
       matrix:
         os: [ubuntu-latest, windows-2022]
         python-version: ["3.10", "3.11"]
-        numpy-version: [1.23, 1.24]
+        numpy-version: [1.23, 1.24, 1.25, 1.26]
+        include:
+          - os: "ubuntu-latest"
+            python-version: "3.12"
+            numpy-version: "1.26"
+          - os: "windows-2022"
+            python-version: "3.12"
+            numpy-version: "1.26"
     steps:
       - name: Checkout repo (sparse)
         uses: actions/checkout@v4
 
@@ -3,7 +3,9 @@ set(TARGET_NAME riptide_bench)
 set(CMAKE_VERBOSE_MAKEFILE on)
 
 set(SOURCES main.cpp
+    bench_groupby.cpp
     bench_one_input.cpp
+    bench_reduce.cpp
     hash_linear_bench.cpp
     memcmp_bench.cpp
     bench_logging.cpp
 
@@ -0,0 +1,189 @@
+
+#include <benchmark/benchmark.h>
+#include "RipTide.h" // Required for MultiKey.h included from GroupBy.h
+#include "GroupBy.h"
+#include "numpy_traits.h"
+#include <random>
+
+using namespace riptide::benchmark;
+
+template <typename T>
+std::vector<T> uniform_random_vector(size_t length, T min, T max)
+{
+    std::default_random_engine engine;
+    std::uniform_int_distribution<T> distribution(min, max);
+
+    auto random = [&]
+    {
+        return distribution(engine);
+    };
+
+    std::vector<T> result(length);
+    std::generate(result.begin(), result.end(), random);
+    return result;
+}
+
+template <GB_FUNCTIONS function, NPY_TYPES TypeCode>
+static void BM_GroupByTwo(benchmark::State & state)
+{
+    int64_t length = state.range(0);
+    int64_t bins = state.range(1);
+
+    auto groupby = get_groupby_two_function(function, TypeCode);
+
+    // Allocate input/output/etc buffers
+    std::vector<typename riptide::numpy_cpp_type<TypeCode>::type> input(length);
+    std::vector<uint8_t> output(bins * groupby.output_type_size);
+    std::vector<uint8_t> temp(bins * groupby.temp_type_size);
+    std::vector<CountType> count(bins);
+
+    // Populate index vector to simulate real memory access patterns
+    auto index = uniform_random_vector<IndexType>(length, 0, bins - 1);
+
+    for (auto _ : state)
+    {
+        groupby.function(input.data(), index.data(), count.data(), output.data(), length, 0, bins, -1, temp.data());
+    }
+}
+
+template <typename T>
+struct first_and_count
+{
+    std::vector<T> first;
+    std::vector<T> count;
+};
+
+template <typename T>
+first_and_count<T> generate_first_and_count(int64_t length, int64_t bins)
+{
+    // Groups are packed such that all elements in the same group are adjacent
+    // Each entry is the index to the first element of that group
+    auto first = uniform_random_vector<T>(bins, 0, length - 1);
+
+    // Sort it so that generating count is easier
+    std::sort(first.begin(), first.end());
+    // Set first entry to 0 so that we aren't missing items
+    first[0] = 0;
+
+    // Each entry is the number of items in the group
+    // We can just compute this by finding the difference between entries in first
+    std::vector<T> count(bins);
+    for (size_t i = 0; i < count.size() - 1; i++)
+        count[i] = first[i + 1] - first[i];
+    count.back() = length - first.back();
+
+    return { first, count };
+}
+
+template <GB_FUNCTIONS function, NPY_TYPES TypeCode, int64_t funcParam = 0>
+static void BM_GroupByX(benchmark::State & state)
+{
+    int64_t length = state.range(0);
+    int64_t bins = state.range(1);
+
+    auto groupby = get_groupby_x_function(function, TypeCode);
+
+    // The values here don't matter
+    std::vector<typename riptide::numpy_cpp_type<TypeCode>::type> input(length);
+    std::vector<uint8_t> output;
+
+    if constexpr (function >= GB_ROLLING_SUM)
+        // Rolling functions require that the output the same size as the input
+        output = std::vector<uint8_t>(length * groupby.output_type_size);
+    else
+        // Other functions require the number of bins
+        output = std::vector<uint8_t>(bins * groupby.output_type_size);
+
+    // Populate group, first and count to simulate real memory access patterns
+    auto group = uniform_random_vector<IndexType>(length, 0, length - 1);
+    auto [first, count] = generate_first_and_count<IndexType>(length, bins);
+
+    for (auto _ : state)
+    {
+        groupby.function(input.data(), group.data(), first.data(), count.data(), output.data(), 0, bins, length,
+                         groupby.output_type_size, funcParam);
+    }
+}
+
+static void GroupByArguments(benchmark::internal::Benchmark * b)
+{
+    // Benchmark with 1 million values and 1000 groups
+    b->Args({ 1000000, 1000 });
+}
+
+#define BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_FUNCTION) \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_INT8>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_INT16>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_INT32>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_INT64>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_UINT8>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_UINT16>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_UINT32>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_UINT64>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_FLOAT>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_DOUBLE>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByTwo<GB_FUNCTION, NPY_LONGDOUBLE>)->Apply(GroupByArguments);
+
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_SUM);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_MEAN);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_MIN);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_MAX);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_VAR);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_STD);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_NANSUM);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_NANMEAN);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_NANMIN);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_NANMAX);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_NANVAR);
+BENCHMARK_GROUPBY_TWO_ALL_TYPES(GB_NANSTD);
+
+// Parameters for GroupByX functions
+namespace
+{
+    constexpr int64_t unused = 0;
+    constexpr int64_t nth = 5;
+    constexpr int64_t window = 10;
+    constexpr int64_t multiplier = 1e9;
+    constexpr int64_t quantile = 0.2 * multiplier;
+    constexpr int64_t quantile_and_window = quantile + window * (multiplier + 1);
+}
+
+#define BENCHMARK_GROUPBY_X_ALL_TYPES(GB_FUNCTION, funcParam) \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_INT8, funcParam>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_INT16, funcParam>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_INT32, funcParam>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_INT64, funcParam>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_UINT8, funcParam>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_UINT16, funcParam>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_UINT32, funcParam>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_UINT64, funcParam>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_FLOAT, funcParam>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_DOUBLE, funcParam>)->Apply(GroupByArguments); \
+    BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_LONGDOUBLE, funcParam>)->Apply(GroupByArguments);
+
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_FIRST, unused);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_NTH, nth);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_LAST, unused);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_MEDIAN, unused);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_MODE, unused);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_TRIMBR, unused);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_QUANTILE_MULT, quantile);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_ROLLING_SUM, window);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_ROLLING_NANSUM, window);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_ROLLING_DIFF, window);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_ROLLING_SHIFT, window);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_ROLLING_MEAN, window);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_ROLLING_NANMEAN, window);
+BENCHMARK_GROUPBY_X_ALL_TYPES(GB_ROLLING_QUANTILE, quantile_and_window);
+
+BENCHMARK(BM_GroupByX<GB_ROLLING_COUNT, NPY_INT8, 0>)->Apply(GroupByArguments);
+BENCHMARK(BM_GroupByX<GB_ROLLING_COUNT, NPY_INT16, 0>)->Apply(GroupByArguments);
+BENCHMARK(BM_GroupByX<GB_ROLLING_COUNT, NPY_INT32, 0>)->Apply(GroupByArguments);
+BENCHMARK(BM_GroupByX<GB_ROLLING_COUNT, NPY_INT64, 0>)->Apply(GroupByArguments);
+// BENCHMARK(BM_GroupByX<GB_ROLLING_COUNT, NPY_UINT8, 0>)->Apply(GroupByArguments);
+// BENCHMARK(BM_GroupByX<GB_ROLLING_COUNT, NPY_UINT16, 0>)->Apply(GroupByArguments);
+// BENCHMARK(BM_GroupByX<GB_ROLLING_COUNT, NPY_UINT32, 0>)->Apply(GroupByArguments);
+// BENCHMARK(BM_GroupByX<GB_ROLLING_COUNT, NPY_UINT64, 0>)->Apply(GroupByArguments);
+// BENCHMARK(BM_GroupByX<GB_ROLLING_COUNT, NPY_FLOAT, 0>)->Apply(GroupByArguments);
+// BENCHMARK(BM_GroupByX<GB_ROLLING_COUNT, NPY_DOUBLE, 0>)->Apply(GroupByArguments);
+// BENCHMARK(BM_GroupByX<GB_FUNCTION, NPY_LONGDOUBLE, 0>)->Apply(GroupByArguments);
@@ -0,0 +1,55 @@
+#include <benchmark/benchmark.h>
+#include "RipTide.h"
+#include "numpy_traits.h"
+#include "Reduce.h"
+
+using namespace riptide::benchmark;
+
+template <REDUCE_FUNCTIONS function, NPY_TYPES TypeCode>
+static void BM_Reduce(benchmark::State & state)
+{
+    int64_t length = state.range(0);
+    std::vector<typename riptide::numpy_cpp_type<TypeCode>::type> input(length);
+
+    for (auto _ : state)
+    {
+        call_reduce_function(function, TypeCode, input.data(), length);
+    }
+}
+
+static void BM_ReduceArguments(benchmark::internal::Benchmark * b)
+{
+    // Benchmark with input length of 1m values
+    b->Args({ 1000000 });
+}
+
+#define BENCHMARK_REDUCE_ALL_TYPES(REDUCE_FUNCTION) \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_INT8>)->Apply(BM_ReduceArguments); \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_INT16>)->Apply(BM_ReduceArguments); \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_INT32>)->Apply(BM_ReduceArguments); \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_INT64>)->Apply(BM_ReduceArguments); \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_UINT8>)->Apply(BM_ReduceArguments); \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_UINT16>)->Apply(BM_ReduceArguments); \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_UINT32>)->Apply(BM_ReduceArguments); \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_UINT64>)->Apply(BM_ReduceArguments); \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_FLOAT>)->Apply(BM_ReduceArguments); \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_DOUBLE>)->Apply(BM_ReduceArguments); \
+    BENCHMARK(BM_Reduce<REDUCE_FUNCTION, NPY_LONGDOUBLE>)->Apply(BM_ReduceArguments);
+
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_SUM);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_NANSUM);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_MEAN);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_NANMEAN);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_VAR);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_NANVAR);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_STD);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_NANSTD);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_MIN);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_NANMIN);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_MAX);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_NANMAX);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_ARGMIN);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_NANARGMIN);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_ARGMAX);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_NANARGMAX);
+BENCHMARK_REDUCE_ALL_TYPES(REDUCE_MIN_NANAWARE);