Image Clustering Module

Модуль для кластеризации изображений по визуальному сходству с использованием perceptual hashing и LSH.

Быстрый старт

Требования

Java 17+
Docker-compose

Настройка и запуск в терминале (Linux / macOS / WSL)

Если вы используете Windows без WSL, используйте PowerShell и команды copy вместо mv, .\mvnw вместо ./mvnw

1. Клонируйте репозиторий:

git clone https://github.com/tennyros/image-clustering-module.git
cd image-clustering-module

2. Подготовьте файлы репозитория:

# Переименуйте и при необходимости отредактируйте env.sample файл
mv .env.sample .env

3. Запустите PostgreSQL через docker compose:

# Убедитесь, что порты на Вашей системе, указанные в docker-compose, не заняты и запустите
docker-compose up -d

4. Запустите приложение:

./mvnw spring-boot:run -Dspring-boot.run.profiles=dev

Описание алгоритма кластеризации изображений

Общий принцип

Модуль кластеризует изображения на основе их perceptual hash (pHash), используя метод Locality Sensitive Hashing (LSH) для быстрого поиска похожих изображений. Алгоритм группирует похожие изображения в кластеры, чтобы упростить дальнейшую обработку и анализ.

Основные используемые библиотеки

Библиотека	Назначение
`JImageHash`	Вычисление перцептивного pHash (устойчив к масштабированию, яркости, цвету)
`Spring Boot`	Основной фреймворк приложения
`PostgreSQL`	Хранение изображений и кластеров
`Liquibase`	Управление схемой базы данных
`JUnit` / `Mockito`	Покрытие логики unit-тестами

JImageHash:

Поддерживает pHash, dHash, aHash.
Хорошо документирован.
Не требует внешних зависимостей типа OpenCV.
Устойчив к изменению размера, обрезке, цвету, свету.

Основные компоненты

Компонент	Назначение
`ImageClusterer`	Основной сервис кластеризации
`ClusteringContext`	Контекст кластеризации, содержит индекс и внутренние отображения
`LSHIndex`	Индекс, хранящий полосы pHash и обеспечивающий быстрый поиск кандидатов
`ImageHashService`	Вычисляет pHash и расстояние Хэмминга
`ClusterInitializer`	Загружает и индексирует существующие изображения и кластеры
`ClusterMatcher`	Ищет подходящий кластер среди кандидатов
`ClusterAssigner`	Присваивает изображение кластеру или создаёт новый

Процесс кластеризации

Инициализация контекста

Создаётся ClusteringContext с пустым LSH-индексом, настроенным по параметрам (число полос и размер полосы).
Загрузка данных

Из базы загружаются все изображения с непустым pHash и все существующие кластеры с их изображениями.
Инициализация индекса

ClusterInitializer добавляет все изображения из существующих кластеров в ClusteringContext: индексирует их в LSH и обновляет внутренние маппинги.
Кластеризация новых изображений

Для каждого нового изображения:
- Проверяется, не кластеризовано ли оно уже.
- Через ClusterMatcher ищутся похожие изображения в LSH-индексе.
- Если найден подходящий кластер (расстояние Хэмминга ниже порога), изображение добавляется туда.
- Иначе создаётся новый кластер.
- Изображение добавляется в индекс и внутренние структуры контекста.
Сохранение результатов

Создаются и сохраняются связи (ImageClusterLink) между изображениями и кластерами.

Технические детали

Locality Sensitive Hashing (LSH): разбивает pHash каждого изображения на несколько полос (numBands) фиксированной длины (bandSize). Позволяет быстро находить кандидатов для сравнения.
Расстояние Хэмминга: используется для точного измерения схожести pHash.
Порог кластеризации: задаётся в конфигурации (hammingThreshold).
ClusteringContext: управляет состоянием в процессе кластеризации — обеспечивает быстрый доступ к уже кластеризованным изображениям и поддерживает индекс.

Сложность алгоритма

Пусть N — количество изображений, K — количество полос LSH, B — размер полосы (в битах):

Создание индекса: O(N * K)
Поиск кандидатов: O(K) — доступ к K множествам (по одной на каждую полосу)
Сравнение с кандидатами: O(C) — где C ≪ N (обычно 5–20 кандидатов)
Общая сложность кластеризации всех изображений: O(N * C) — почти линейная

Без LSH (наивный перебор): O(N^2)

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
.github/workflows		.github/workflows
.mvn/wrapper		.mvn/wrapper
src		src
.env.sample		.env.sample
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
docker-compose.yml		docker-compose.yml
mvnw		mvnw
mvnw.cmd		mvnw.cmd
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Image Clustering Module

Быстрый старт

Требования

Настройка и запуск в терминале (Linux / macOS / WSL)

Описание алгоритма кластеризации изображений

Общий принцип

Основные используемые библиотеки

Основные компоненты

Процесс кластеризации

Технические детали

Сложность алгоритма

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Image Clustering Module

Быстрый старт

Требования

Настройка и запуск в терминале (Linux / macOS / WSL)

Описание алгоритма кластеризации изображений

Общий принцип

Основные используемые библиотеки

Основные компоненты

Процесс кластеризации

Технические детали

Сложность алгоритма

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages