Поиск неявных дубликатов
Введите список фраз или загрузите файл — инструмент сгруппирует их по набору слов (Bag of Words). Пример: «купить слона» и «слона купить» получат одинаковый ID.
Какую задачу решает инструмент
В семантическом ядре часто встречаются запросы-дубликаты, которые отличаются только порядком слов: «купить квартиру москва» и «москва купить квартиру». Вручную их найти сложно. Инструмент нормализует каждую фразу (сортирует слова, приводит к нижнему регистру) и группирует совпадающие — вы получаете ID группы для каждой фразы.
Как пользоваться
1. Подготовьте данные
Вставьте список фраз в текстовое поле (по одной на строку) или загрузите файл (.xlsx, .csv, .txt).
2. Запустите
Нажмите «Найти дубликаты». Достаточно заполнить одно из полей — файл или текст.
3. Результат
Каждая фраза получит ID группы. Фразы с одинаковым ID — неявные дубликаты. Результат можно скачать в Excel для дальнейшей дедупликации.
