В новой версии добавлена возможность указывать размеры шингла и фраз для проверки. по умолчанию установлено 5 слов в шингле, и 6 слов в фразе.
А какое их количество было по умолчанию установлено в предыдущей версии?
И вообще, как оптимально пользоваться этими настройками, какие цифры указывать?
Шингл меньшего размера ищет совпадения меньшей длины. Соответсвенно, для скурпулезной проверки можно выставить размер шингла меньшего размера.
Так-же это утверждение верно и для текстов маленького размера.
Размер поисковой фразы означает размер фразы в словах по которым производится поик. Чем меньше размер фразы, тем больше поисковая выборка. Тем большее число документов будет проверено. Но как следствие большее число "мусора" придется проанализирвоать, больше траффика потратить, сильнее загрузить поисковые сервисы, увеличить вероятность блокировок.
Что такое "большие" документы и "маленькие" - понятие весьма субъективное. Мы счтаем средним документом - документ 1000-2500 символов.
Если проверки нечастые (например, вы проверяете 1-3 документ в день) , требования к трафику некритичны, скорость интернета большая - то можно ставить размер фразы и 5 и 3.
Если же вы проверяете часто и много документов, то можно ставить размер фразы 6 и 7.
Так-же советую для проверки небольших текстов уменьшать ограничение на размер до 200-300 кб. Реальные страницы в сети в среднем 100-150 кб.
Большие размеры 512-1мб-2мб только для литературных текстов (рассказов, изложений и т.д.)
Итого, лично Я бы советовал для средних текстов использовать размер фразы 5-7, размер шингла 5-8
для больших текстов фразу не менее 6-7 размер шингла 10
для маленьких текстов размер фразы 4-6 размер шингла 3-4
вцелом, нужно договариватсья с заказчиком какие параметры использовать при проверке.
У меня стоят настройки рекомендуемые, т.е. те, что стояли при скачивании программы : размер шингла 5, размер фразы 5, таймаут 20. При проверке уникальности выдает 100%, а у ВМ - 95. Может надо ужесточить настойки? И если да, то насколько? Если руководствоваться советами коммент. №6, то будет совпадать уникальность с ВМ?
Но при шингле в 4 маленькие тексты тяжелее уникализировать, а большие очень легко. Все зависит от размера и количества ключей в тексте. На моей практики 4-х хватало с головой. В 5 тоже приемлемо, 6 уже не очень.
Публикация комментариев и создание новых тем на форуме Адвего для текущего аккаунта ограничено. Подробная информация и связь с администрацией: https://advego.com/v2/support/ban/forum/1186