В новой версии добавлена возможность указывать размеры шингла и фраз для проверки. по умолчанию установлено 5 слов в шингле, и 6 слов в фразе.
А какое их количество было по умолчанию установлено в предыдущей версии?
И вообще, как оптимально пользоваться этими настройками, какие цифры указывать?
С большой долей вероятности это количество идущих друг за другом слов, которые выдираются из проверяемого документа для составления запроса той или иной поисковой системе.
нет, предыдущую версию иногда "проглючивает" и она начинает искать 4словные шинглы. :) А так, в нормальном режиме работы, она ищет совпадения по шинглам из 5 слов. Я специально сравнивала обе версии.
путем сравнения :) 21 и 49й дает одинаковую уникальность, если в 49м настроен шингл из 5 слов. Если в 49м ставлю 4 слова в шингле - они начинает показывать более низкую уникальность. Да и обратила внимание, что он очень редко выделяет желтым фразы из 4х слов - обычно из 5-6 и больше.
Шингл меньшего размера ищет совпадения меньшей длины. Соответсвенно, для скурпулезной проверки можно выставить размер шингла меньшего размера.
Так-же это утверждение верно и для текстов маленького размера.
Размер поисковой фразы означает размер фразы в словах по которым производится поик. Чем меньше размер фразы, тем больше поисковая выборка. Тем большее число документов будет проверено. Но как следствие большее число "мусора" придется проанализирвоать, больше траффика потратить, сильнее загрузить поисковые сервисы, увеличить вероятность блокировок.
Что такое "большие" документы и "маленькие" - понятие весьма субъективное. Мы счтаем средним документом - документ 1000-2500 символов.
Если проверки нечастые (например, вы проверяете 1-3 документ в день) , требования к трафику некритичны, скорость интернета большая - то можно ставить размер фразы и 5 и 3.
Если же вы проверяете часто и много документов, то можно ставить размер фразы 6 и 7.
Так-же советую для проверки небольших текстов уменьшать ограничение на размер до 200-300 кб. Реальные страницы в сети в среднем 100-150 кб.
Большие размеры 512-1мб-2мб только для литературных текстов (рассказов, изложений и т.д.)
Итого, лично Я бы советовал для средних текстов использовать размер фразы 5-7, размер шингла 5-8
для больших текстов фразу не менее 6-7 размер шингла 10
для маленьких текстов размер фразы 4-6 размер шингла 3-4
вцелом, нужно договариватсья с заказчиком какие параметры использовать при проверке.
У меня стоят настройки рекомендуемые, т.е. те, что стояли при скачивании программы : размер шингла 5, размер фразы 5, таймаут 20. При проверке уникальности выдает 100%, а у ВМ - 95. Может надо ужесточить настойки? И если да, то насколько? Если руководствоваться советами коммент. №6, то будет совпадать уникальность с ВМ?
Но при шингле в 4 маленькие тексты тяжелее уникализировать, а большие очень легко. Все зависит от размера и количества ключей в тексте. На моей практики 4-х хватало с головой. В 5 тоже приемлемо, 6 уже не очень.
Публикация комментариев и создание новых тем на форуме Адвего для текущего аккаунта ограничено. Подробная информация и связь с администрацией: https://advego.com/v2/support/ban/forum/1186