Имеется текст на 8 тысяч знаков, который для удобства проверяется блоками. Версия программы последняя, настройки рекомендованные.
Вставляю блок в 1480 символов - программа не видит никаких совпадений, уникальность текста 100%
Убираю последнее предложение, число символов - 1420. Программа тут же выделяет несколько блоков и показывает уникальность 90%
Такое резкое изменение поведения происходит именно в этом диапазоне числа символов (1400-1450) - проверял неоднократно.
Почему так и какой максимальной длины текст рекомендуется проверять для достоверности результатов?
У вас есть текст на 8 тыс. знаков, его и надо проверять... а то если вы решите проверять текст блоками по 300 знаков, уникальность вообще снизится нереально
Да ну это простая математика, одно совпадение на 1000 или 8000 символов. Не могу понять, по какому алгоритму проверяется уникальность, если одно предложение настолько меняет картину...
А при проверке блоками скорость получается выше. Вот находит программа совпадение - ее можно немедленно остановить и подправить сомнительный фрагмент. А при большом объеме - жди полчаса, пока она закончит, потом исправляй и еще полчаса жди...
Кроме того: если каждый блок имеет приемлемую уникальность - то понятно, что весь текст будет иметь показатель намного выше - по тем же правилам арифметики.
все равно это не объясняет загадочного поведения программы. Не могут три строчки настолько менять результат. Да и куда исчезает подсветка в случае большого объема текста?
Куда исчезает - неизвестно. Но факт остается фактом: можно убрать одно предложение из текста 1550-1600 знаков - и уникальность изменится не в лучшую сторону. То есть, этот порог в 1500 символов существует.
Публикация комментариев и создание новых тем на форуме Адвего для текущего аккаунта ограничено. Подробная информация и связь с администрацией: https://advego.com/v2/support/ban/forum/1186