Подскажите, пожалуйста, логику программы Адвего Плагиатус.
Или киньте ссылочку на похожую темку...
Что такое "фраза" и "шингл"?
Я понимаю, это что-то вроде размера повторяющегося участка текста (3-4-5 слов), а поподробнее? Чем "шингл" и "фраза" отличаются?
И почему АП иногда проверяет 300 страниц, а иногда - 1?
Он сканирует весь интернет или ищет похожие страницы по каким-то словам?
Как он успевает весь интернет за минуту пробежать-то?
Шингл - количество идущих подряд слов; фраза - шаг проверки. Например, проверяем: "Забронировать билеты в Москве на любой рейс в любую страну предлагают многие отечественные компании"
При шингле =2, фраза=5 совпадения будут искаться для "забронировать билеты", любую страну", При шингл=3 , фразе=5 "забронировать билеты в Москве", "любую страну предлагают" и т.д.
Т.е. берется фраза из определенного количества слов, а на совпадение анализируются несколько слов из этой фразы, количество которых задает шингл.
Но там еще куча всяких примочек, которые знают только программисты.
Публикация комментариев и создание новых тем на форуме Адвего для текущего аккаунта ограничено. Подробная информация и связь с администрацией: https://advego.com/v2/support/ban/forum/1186