Биржа копирайтеров Антиплагиат онлайн Проверка орфографии онлайн SEO анализ онлайн Транслит онлайн

Форум авторов — Форум Адвего

боковая панель
Адвего / Форум авторов
bure37
Невыносимая тяжесть уникальности

Я то бишь о чём, братишки: накропал тут рерайт, пустяковый, на один килознакъ. С исходника. Заняло у меня это десять минут. Но работа над заказом длилась три с лишним часа. Что же я делал всё это время?
Боролся за уникальность.
Battle for the uniqueness проходила так: написал, прогнал через плагиатус, получил гордые 83%. Учитывая, что это год моего рождения, счёл это добрым знаком и продолжил мудохаться. Приемлемых 96% удалось добиться примерно после десятого прогона через АП. За это время я даже успел расколотить мышку в бешенстве - то есть урон в три раза превысил доход от выполнения заказа. Вот тебе и сальдо!
Вебмастер вроде бы остался доволен. Я - категорически нет. Потому что в борьбе за уник некоторые нормальные человеческие предложения пришлось менять на конструкции уникальные, но явно монструозные.
В связи с этим вопрос. Я заметил, что при написании коротких, на 800-1200 знаков, уникальности достичь раз в сто труднее, чем когда катаешь простыню на 10 килознаков. Большие тексты у меня всегда с первого раза выдают 100% на весьма жёстких настройках. Это на самом деле так - или это мои личные аберрации восприятия? Товарищи рерайтеры и рерайтерши (рерайтерки?) - а у вас как?

Написал: bure37 , 16.05.2012 в 17:10
В форуме: Форум авторов
Комментариев: 254
Последние темы:
Комментарии

Показано 7 комментариев
KengaRu
За  8  /  Против  0
Лучший комментарий  KengaRu  написал  21.05.2012 в 03:25
На больших текстах выставленные сколь угодно жесткие настройки шингла/фразы перекрываются нижним пределом совпадений в 1%: к примеру, от 5000 знаков это 50 знаков, что при средней длине слова в русском языке 7-8 букв дает 6-7 слов. Плагиатус попросту игнорирует обнаруженные неуникальные (по выставленным настройкам шингла/фразы) отрезки, если они короче 1% от проверяемого текста, поэтому 100% уникальный длинный текст при проверке кусками, нарезанными по 500-2000 символов (1% = 5-20 символов, т.е. меньше 3 слов), может показать туеву хучу совпадений, и наоборот, собрав несколько мелких неуникальных текстов в один большой массив, у него можно получить высокую уникальность.

                
grv
За  1  /  Против  0
grv  написал  21.05.2012 в 05:37  в ответ на #245
Чегойта мне по этому поводу вспоминается онегдод о самолете, паровозе и тщательной обработке напильником :) Смысла кагбэ в таком игноре особо нету. И изменить алгоритм, чтоб складывались совпадения <1% с округлением результата до целых - дело пары минут.
См. 178. Вроде не так все просто

                
KengaRu
За  2  /  Против  0
KengaRu  написал  21.05.2012 в 12:20  в ответ на #246
"тут не так все просто" = 21 знак, 5 слов, гугление точной фразы дает миллион результатов
Шингл 5, фраза 5, текст 1500 знаков — эта фраза высвечивается как неуникальная (пусть и не при каждой проверке).
Берем текст побольше (да хоть тупо сдублировать эти 1500 знаков, итого будет 3000) — эта фраза _никогда_ не высветится как отдельная неуникальная, если не образует последовательность вместе с предшествующим или последующим словом. Обнаруживаются совпадения в 1% и более от количества знаков проверяемого текста.
Тот же текст 1500 знаков, но выставляем в настройках нижний процент совпадений = 2%. Искомая фраза не обнаруживается, уникальность 100%.
Отрезаем треть, оставляя 1000 знаков — паскудная фраза везде повылазила, потому что для текста 1500 знаков ее длина не превышает порог 2%, а для 1000 уже оппаньки.

                
grv
За  0  /  Против  0
grv  написал  21.05.2012 в 12:36  в ответ на #247
У меня и на 1500 100% уник тока что АП показал раз 10 подряд :)

                
KengaRu
За  0  /  Против  0
KengaRu  написал  21.05.2012 в 13:16  в ответ на #248
1500 и 1000 — для того, чтобы были красивые круглые числа. На самом деле может высчитываться процент знаков без учета пробелов и знаков препинания, можно попробовать для текстов 1200 и 800 (фраза-то взята из коротких слов, 4 пробела). Факт, что есть порог срабатывания проверки, этот порог повышается при увеличении длины проверяемого текста, и при длине 5000 и больше изменение настроек шингла/фразы от 3 до 6 слов не оказывает влияния на расчетную уникальность (если текст не изобилует идущими друг за другом длинными словами "высокопреосвященство сверхвысокочастотный глубокоуважаемый вагоноуважатый" и проч.), т.к. нижний процент совпадений 1% = 50 знаков, а для коротких текстов измеренная уникальность сильно меняется в зависимости от настроек шингла/фразы (из-за коротких слов: предлогов, союзов, частиц, местоимений), если не повысить порог срабатывания.

"Война и мир" уникальна как целое, но при проверке по главам будут обнаружены заимствования и цитаты.
Энциклопедия уникальна как целое, хоть и составлена из неуникальных статей.
Любой текст неуникален, т.к. составлен из неуникальных слов и устойчивых словосочетаний, но чем он длиннее, тем более длинные последовательности можно игнорировать.
Чем короче слово, тем меньше вероятность повторения в нем одной и той же буквы.
и т.п.

                
grv
За  0  /  Против  0
grv  написал  21.05.2012 в 13:31  в ответ на #249
"Войну и мир" и Википедию вряд ли кто будет в плагиатус загонять :) Узнать бы еще точный алгоритм проверки и оценки уникальности текстов Яндексом, вообще было бы круто.

                
fakconet
За  0  /  Против  0
fakconet  написал  21.05.2012 в 22:02  в ответ на #245
О! Вот это очень похоже на правду. Да, скорее всего, именно так программа и работает. Тогда все "неувязки" вполне логично объясняются.

                
Отправка жалобы...
Спасибо, ваша жалоба принята
Вы уже жаловались
Ваша учётная запись заблокирована для участия в форуме.
Жаловаться можно только на чужой комментарий
Избранное
Добавить в избранное
Имя
URL
https://advego.com/blog/read/author/652703/?op=4119063