Биржа копирайтинга Антиплагиат SEO-анализ текста Адвего Лингвист Проверка орфографии

Форум исполнителей — Форум Адвего

боковая панель
Адвего / Форум исполнителей
bure37
Невыносимая тяжесть уникальности

Я то бишь о чём, братишки: накропал тут рерайт, пустяковый, на один килознакъ. С исходника. Заняло у меня это десять минут. Но работа над заказом длилась три с лишним часа. Что же я делал всё это время?
Боролся за уникальность.
Battle for the uniqueness проходила так: написал, прогнал через плагиатус, получил гордые 83%. Учитывая, что это год моего рождения, счёл это добрым знаком и продолжил мудохаться. Приемлемых 96% удалось добиться примерно после десятого прогона через АП. За это время я даже успел расколотить мышку в бешенстве - то есть урон в три раза превысил доход от выполнения заказа. Вот тебе и сальдо!
Вебмастер вроде бы остался доволен. Я - категорически нет. Потому что в борьбе за уник некоторые нормальные человеческие предложения пришлось менять на конструкции уникальные, но явно монструозные.
В связи с этим вопрос. Я заметил, что при написании коротких, на 800-1200 знаков, уникальности достичь раз в сто труднее, чем когда катаешь простыню на 10 килознаков. Большие тексты у меня всегда с первого раза выдают 100% на весьма жёстких настройках. Это на самом деле так - или это мои личные аберрации восприятия? Товарищи рерайтеры и рерайтерши (рерайтерки?) - а у вас как?

Написал: bure37 , 16.05.2012 в 17:10
Комментариев: 254
Комментарии

Показано 7 комментариев
KengaRu
За  8  /  Против  0
Лучший комментарий  KengaRu  написал  21.05.2012 в 03:25

На больших текстах выставленные сколь угодно жесткие настройки шингла/фразы перекрываются нижним пределом совпадений в 1%: к примеру, от 5000 знаков ... На больших текстах выставленные сколь угодно жесткие настройки шингла/фразы перекрываются нижним пределом совпадений в 1%: к примеру, от 5000 знаков это 50 знаков, что при средней длине слова в русском языке 7-8 букв дает 6-7 слов. Плагиатус попросту игнорирует обнаруженные неуникальные (по выставленным настройкам шингла/фразы) отрезки, если они короче 1% от проверяемого текста, поэтому 100% уникальный длинный текст при проверке кусками, нарезанными по 500-2000 символов (1% = 5-20 символов, т.е. меньше 3 слов), может показать туеву хучу совпадений, и наоборот, собрав несколько мелких неуникальных текстов в один большой массив, у него можно получить высокую уникальность.

DELETED
За  8  /  Против  0
Лучший комментарий  DELETED  написал  19.05.2012 в 20:48

Так я не вижу тут никакого перфекционизма. Перфекционизм - он в красоте текста, его читабельности, логичности, грамотной структуре, убедительности ... Так я не вижу тут никакого перфекционизма. Перфекционизм - он в красоте текста, его читабельности, логичности, грамотной структуре, убедительности, информативности.

А уникальность - это чисто технический параметр, и, чем больше заморачиваться на его увеличении - тем хуже будут получаться тексты.

DELETED
За  7  /  Против  0
Лучший комментарий  DELETED  написал  16.05.2012 в 19:13

Пробовал. А кроме меня это же самое уже сделали 10 000 других авторов. Результат - пишешь 10 минут, а подгоняешь до 96% часа два.

OleMash
За  6  /  Против  0
Лучший комментарий  OleMash  написала  16.05.2012 в 18:47

О да!! Как знакомо!)) Мышка, правда, жива, но 5-10 прогонов через АП - это как раз про меня) Большие тексты всегда уникальность высокую выдают, а вот ... О да!! Как знакомо!)) Мышка, правда, жива, но 5-10 прогонов через АП - это как раз про меня)
Большие тексты всегда уникальность высокую выдают, а вот если их разбить на тысячные, картина получается менее оптимистичная. Причем, шаблоные фразы уже научилась чувствовать еще в стадии написания текста и стараюсь не использовать их или минимизировать использование, а первоначальный уник все равно 90-92% в среднем.
Обидно бывает, когда завернешь чего-нибудь такое, что прям кажется никто не додумался еще до такого. Ага, счас же! Уже кто-то умный до меня такое завернул...)) Или исправляю уникальность в одном предложении (следующее АП благосклонно разрешил оставить как есть), проверяю, с мыслью, что наконец-то можно будет уползти спать. Как же, размечталась! Вредный Плагиатус говорит, что теперь уже хвостик этого предложения и начало следующего ему не нравятся и между делом находит еще пару неуникальных моментов! Помянув его маму, продолжаешь борьбу и думаешь: "Интересно, а как мы будем уникалить лет через 5?"

bure37
За  5  /  Против  0
Лучший комментарий  bure37  написал  16.05.2012 в 18:12

Ага! То есть заказчик может большие тексты проверять кусками по 1 кз? Любопытно. В том и проблема общеупотребительных предложений, что большинство ... Ага! То есть заказчик может большие тексты проверять кусками по 1 кз? Любопытно.
В том и проблема общеупотребительных предложений, что большинство вариантов, которыми их можно заменить, - тоже общеупотребительные. :)

KengaRu
За  8  /  Против  0
Лучший комментарий  KengaRu  написал  21.05.2012 в 03:25
На больших текстах выставленные сколь угодно жесткие настройки шингла/фразы перекрываются нижним пределом совпадений в 1%: к примеру, от 5000 знаков это 50 знаков, что при средней длине слова в русском языке 7-8 букв дает 6-7 слов. Плагиатус попросту игнорирует обнаруженные неуникальные (по выставленным настройкам шингла/фразы) отрезки, если они короче 1% от проверяемого текста, поэтому 100% уникальный длинный текст при проверке кусками, нарезанными по 500-2000 символов (1% = 5-20 символов, т.е. меньше 3 слов), может показать туеву хучу совпадений, и наоборот, собрав несколько мелких неуникальных текстов в один большой массив, у него можно получить высокую уникальность.

                
grv
За  1  /  Против  0
grv  написал  21.05.2012 в 05:37  в ответ на #245
Чегойта мне по этому поводу вспоминается онегдод о самолете, паровозе и тщательной обработке напильником :) Смысла кагбэ в таком игноре особо нету. И изменить алгоритм, чтоб складывались совпадения <1% с округлением результата до целых - дело пары минут.
См. 178. Вроде не так все просто

                
KengaRu
За  2  /  Против  0
KengaRu  написал  21.05.2012 в 12:20  в ответ на #246
"тут не так все просто" = 21 знак, 5 слов, гугление точной фразы дает миллион результатов
Шингл 5, фраза 5, текст 1500 знаков — эта фраза высвечивается как неуникальная (пусть и не при каждой проверке).
Берем текст побольше (да хоть тупо сдублировать эти 1500 знаков, итого будет 3000) — эта фраза _никогда_ не высветится как отдельная неуникальная, если не образует последовательность вместе с предшествующим или последующим словом. Обнаруживаются совпадения в 1% и более от количества знаков проверяемого текста.
Тот же текст 1500 знаков, но выставляем в настройках нижний процент совпадений = 2%. Искомая фраза не обнаруживается, уникальность 100%.
Отрезаем треть, оставляя 1000 знаков — паскудная фраза везде повылазила, потому что для текста 1500 знаков ее длина не превышает порог 2%, а для 1000 уже оппаньки.

                
grv
За  0  /  Против  0
grv  написал  21.05.2012 в 12:36  в ответ на #247
У меня и на 1500 100% уник тока что АП показал раз 10 подряд :)

                
KengaRu
За  0  /  Против  0
KengaRu  написал  21.05.2012 в 13:16  в ответ на #248
1500 и 1000 — для того, чтобы были красивые круглые числа. На самом деле может высчитываться процент знаков без учета пробелов и знаков препинания, можно попробовать для текстов 1200 и 800 (фраза-то взята из коротких слов, 4 пробела). Факт, что есть порог срабатывания проверки, этот порог повышается при увеличении длины проверяемого текста, и при длине 5000 и больше изменение настроек шингла/фразы от 3 до 6 слов не оказывает влияния на расчетную уникальность (если текст не изобилует идущими друг за другом длинными словами "высокопреосвященство сверхвысокочастотный глубокоуважаемый вагоноуважатый" и проч.), т.к. нижний процент совпадений 1% = 50 знаков, а для коротких текстов измеренная уникальность сильно меняется в зависимости от настроек шингла/фразы (из-за коротких слов: предлогов, союзов, частиц, местоимений), если не повысить порог срабатывания.

"Война и мир" уникальна как целое, но при проверке по главам будут обнаружены заимствования и цитаты.
Энциклопедия уникальна как целое, хоть и составлена из неуникальных статей.
Любой текст неуникален, т.к. составлен из неуникальных слов и устойчивых словосочетаний, но чем он длиннее, тем более длинные последовательности можно игнорировать.
Чем короче слово, тем меньше вероятность повторения в нем одной и той же буквы.
и т.п.

                
grv
За  0  /  Против  0
grv  написал  21.05.2012 в 13:31  в ответ на #249
"Войну и мир" и Википедию вряд ли кто будет в плагиатус загонять :) Узнать бы еще точный алгоритм проверки и оценки уникальности текстов Яндексом, вообще было бы круто.

                
DELETED
За  0  /  Против  0
DELETED  написал  21.05.2012 в 22:02  в ответ на #245
О! Вот это очень похоже на правду. Да, скорее всего, именно так программа и работает. Тогда все "неувязки" вполне логично объясняются.

                
Отправка жалобы...
Спасибо, ваша жалоба принята
Вы уже жаловались
Публикация комментариев и создание новых тем на форуме Адвего для текущего аккаунта ограничено.
Подробная информация и связь с администрацией: https://advego.com/v2/support/ban/forum/1186
Жаловаться можно только на чужой комментарий
Избранное
Добавить в избранное
Имя
URL
https://advego.com/blog/read/author/652703/?op=4119063