На больших текстах выставленные сколь угодно жесткие настройки, KengaRu

Работа в интернете Заказчику Магазин статей Сервис Партнёрская программа Форум Помощь и поддержка Создать заказ

Все форумы

Новые сообщения

Адвего

Форум

Все форумы

Адвего

Форум исполнителей

Форум исполнителей — Форум Адвего

боковая панель

Адвего / Форум исполнителей

Невыносимая тяжесть уникальности

Я то бишь о чём, братишки: накропал тут рерайт, пустяковый, на один килознакъ. С исходника. Заняло у меня это десять минут. Но работа над заказом длилась три с лишним часа. Что же я делал всё это время?
Боролся за уникальность.
Battle for the uniqueness проходила так: написал, прогнал через плагиатус, получил гордые 83%. Учитывая, что это год моего рождения, счёл это добрым знаком и продолжил мудохаться. Приемлемых 96% удалось добиться примерно после десятого прогона через АП. За это время я даже успел расколотить мышку в бешенстве - то есть урон в три раза превысил доход от выполнения заказа. Вот тебе и сальдо!
Вебмастер вроде бы остался доволен. Я - категорически нет. Потому что в борьбе за уник некоторые нормальные человеческие предложения пришлось менять на конструкции уникальные, но явно монструозные.
В связи с этим вопрос. Я заметил, что при написании коротких, на 800-1200 знаков, уникальности достичь раз в сто труднее, чем когда катаешь простыню на 10 килознаков. Большие тексты у меня всегда с первого раза выдают 100% на весьма жёстких настройках. Это на самом деле так - или это мои личные аберрации восприятия? Товарищи рерайтеры и рерайтерши (рерайтерки?) - а у вас как?

Нравится 8 / Не нравится 0

Пожаловаться

Написал: bure37 , 16.05.2012 в 17:10

В форуме: Форум исполнителей

Комментариев: 254

Комментарии

Показано 7 комментариев

Показать все

За 8 / Против 0

Пожаловаться

Лучший комментарий KengaRu написал 21.05.2012 в 03:25

На больших текстах выставленные сколь угодно жесткие настройки шингла/фразы перекрываются нижним пределом совпадений в 1%: к примеру, от 5000 знаков ...

#245 В контексте

За 8 / Против 0

Пожаловаться

Лучший комментарий DELETED написал 19.05.2012 в 20:48

Так я не вижу тут никакого перфекционизма. Перфекционизм - он в красоте текста, его читабельности, логичности, грамотной структуре, убедительности ...

#184 В контексте

За 7 / Против 0

Пожаловаться

Лучший комментарий DELETED написал 16.05.2012 в 19:13

Пробовал. А кроме меня это же самое уже сделали 10 000 других авторов. Результат - пишешь 10 минут, а подгоняешь до 96% часа два.

#20 В контексте

За 6 / Против 0

Пожаловаться

Лучший комментарий OleMash написала 16.05.2012 в 18:47

О да!! Как знакомо!)) Мышка, правда, жива, но 5-10 прогонов через АП - это как раз про меня) Большие тексты всегда уникальность высокую выдают, а вот ...

#16 В контексте

За 5 / Против 0

Пожаловаться

Лучший комментарий bure37 написал 16.05.2012 в 18:12

Ага! То есть заказчик может большие тексты проверять кусками по 1 кз? Любопытно. В том и проблема общеупотребительных предложений, что большинство ...

#13 В контексте

За 8 / Против 0

Пожаловаться

Лучший комментарий KengaRu написал 21.05.2012 в 03:25

На больших текстах выставленные сколь угодно жесткие настройки шингла/фразы перекрываются нижним пределом совпадений в 1%: к примеру, от 5000 знаков это 50 знаков, что при средней длине слова в русском языке 7-8 букв дает 6-7 слов. Плагиатус попросту игнорирует обнаруженные неуникальные (по выставленным настройкам шингла/фразы) отрезки, если они короче 1% от проверяемого текста, поэтому 100% уникальный длинный текст при проверке кусками, нарезанными по 500-2000 символов (1% = 5-20 символов, т.е. меньше 3 слов), может показать туеву хучу совпадений, и наоборот, собрав несколько мелких неуникальных текстов в один большой массив, у него можно получить высокую уникальность.

#245 Ответить /Цитировать / Скрыть ветку

За 1 / Против 0

Пожаловаться

grv написал 21.05.2012 в 05:37 в ответ на #245

Чегойта мне по этому поводу вспоминается онегдод о самолете, паровозе и тщательной обработке напильником :) Смысла кагбэ в таком игноре особо нету. И изменить алгоритм, чтоб складывались совпадения <1% с округлением результата до целых - дело пары минут.
См. 178. Вроде не так все просто

#246 Ответить /Цитировать / Скрыть ветку

За 2 / Против 0

Пожаловаться

KengaRu написал 21.05.2012 в 12:20 в ответ на #246

"тут не так все просто" = 21 знак, 5 слов, гугление точной фразы дает миллион результатов
Шингл 5, фраза 5, текст 1500 знаков — эта фраза высвечивается как неуникальная (пусть и не при каждой проверке).
Берем текст побольше (да хоть тупо сдублировать эти 1500 знаков, итого будет 3000) — эта фраза _никогда_ не высветится как отдельная неуникальная, если не образует последовательность вместе с предшествующим или последующим словом. Обнаруживаются совпадения в 1% и более от количества знаков проверяемого текста.
Тот же текст 1500 знаков, но выставляем в настройках нижний процент совпадений = 2%. Искомая фраза не обнаруживается, уникальность 100%.
Отрезаем треть, оставляя 1000 знаков — паскудная фраза везде повылазила, потому что для текста 1500 знаков ее длина не превышает порог 2%, а для 1000 уже оппаньки.

#247 Ответить /Цитировать / Скрыть ветку

За 0 / Против 0

Пожаловаться

grv написал 21.05.2012 в 12:36 в ответ на #247

У меня и на 1500 100% уник тока что АП показал раз 10 подряд :)

#248 Ответить /Цитировать / Скрыть ветку

За 0 / Против 0

Пожаловаться

KengaRu написал 21.05.2012 в 13:16 в ответ на #248

1500 и 1000 — для того, чтобы были красивые круглые числа. На самом деле может высчитываться процент знаков без учета пробелов и знаков препинания, можно попробовать для текстов 1200 и 800 (фраза-то взята из коротких слов, 4 пробела). Факт, что есть порог срабатывания проверки, этот порог повышается при увеличении длины проверяемого текста, и при длине 5000 и больше изменение настроек шингла/фразы от 3 до 6 слов не оказывает влияния на расчетную уникальность (если текст не изобилует идущими друг за другом длинными словами "высокопреосвященство сверхвысокочастотный глубокоуважаемый вагоноуважатый" и проч.), т.к. нижний процент совпадений 1% = 50 знаков, а для коротких текстов измеренная уникальность сильно меняется в зависимости от настроек шингла/фразы (из-за коротких слов: предлогов, союзов, частиц, местоимений), если не повысить порог срабатывания.

"Война и мир" уникальна как целое, но при проверке по главам будут обнаружены заимствования и цитаты.
Энциклопедия уникальна как целое, хоть и составлена из неуникальных статей.
Любой текст неуникален, т.к. составлен из неуникальных слов и устойчивых словосочетаний, но чем он длиннее, тем более длинные последовательности можно игнорировать.
Чем короче слово, тем меньше вероятность повторения в нем одной и той же буквы.
и т.п.

#249 Ответить /Цитировать / Скрыть ветку

За 0 / Против 0

Пожаловаться

grv написал 21.05.2012 в 13:31 в ответ на #249

"Войну и мир" и Википедию вряд ли кто будет в плагиатус загонять :) Узнать бы еще точный алгоритм проверки и оценки уникальности текстов Яндексом, вообще было бы круто.

#250 Ответить /Цитировать

За 0 / Против 0

Пожаловаться

DELETED написал 21.05.2012 в 22:02 в ответ на #245

О! Вот это очень похоже на правду. Да, скорее всего, именно так программа и работает. Тогда все "неувязки" вполне логично объясняются.

#252 Ответить /Цитировать

Написать комментарий

↑

Форум исполнителей — Форум Адвего

Вывод средств самозанятым

Невыносимая тяжесть уникальности

Выбрать тему

Добавить в избранное

E-mail:
Пароль:
	запомнить