Я то бишь о чём, братишки: накропал тут рерайт, пустяковый, на один килознакъ. С исходника. Заняло у меня это десять минут. Но работа над заказом длилась три с лишним часа. Что же я делал всё это время?
Боролся за уникальность.
Battle for the uniqueness проходила так: написал, прогнал через плагиатус, получил гордые 83%. Учитывая, что это год моего рождения, счёл это добрым знаком и продолжил мудохаться. Приемлемых 96% удалось добиться примерно после десятого прогона через АП. За это время я даже успел расколотить мышку в бешенстве - то есть урон в три раза превысил доход от выполнения заказа. Вот тебе и сальдо!
Вебмастер вроде бы остался доволен. Я - категорически нет. Потому что в борьбе за уник некоторые нормальные человеческие предложения пришлось менять на конструкции уникальные, но явно монструозные.
В связи с этим вопрос. Я заметил, что при написании коротких, на 800-1200 знаков, уникальности достичь раз в сто труднее, чем когда катаешь простыню на 10 килознаков. Большие тексты у меня всегда с первого раза выдают 100% на весьма жёстких настройках. Это на самом деле так - или это мои личные аберрации восприятия? Товарищи рерайтеры и рерайтерши (рерайтерки?) - а у вас как?
Лучший комментарийOleMash написала 16.05.2012 в 18:47
0
О да!! Как знакомо!)) Мышка, правда, жива, но 5-10 прогонов через АП - это как раз про меня) Большие тексты всегда уникальность высокую выдают, а вот ...О да!! Как знакомо!)) Мышка, правда, жива, но 5-10 прогонов через АП - это как раз про меня) Большие тексты всегда уникальность высокую выдают, а вот если их разбить на тысячные, картина получается менее оптимистичная. Причем, шаблоные фразы уже научилась чувствовать еще в стадии написания текста и стараюсь не использовать их или минимизировать использование, а первоначальный уник все равно 90-92% в среднем. Обидно бывает, когда завернешь чего-нибудь такое, что прям кажется никто не додумался еще до такого. Ага, счас же! Уже кто-то умный до меня такое завернул...)) Или исправляю уникальность в одном предложении (следующее АП благосклонно разрешил оставить как есть), проверяю, с мыслью, что наконец-то можно будет уползти спать. Как же, размечталась! Вредный Плагиатус говорит, что теперь уже хвостик этого предложения и начало следующего ему не нравятся и между делом находит еще пару неуникальных моментов! Помянув его маму, продолжаешь борьбу и думаешь: "Интересно, а как мы будем уникалить лет через 5?"
Лучший комментарийbure37 написал 16.05.2012 в 18:12
2
Ага! То есть заказчик может большие тексты проверять кусками по 1 кз? Любопытно. В том и проблема общеупотребительных предложений, что большинство ...Ага! То есть заказчик может большие тексты проверять кусками по 1 кз? Любопытно. В том и проблема общеупотребительных предложений, что большинство вариантов, которыми их можно заменить, - тоже общеупотребительные. :)
Лучший комментарий
DELETED
написал 19.05.2012 в 20:48
182
Так я не вижу тут никакого перфекционизма. Перфекционизм - он в красоте текста, его читабельности, логичности, грамотной структуре, убедительности ...Так я не вижу тут никакого перфекционизма. Перфекционизм - он в красоте текста, его читабельности, логичности, грамотной структуре, убедительности, информативности.
А уникальность - это чисто технический параметр, и, чем больше заморачиваться на его увеличении - тем хуже будут получаться тексты.
Лучший комментарийKengaRu написал 21.05.2012 в 03:25
0
На больших текстах выставленные сколь угодно жесткие настройки шингла/фразы перекрываются нижним пределом совпадений в 1%: к примеру, от 5000 знаков ...На больших текстах выставленные сколь угодно жесткие настройки шингла/фразы перекрываются нижним пределом совпадений в 1%: к примеру, от 5000 знаков это 50 знаков, что при средней длине слова в русском языке 7-8 букв дает 6-7 слов. Плагиатус попросту игнорирует обнаруженные неуникальные (по выставленным настройкам шингла/фразы) отрезки, если они короче 1% от проверяемого текста, поэтому 100% уникальный длинный текст при проверке кусками, нарезанными по 500-2000 символов (1% = 5-20 символов, т.е. меньше 3 слов), может показать туеву хучу совпадений, и наоборот, собрав несколько мелких неуникальных текстов в один большой массив, у него можно получить высокую уникальность.
Вы бы попробовали на инглише или на немецком рерайтить. Там ваще мутотень. Предлог+артикль+существительно е (уже три слова, которые не выбросишь), а дальше? А относительно больших простыней – это правда. Чем длиннее текст, тем легче добиться уникальности.
Ох, я из-за этих артиклей так и не смог ни один язык "нечувствительно превзойти". К людям же, которые на ненашенском ещё и рерайтят или, не дай бог, копирайтят, у меня и вовсе отношение как к богам-олимпийцам. (Не ирония).
Сереж, сорри за оффтоп, я шепотом, на ушко: деревянный дракончик, с которым ты сейчас беседуешь, довольно серьезный и ответственный автор, хотя и недавно в копирайтинге. Я с ним работаю, он сложные технические тесты пишет на раз-два, грамотно, уникально и без воды. Но ему уверенности в себе не хватает. Поддержи его морально по возможности, ага? Ты опытный, и душа у тебя добрая, я знаю:) А то один (то бишь я) в поле не воин:)
Хороший мужик. Толковый, да и как человек мне импонирует. Наверное, потому что земляк:) Только ему наглости не хватает, как мне, например:) Ну или тебе:)))
Че-то там медленно народ реагирует. Я уже попкорн заготовила, место под столом разгребла, чтоб было куда стекать, а движухи-то и нет особо... Жене надо было в пятницу желающих искать, к вечеру ближе)
Ну дык, я и говорю, что в пятницу было бы лучше. Я сегодня самый разгар недели, нифига не смешной день( Не то что бы в совсем в тему, но картиночка понравилась...)
Хехе. Странно, у меня почему-то этого заказа нет в списке доступных. Я думал, по нему уже работу кто-то взял. Окей, щас как с другими расквитаюсь - возьму.
Где это я, Серёга, натупил? Местоимений я, мне, вам не вижу в упор. Я когда-то создавал тему перевода/рерайта на иностранных языках, но мне так никто и не ответил. Голой ушла темка в небытиё.
Вы меня подкупаете, уважаемый)) По-моему, троллинг заключён в том, что в самом начале темы вы уже сами себе ответили фактически.. Ну борьба за уникальность - это ведь хлеб копирайтерский.. Хотя я бы это назвал пародией на передачу "Битва экстрасенсов", там чуваки тоже всё шаманят и не могут успокоиться.. А повышение уникальности, ну скажем с 90 до 95, пойдёт для новой передачи под названием "Битва садомазохистов"))
А вот нет) Меня интересовал не столько феномен борьбы за уникальность, сколько частный случай того, что в больших текстах уника добиться куда легче. Хотя, казалось бы, используешь одни и те же заштампованные на тыщу раз обороты - ан нет. Меня интересовал сам механизм подобного явления.
А повышение уника - да ведь для самого автора оно и вовсе не важно, имхо. Я бы с огромным удовольствием писал тексты с уником в 50% и не заморачивался - так ведь заблокируют же. :)
Где-то читал, что в зависимости от размера текста, выставляются разные настройки. Очень часто приходится писать по 500 знаков, и там проверяю другими настройками, по сравнению с текстом в 3 тысячи.
Не все так просто. Пропорция тут может и не работать. Вот если ваш текст на 1000 знаков показывал 85%, и второй такой же покажет 85, то сколько в сумме должен будет показать текст на 2000?
По идее - все те же 85%:)). Все строго пропорционально. Но нет ведь этого. Более того. Увеличив текст всего в два раза, можно добиться очень значительного повышения уникальности - буквально в несколько раз (если сравнивать процент совпадений).
Так что это все-таки больше похоже на какой-то глюк, недоработку алгоритма.
П.С. По логике, РЕЗКОЕ изменение измеряемой (показываемой) уникальности должно наступить только с текстов величиной 500 слов (т.е. сравниваемый минимум вместо 4 слов станет 5). Хотя - может быть, этот алгоритм начинает работать уже на 401-м слове:)).
Ну это где-то свыше 3000 знаков получается, если так. Но не 2 и не 2.5 кз.
П.П.С. Вот я только что специально проверил. Взял кусок текста чуть меньше 2500 знаков (ровно 299 слов:)), проверил - 100%. Потом разбил на 2 части и ещё раз проверил - порядка 92-93% каждая. Так что объяснение с пропорцией напрямую не работает. Тут что-то другое.
Посмотрите коммент №146. Речь идет о том, что ВОЗМОЖНО, с увеличением длины текста уменьшается "удельный вес" совпадений. Вот я и говорю, что прямой пропорциональной зависимости тут не наблюдается.
Размер имеет значение) боинги то хороши для фигурного катания, но короткие тексты интереснее в них то и приходится попотеть) это как в шахматы: поставить мат в 6-7 ходов то тяжелее, чем мочалить до последнего.. Да и ещё - смотря кто и на каких настройках проверяет уникальность)) знаю любителей, которые ставят размер шингла = 3 слова, вот где веселуха то самая:) На этом ухожу и ещё одну весёлую или может не очень картинку оставлю)))
Наоборот не бывает, не сочиняйте:))). Это только если сравнивать _совершенно разные_ тексты. Например, большой - описание особенностей применения упомянутой тут программы 1С и маленький - как я провел лето:)).
Да я не сочиняю. Моя практика показывает текст на 1000-1500 в 98% случаев будет от 98 уник. А вот с текстами 2500-3000....Из 100% с 70 % точно придется дергаться за уникальность. Кстати недавно была удивлена проверив плагиутсом получила 98 %, поставила настройки проверки строже получила 100% уника.... Проверяю много раз, нечего не путаю.
А вы проверьте таким образом. Возьмите два текста по 1500. Пусть у каждого - 98%. Сложите их вместе и проверьте, как один текст на 3000. И посмотрите, сколько получится.
Потом возьмите текст на 3000 (другой). Пусть у него будет, скажем, 90-95% (ну или хоть 70-80%, если у вас есть такие).
Разбейте его на три по 1000 и проверьте каждый.
А потом расскажете нам о результатах:)).
Я уверен, что ваше мнение изменится. Просто, видимо, у вас так случайно совпадало с тематикой/направленностью текстов.
Вообще-то ситуация немного странная. С одной стороны - я вполне доволен новой версией Плагиатуса - работает очень быстро, проверяет много сайтов (раньше у меня нормой было, когда проверяло всего 10-15 урлов, а сейчас - и 200 бывает, и больше). Уникальность, опять же, показывает показывает высокую:)).
Но как-то я то ли по глупости, то ли ввиду спешки отправил на проверку не весь текст, а только его первую часть. Решил таким образом ускорить процесс - пока буду дописывать, добрая половина проверится. И вот там кусок был действительно небольшой - килознака полтора, что ли.
И я был очень удивлен, когда Плагиатус выдал мне довольно низкую уникальность - чуть больше 90%, где-то 92-93. Я "на ходу" заменил несколько словоформ, и отправил на проверку по новой (продолжая дописывать текст). Плагиатус опять наложил мне желтых кучек, но при этом уже совершенно других.
Я насторожился:))).
Опять изменил пару словоформ, добавил ещё один (только что написанный) абзац и отправил. Результат получился получше - где-то в районе 97%. Я уже не стал спешить и сначала дописал весь текст. Потом что-то совсем незначительно изменил в первой части и отправил на, как оказалось, последнюю проверку. Выдало, как и обычно, 100%.
Вывод. Я теперь стараюсь небольшие работы по частям не проверять, только полностью. Конечно, если текст великоватый - килознаков на 6-7 и выше, то его желательно все-таки разбить на несколько кусков. А 2-3 кз - как правило, проверяю только целиком.
Даже и не знаю, это какая-то недоработка алгоритма, или так и задумано. Простое объяснение о пропорциональности тут, имхо, не работает.
А я наоборот только мелкими порциями любой текст и проверяю. По 600 знаков. Так мне как-то поспокойнее. А то однажды при 100% уникальности у меня, заказчик мне посетовала, что у неё проверка выдала 91%. Неприятненько было.
Ну, если вам так нравится:)). Имхо, это как в анекдоте про башню танка и добрую фею. Я вообще Плагиатусом долгое время не пользовался, доверяя исключительно собственному чувству слова. Но то ли оно за два с половиной года изрядно притупилось, то ли число текстов в сети растет в геометрической прогрессии, а миллионы обезьянок каждый день стучат по клавишам, пытаясь набрать "Войну и мир":)).
Так что, если мне проверка ВСЕГО текста показала 100% - то и претензий никаких быть не может. Проверять же по кусочкам - а зачем оно вообще надо? Чисто лишнюю работу себе на голову придумывать?
Лучший комментарий
DELETED
написал
19.05.2012 в 20:48
в ответ на #182
4182
Так я не вижу тут никакого перфекционизма. Перфекционизм - он в красоте текста, его читабельности, логичности, грамотной структуре, убедительности, информативности.
А уникальность - это чисто технический параметр, и, чем больше заморачиваться на его увеличении - тем хуже будут получаться тексты.
Тем не менее, уникальность является одним из параметров заказа. Хотим мы того или нет. Мне тоже это поперёк горла, особенно если пишу ... ну, хотя бы про налоги. Там вообще одни штампы кругом. И названия на козе не объедешь.
Тут ещё надо, имхо, уточнять у профессиональных сеошников, в действительности ли уникальность текста настолько важна, как это принято считать? Складывается ощущение, что ныне уник - это сингулярный фактор, который намертво перевешивает все вышеописанные мелочи вроде "читабельности и логичности". Пущай текст в будет стиле "Купите смартфон. Он очень хороший. У него тачскрин. Его трогают пальцем" - но уник 100%, и ВМ удовлетворённо кивает. А надо ли?
Или, страшно сказать, высокая уникальность - достоинство говносайтов, а сайту для людей 100% уник и не очень нужон?
Существует мнение, что многое зависит от тематики (к рецептам, новостям... требования ботов довольно скромные), от траста, от выдержки домена, регулярности обновления ресурса,... температуры воды в Паттайе, цен на пирожки у бабы Нюры и курса тугрика :)
Прошу прощения за оффтоп, но я к Вам, как к старожилу: где-то тут есть описание процесса изготовление скрина полной страницы сайта? Оч. нужно. Спасибо.
Я вот тут нашла какую-то ссылку, но при загрузке стали пугать тем всякими бяками от непроверенных источников. Что-то побоялась.У меня ФайрФокс. Ну да, мазила.
Зачем в Урюпинск через Сан-Франциско добираться? :) Уж по мазиловской ссылке (с защищенным соединением) ничего плохого точно не произойдет (с большой долей вероятности): [ссылки видны только авторизованным пользователям]
Ничё не скачалось. Я его и так и эдак. Зарегистрировалась и перезагрузилась раз 100.))) Я так поняла, что в инструментах должен был новый значок отобразиться, ан нету. Зато обойки себе новые мазилистые повесила. Пойду застрелюсь.
А здесь? - [ссылки видны только авторизованным пользователям] SnagIt вроде тож нормально скрины полные делает (если склероз мне не изменяет). Программка ни к какому браузеру не привязывается. Попробуйте поискать (она везде практически есть)
Добрый день!))) С мазилой я разобралась. Они для 10-й версии не устанавливаются. Тамбшоты, я так поняла, - это заказ на платные скрины. А SnagIt сейчас добью. Похоже, что у меня диски забиты. В понедельник сына попрошу, а то снесу что-нить нужное сгоряча. Спасибо!
Если это действительно интересные сайты для людей и тексты достаточно объемные, то при проверке таких статей у меня ещё ни разу не было случая, чтобы показало меньше 100%:)).
Проблемы как раз могут возникнуть со всякой нудотиной и небольшими говнотекстами:)).
Вы же сами сказали, что в следующий раз показывает совпадения совсем в других позициях. Очевидно, что за отведённый на проверку срок( и что-то там в зависимости от скорости Интернета...) не может быть осуществлена по-настоящему глубокая проверка. Речь идёт о более-менее подробной выборке. Насколько объём выборки может соответствовать величине общего объёма? Я проверила и у меня вышло 100%, а она проверила - 91%. Хотя я делала всё добросовестно. А она тем более, поскольку заинтересована она больше, чем я. Материально в том числе.
Лучший комментарийKengaRu
написал
21.05.2012 в 03:25
00
На больших текстах выставленные сколь угодно жесткие настройки шингла/фразы перекрываются нижним пределом совпадений в 1%: к примеру, от 5000 знаков это 50 знаков, что при средней длине слова в русском языке 7-8 букв дает 6-7 слов. Плагиатус попросту игнорирует обнаруженные неуникальные (по выставленным настройкам шингла/фразы) отрезки, если они короче 1% от проверяемого текста, поэтому 100% уникальный длинный текст при проверке кусками, нарезанными по 500-2000 символов (1% = 5-20 символов, т.е. меньше 3 слов), может показать туеву хучу совпадений, и наоборот, собрав несколько мелких неуникальных текстов в один большой массив, у него можно получить высокую уникальность.
Чегойта мне по этому поводу вспоминается онегдод о самолете, паровозе и тщательной обработке напильником :) Смысла кагбэ в таком игноре особо нету. И изменить алгоритм, чтоб складывались совпадения <1% с округлением результата до целых - дело пары минут. См. 178. Вроде не так все просто
"тут не так все просто" = 21 знак, 5 слов, гугление точной фразы дает миллион результатов Шингл 5, фраза 5, текст 1500 знаков — эта фраза высвечивается как неуникальная (пусть и не при каждой проверке). Берем текст побольше (да хоть тупо сдублировать эти 1500 знаков, итого будет 3000) — эта фраза _никогда_ не высветится как отдельная неуникальная, если не образует последовательность вместе с предшествующим или последующим словом. Обнаруживаются совпадения в 1% и более от количества знаков проверяемого текста. Тот же текст 1500 знаков, но выставляем в настройках нижний процент совпадений = 2%. Искомая фраза не обнаруживается, уникальность 100%. Отрезаем треть, оставляя 1000 знаков — паскудная фраза везде повылазила, потому что для текста 1500 знаков ее длина не превышает порог 2%, а для 1000 уже оппаньки.
1500 и 1000 — для того, чтобы были красивые круглые числа. На самом деле может высчитываться процент знаков без учета пробелов и знаков препинания, можно попробовать для текстов 1200 и 800 (фраза-то взята из коротких слов, 4 пробела). Факт, что есть порог срабатывания проверки, этот порог повышается при увеличении длины проверяемого текста, и при длине 5000 и больше изменение настроек шингла/фразы от 3 до 6 слов не оказывает влияния на расчетную уникальность (если текст не изобилует идущими друг за другом длинными словами "высокопреосвященство сверхвысокочастотный глубокоуважаемый вагоноуважатый" и проч.), т.к. нижний процент совпадений 1% = 50 знаков, а для коротких текстов измеренная уникальность сильно меняется в зависимости от настроек шингла/фразы (из-за коротких слов: предлогов, союзов, частиц, местоимений), если не повысить порог срабатывания.
"Война и мир" уникальна как целое, но при проверке по главам будут обнаружены заимствования и цитаты. Энциклопедия уникальна как целое, хоть и составлена из неуникальных статей. Любой текст неуникален, т.к. составлен из неуникальных слов и устойчивых словосочетаний, но чем он длиннее, тем более длинные последовательности можно игнорировать. Чем короче слово, тем меньше вероятность повторения в нем одной и той же буквы. и т.п.
"Войну и мир" и Википедию вряд ли кто будет в плагиатус загонять :) Узнать бы еще точный алгоритм проверки и оценки уникальности текстов Яндексом, вообще было бы круто.
Публикация комментариев и создание новых тем на форуме Адвего для текущего аккаунта ограничено. Подробная информация и связь с администрацией: https://advego.com/v2/support/ban/forum/1186