Проверка уникальности текста: 100% НЕАДЕКВАТНОСТИ



Реальная динамика средней уникальности текста в Рунете
Тоталитаризм - это когда самая оппозиционная газета в стране называется "Прожектор проктологии".


Попробую перейти в оппозицию для противостояния современному психозу, царящему в деле проверки уникальности текста. ИМХО, иначе как психозом это не назовешь (недавний пример – маразм с проверкой уникальности текстов на моей любимой бирже ТекстСейл). Оппозицией же обещаю быть конструктивной. Критика ожидается аргументированная, практические советы, способы действия представим.
Часть приведенного ниже покажется общеизвестным и излишним тем, кто «в теме». Однако важно кратко пройти всю последовательность, чтобы не нарушить логику.

Зачем нужна проверка уникальности текста?

Большинство покупателей контента скажут: «чтобы поисковики не банили, индексировали страницы». Правильно. А почему поисковикам важна уникальность? По их же собственным заявлениям: чтобы предоставлять пользователям интересную, РАЗНООБРАЗНУЮ и ОРИГИНАЛЬНУЮ информацию.
Допустим, что у какого-то поисковика копипаст рулит. Тогда нормальной будет ситуация: пользователь подаёт запрос, а в выдаче подряд идут страницы с одинаковым текстом, одинаковой информацией. Уход пользователя в стан приверженцев другого поисковика (где по 10 раз не будут повторять одно и тоже) станет закономерным. И ухудшение показателей самого поисковика по поведенческим факторам здесь – ерунда. Реальный клиент потерян!

Как проверяют уникальность текста поисковики?

Как это делают поисковики официально не объявлено, общедоступных непосредственных сервисов-проверялок они вэб-мастерам не предоставляют. Однако железобетонно ясно, что поисковики пытаются не тупо выяснять уникальность ТЕКСТА (совпадения с другими текстами по фразам, словам, знакам препинания). Их интересуют другие СМЫСЛЫ, отличия точек зрения (при этом собственно тексты, слова могут очень сильно совпадать).

Поисковики пытаются ОСМЫСЛИВАТЬ текст. Насколько хорошо им это на сегодня удаётся, насколько создаваемые ими по текстам графы позволяют улавливать корреляции смыслов? Это вопрос глубокого теоретизирования (найти в сети материалы по теме можно, но однозначных выводов они сделать не позволят). Важно понимать, что принцип оценки УНИКАЛЬНОСТИ ТЕКСТА именно ПО УНИКАЛЬНОСТИ СМЫСЛА используется поисковиками. Он будет совершенствоваться, и использоваться в дальнейшем.

Как проверяют уникальность текста вэб-мастера, посредники (биржи копирайтинга) при продаже-покупке контента?

Сервисами, софтом проверки уникальности, которые сегодня используют шингловые (Etxt Антиплагиат, Advego Plagiatus) и нешингловые методы (text.ru, http://www.content-watch.ru/text/). Насколько эти «проверялки» адекватны? Насколько алгоритмы, принципы их работы близки принципам, которые используют поисковики для оценки уникальности?

Проверка уникальности методом шинглов – бред сивой кобылы

Грубо говоря, проверка уника методом шинглов состоит в последовательном сравнении небольших (3-9 слов) фрагментов текста с другими, ранее опубликованными текстами.

Безусловно, что любому человеку, при изложении своей точки зрения, будет естественно использовать слова из своего лексикона в последовательности, свойственной его мозгу, его уникальному способу мышления. Однако это однозначно так, пока человек остаётся вольным художником, т.е. пишет «для себя», хочет изложить свою оригинальную мысль. Совсем иное дело, когда речь идет о написании статьи "по необходимости", скажем, при заказе контента на бирже копирайтинга. Во-первых, копирайтеру выдаётся задание типа «Написать о А, Б, В. Использовать фразы А, Б, В, Г. Объём – 2000 знаков». Во-вторых, копирайтеру этот текст обычно, как говорится, «нафиг не нужен», важны только деньги за работу. Следовательно, работу нужно сделать побыстрее, при минимальных трудозатратах. Лучший вариант – рерайт. Причем даже под самую строгую 3-шингловую проверку достаточно рерайта примитивного - с заменой каждого третьего слова синонимом. При этом ни йоты нового, другого, отличного от оригинала смысла не появится!


Следовательно – текст, который показывает 100% уникальности при проверке даже 3-м шинглом, вовсе не обязательно будет интересен поисковикам, покажется им уникальным. Если даже поисковики успешно проиндексировали страницу с рерайтом, то это в любом случае временное явление. Уже завтра или через год, при новой коррекции алгоритмов ПС она имеет все шансы из индекса вылететь. 

Реальная причина неиндексации (сегодняшней или перспективной) страницы с контентом, «успешно проверенным шингловым методом», описана выше. Она состоит в несоответствии метода проверки решаемой задаче. Но вместо того, чтобы менять метод, ужесточают параметры шингловой проверки. Сегодня на биржах можно увидеть заказы-«шедевры» такого типа:
2000 знаков, 100% уник 3-м шинглом, 4 точных вхождения «пластиковые окна Омск заказать дешево»
  • Это образец непонимания сути, философии вопроса.
  • Это образец непрофессионализма и элементарной безграмотности.
Если заданная в примере ключевая фраза  уже имеется в сети, то НИКТО даже ТЕОРЕТИЧЕСКИ НЕ СМОЖЕТ написать 100% уникальный (5 слов х 4 вхождения = 20 слов) текст с ней не только под проверку 3-м, но и 5-м шинглом.
  • В действительности подобная строгость задания ведет к вырождению текста в бредотекст (использование очень редко встречающихся фраз, слов).
А ведь бредотексты поисковики прекрасно ловят! Имеются даже достаточно простые статистические методы и доступные сетевые сервисы оценки естественности, небредовости текста.

Суперстрогие оптимизаторы! Ваш сайт уже пессимизировали за СЕО-спам (слишком много ключевиков)? Нет? Или это уже удалось побороть? Ожидайте пессимизации за «излишне формально уникальные», но при этом совершенно неуникальные по сути тексты.

Выводы по проверке уникальности текста методом шинглов:


  • метод изначально в целом не соответствовал решаемой задаче
  • на сегодня строгость проверки по этому методу достигла предела (проверка шинлом 2 – это уже однозначная «клиника»)
  • пользоваться шингловной проверкой сегодня – совершенно бесперспективно и даже опасно.

Проверка уникальности нешингловыми методами – пока не идеал, но актуально

Не буду утверждать, что глубоко теоретически изучил вопрос об алгоритмах работы тех же text.ru и content-watch.ru. Тем не менее, рискну популярно изложить их суть:

Шингловая проверка ищет тексты, в которых те же СЛОВА (их написания) расположены в той же ПОСЛЕДОВАТЕЛЬНОСТИ.
Нешингловая проверка ищет тексты, в которых встречаются те же ПО СМЫСЛУ слова (не важны склонения, синонимы и т.п.).

В посте о content-watch я уже показывал, что СМЫСЛ текста и эти системы проверки «понимают» очень плохо. Но по сравнению с шингловыми методами проверки – это уже серьёзный шаг вперед. Шингловые проверялки смысл текста понять и не пытаются, работают чисто формально, механически. text.ru и content-watch.ru в первом приближении пытаются работать со смыслом текста.

Выводы по проверке уникальности текста нешингловыми методами:

В последующем посте надеюсь изложить практические советы: чем проверять уникальность, как оценивать, использовать полученные результаты.
P.S. И вот такие посты уже появились -

Проверка уникальности текста: как это делать ПОКУПАТЕЛЯМ контента

и

ПРОВЕРКА УНИКАЛЬНОСТИ ТЕКСТА: великая сермяжная правда

12 комментариев:

  1. Сомнительно. Почти все заказчики, райтеры пользуются шинглами и не страдают.

    ОтветитьУдалить
    Ответы
    1. Писать очередную статью «чем вообще можно проверить уникальность, и какие там кнопочки нажимать» и не собирался.

      С «и не страдают» не соглашусь.
      Чем тогда объяснить ещё редкие, но уже имеющиеся заказы типа:
      «Пусть будет рерайт. Но ОБЯЗАТЕЛЬНО возьмите 2-3 источника и сделайте 2-3 предложения общего вывода. Иначе поисковики БАНЯТ»?

      Удалить
    2. Не видел таких заказов.
      А проверялка етхт сейчас всех устраивает. Ладно, не всех, но 99.9%

      Удалить
    3. Если я чего-то не вижу, то это не значит, что его не существует. :)

      Согласен, что Etxt – самая популярная, «стандартная». Готов даже признать за ней самую полную базу для сравнения текстов.
      Но:
      1) метод шинглов – зуб даю, не катит
      2) пользование их серваком (на самом сайте)
      – платное (если не знать обходного маневра), хотя и недорогое
      - результата ждать достаточно долго.
      3) пользование софтиной Etxt Антиплагиат
      – очень долгое и утомительное (капча)
      - результат может быть очень недостоверным. Сюда моё высказывание о «полной базе для сравнения» не относится.

      Удалить
    4. Обходной маневр интересует. Если не дорого.
      :)

      Удалить
    5. Продам дешево, но не просто так. :)
      Завтра байку про это написать постараюсь.

      Удалить
  2. Даже на продвигаемой вами текст ру заказчики пишут: "уникальность по етхт столько-то". Можно говорить о конце эры шинглов?

    ОтветитьУдалить
    Ответы
    1. Не видел свою задачу в том, чтобы изложить или потакать общепринятым заблуждениям.
      Полагаю, что для тех, кто думает, разбирается в вопросе, "эра шинглов" закончилась.
      Инерция шинглов в головах тех, кто действует по шаблону, будет иметь место.

      Удалить
    2. Хм, а я вот, что на адвего месяца 3 назад, что на текстсейл видела просьбы о проверке уникальности по текст.ру

      Удалить
    3. Такое явление не только имеется, но и явно растет в объёмах.
      К чему, собственно, я всегда и вел.

      Удалить
  3. Мысль о вырождении искусствено уникального текста в бредотекст с последствиями от ПС достаточно интересна. Конкретно сегодня это видимо не работает, но уже завтра очень даже.

    ОтветитьУдалить
  4. Так и должно быть. Непосредственно ПС могут просто ужесточить, видоизменить алгоритмы обнаружения бредотекстов. А неожиданно это может ударить и по "сверхуникализаторам". :)

    ОтветитьУдалить