Какого ещё Ципфа нужно нашему SEO-тексту?



Честно признаюсь, что из моих заказчиков никто и никогда не требовал проверять SEO-текст, частотность использованных слов в нем по закону Ципфа. Однако:
  • на биржах копирайтинга иногда встречаются заказы с грозным предупреждением о том, что на основании подобной проверки будут требовать доработки текста
  • в ряде материалов утверждается, что по этому закону можно выявлять синонимайз, то есть некачественный рерайт, генерирование статей по шаблону с использованием замены слов синонимами
  • существуют онлайн сервисы такой проверки (мы будем пользоваться этим - http://1y.ru/text.php).
Значит, это кому-нибудь нужно?

Кто такой закон Ципфа?

В определенном смысле его можно понимать, как ярко выраженную проверку частотности вхождения слов в текст. На самом деле всё несколько сложнее (увидим ниже), но обычно его формулируют так:
Согласно Вики, В ДОСТАТОЧНО(?) большом и ЕСТЕСТВЕННОМ тексте частота использования каждого слова будет обратно пропорциональна его номеру в упорядоченном по убыванию частотности списке использованных слов. Иллюстрируется всё это графиком в виде экспоненты и указанием, что в логарифмической системе координат график будет представлять прямую линию.

Теоретизирование :) на этом закончим и перейдём к решению практических вопросов.

Позволяет ли практически закон Ципфа выявлять текст, созданный методом синонимайза?

Возьмем два текста, посвященных именно этой теме (http://kontenta.ru/blog/zakon-tsipfa, http://com-seo.ru/poisk-robot-zakon-zipfa-proverka-text-kontenta.html). В обоих утверждается, что такая проверка полезна, что таким способом синонимайз ловится. Проверим САМИ эти тексты при помощи указанного выше сервиса (все рисунки можно увеличить кликом).

статья о законе Ципфа 1
статья о законе Ципфа 2


В обоих случаях результат только УДОВЛЕТВОРИТЕЛЬНЫЙ.

Теперь возьмем два текста, сгенерированных из шаблона. Продемонстрируем сами статьи, чтобы не возбуждать недоверия:
Пример сгенерированного из шаблона текста 1
Пример сгенерированного из шаблона текста 2









Что покажет проверка?

результаты проверки по закону Ципфа синонимайза

Тоже УДОВЛЕТВОРИТЕЛЬНО! Результат лишь на несколько процентов ниже, чем у текстов «идеологов» ловли синонимайза!

Возникли сомнения, что синонимайз по Ципфу ловится?
результаты проверки по закону Ципфа синонимайза 2По отдельному тексту этого явно нельзя определить . Может быть Вики и бытующие мнения неверны? Только обработка больших корпусов текстов позволяет отличать сининимизированные корпуса от естественных?
Доморощенные эксперименты отложим, обратимся к достаточно серьёзному источнику информации - вот он (это первая статья, там есть 2 продолжения).
Здесь мы можем ознакомиться с результатами экспериментов и находим подтверждение, что

 

 

 

Используя только закон Ципфа НЕВОЗМОЖНО отличать МАССИВЫ естественных и синонимизированных текстов как небольшого (500 символов), так и довольно большого (30-60 тысяч символов) размера.

Также здесь мы узнаём, что приведенное выше определение закона в действительности имеет более сложный вид, константы варьируются в зависимости от языка, темы…
закон Ципфа уточнение

К практической применимости ближе «более грубое» понимание закономерностей, как 80 к 20, 75 к 25. Причем область действия закона значительно более широка:
закон Ципфа для разных областей

В отношениях Ципф-синонимайз мы, полагаю, разобрались. НЕ МОЖЕТ Яндекс или Гугл, действуя в лоб по этому закону, отделить синонимайз от хорошего естественного текста. Каким же образом они выявляют по генерированному контенту, к примеру, сателлитные сети сайтов? У меня нет точных данных по этому вопросу. Но ведь каждый из нас сегодня имеет возможность проверить конкретную статью на синонимайз за считанные секунды, онлайн и бесплатно! Какие могут быть вопросы по поводу подобной возможности для поисковых систем, имеющих гораздо более мощные ресурсы? Корреляционные методы проверки уникальности текста или подобные, более совершенные технологии готовы очень много поведать об истинной его уникальности.
Зададимся другим вопросом:

Соответствие распределения частотности слов в тексте закону Ципфа помогает поисковым машинам определить его качество, тематику, естественность, релевантность запросу?

Логика оптимизаторов понятна: Если каждый текст будет иметь «правильное, естественное» распределение частотностей слов, то:
  • каждый текст будет лучше ранжироваться
  • суммарно весь контент сайта поисковику «понравится».
Дальше, как обычно, SEO-шник может впасть в крайность:
ДаЙОш 98-100% соответствия закону Ципфа!!!
Возьмем заведомо естественные тексты. Антон Чехов, рассказ «Человек в футляре».

проверка по закону Ципфа произведения Чехова
Очень плохо пишет товарищ Чехов. Подобные эксперименты проводил и для Л.Н. Толстого «Война и мир», выбирал главы без диалогов (в них заведомо часто будут упоминаться имена персонажей) – результаты 40-55%. Ок, это авторы отсталые, писали в эпоху не только «до Интернета», но и «до Ципфа». Плюс ко всему – они ого-го какие литераторы, нам бы чего попроще.



проверка по закон Ципфа сообщений на форуме
Берем заведомо естественное обсуждение на форуме темы «Женщины более развратны, чем мужчины?» (никаких ссылок, рекламы чего-либо нет, да и тематика не располагает).

Всего 62%, только удовлетворительно.






Ок, это всякие отдельные обыватели пишут, а нас интересуют серьёзные материалы, созданные специалистами, но заведомо без SEO-спама. Берем пару текстов из блога Яндекса на Хабрахабре.
проверка по закону Ципфа текстов с блога Яндекса
проверка по закону Ципфа текстов с блога Яндекса 2










Плохо пишут товарищи с Яндекса! Пробовал другие тексты из блога – иногда результат достигал 90%.

Ок, эти статьи писались явно без учета требований поисковых машин. Нас интересуют SEO-тексты, которые однозначно им нравятся. Берем несколько ТОПов выдачи Яндекса.

проверка по закону Ципфа текстов из ТОПа  Яндекса

проверка по закону Ципфа текстов из ТОПа  Яндекса 2
проверка по закону Ципфа текстов из ТОПа  Яндекса 2

проверка по закону Ципфа текстов из ТОПа  Яндекса 4
проверка по закону Ципфа текстов из ТОПа  Яндекса 5 








Используем боевые коммерческие запросы («купить квартиру в Москве») и не менее важные информационные («как выбрать микроволновку»). Выбираем страницы не обязательно с первого места, но такие, где текст более-менее объемный (на рисунках по словам понятно, что к чему относится):
Особо интересно отдельно глянуть на результаты анализа титула ТОП-овой SEO-студии. :)


Всё это НЕ ОТЛИЧНО по закону Ципфа, что не мешает страницам с этими текстами (возможно и самыми что ни на есть оптимизированными) находится на видных местах в выдаче.
Обращаем внимание: Почти всегда РЕКОМЕНДУЕМОЕ (по закону) значение частотности слова оказывается МЕНЬШЕ реально имеющегося в тексте.

Наконец, по запросу «как выбрать ноутбук» первым в топе видим страницу - http://mirsovetov.ru/a/hi-tech/computers/notebook-computer.html. 
проверка по закону Ципфа текстов из ТОПа  Яндекса 6

Чудо случилось! 99%!
Если вчитаться в данный текст, то мы без труда увидим явные признаки оптимизации «старой школы» - длинная портянка, обилие «купить ноутбук» с которых начинаются предложения…
Ой!
Оптимизаторы явно (возможно и используя закон Ципфа) «наводили» поисковик на мысль, что это статья про «КУПИТЬ ноутбук». По этому запросу в ТОП текст НЕ ПОПАЛ. Но Яндексу явно понравилось, что на странице всё по разделам разложено – процессор, аккумулятор, жесткий диск… И Яндекс без проблем, «вопреки Ципфу» переквалифицировал материал из «купить» в «КАК ВЫБРАТЬ ноутбук» по реальному содержанию!

Появляется логичное предположение, что

100% соответствия распределения слов текста закону Ципфа будет говорить скорее о его СПАМНОСТИ?

Проверим это предположение. Ещё в 2011 году Яндекс приводил пример явно спамного текста (http://webmaster.ya.ru/replies.xml?item_no=11464). Признаем, что данный образец не является худшим, но он весьма ярко представляет свою категорию. Чтобы вы не трудились, вот он:
спамный текст пример от Яндекса

А вот результат его проверки:
проверка по закону Ципфа явно спамного текста

Супер, те же 99%!
Обращаем внимание:
  • именно спамные тексты тяготеют к тому, что РЕКОМЕНДУЕМОЕ (по закону) значение частотности слова необходимо УВЕЛИЧИВАТЬ (ненамного) от реально имеющегося
  • реальные значения частотностей слов обычно (особенно в заведомо естественных текстах, текстах «свободных» тематик) оказываются БОЛЬШЕ рекомендуемого.

Какие выводы можно сделать оптимизатору, SEO-копирайтеру?

В нашу задачу не входит подтверждать или опровергать закон Ципфа. Есть все основания считать, что он прекрасно выполняется на действительно больших корпусах текстов. Возможно имеет какой-то смысл проверять весь объём контента сайта на соответствие требуемым закономерностям. Но  для этого необходим специальный инструментарий и действительно большой объём контента (на сайте из десятков, сотен страниц самого естественного контента закономерности могут и не выполняться).

  • в практической деятельности, когда мы имеем дело с отдельной статьёй, на законе Ципфа совершенно не нужно зацикливаться
  • высокое 90-100% соответствие частотности слов в тексте закону Ципфа скорее говорит о его СПАМНОСТИ, чем ЕСТЕСТВЕННОСТИ или качестве.
30-90% соответствия по данным онлайн-сервисов – норма. Всегда нужно учитывать специфику, тематику материала.
Отдельно нужно сказать о качестве этих онлайн-сервисов. Как и простые сервисы проверки частотности слов, они грешат слабым «пониманием» языка конкретных статей. Сюда относятся и отнесение к стоп-словам, исключение из анализа многих аббревиатур, имен собственных, которые могут являться даже ключами. Сюда же относится и, скажем, пресловутый пример предположения разных сущностей за словами «банк» и «банка» в тексте финансовой тематики. Если уж вы решили пользоваться онлайн-сервисом, то обращайте внимание не только на полученную итоговую величину в процентах. 

Оптимизаторы, не сотворите кумира из закона Ципфа!


12 комментариев:

  1. В виде экспоненты, Вы имели в виду, а не гиперболы? ;)

    ОтветитьУдалить
    Ответы
    1. Ну да, начал уже забывать "высшую" математику. :)
      Чуть позже исправлю. Хотя, что-то мне помнится, что в каком-то обсуждении по теме, какие-то высоколобые ребята говорили и "гиперболическом" характере кривой.
      Значит, я такой не один! :)

      Удалить
  2. Замечательная статья, Дмитрий. Правильно: не творим себе кумира, но о законе Ципфа, как мы с Вами решили у меня в блоге, знать нужно. Мне попадались заказчики, требующие использовать именно такие анализаторы (не обязательно - Ваш или мой пример, а часто - тот, который называет сам клиент). Работаю с серьёзными людьми по принципу "Хотите? Получите". Есть особый сорт специалистов, которые верят чему-то одному, и они имеют право на личное мнение. Возможно, какие-то "секретные тайны" действительно помогают опытному сеошнику составлять правильную мозаику в голове, продвигать статьи и блог. То, что инструментария не хватает, - тоже правда.

    ОтветитьУдалить
    Ответы
    1. С некоторых пор Ваш покорный слуга набрался наглости не только с Марией Велес, но и с заказчиками спорить. :)
      Сегодня (август месяц, елки-метелки, а пашу, как проклятый!) одному на пальцах доказал, что ничего хорошего в небольшом тексте с его квадратными ключами не получится. Убедил, сошлись, что будем правильно и очень умеренно склеивать ключи.
      А потом в цене не сошлись. :)

      Удалить
    2. Опасная схема, рисковый Вы человек! Хотя когда у меня много работы я тоже начинаю выезживаться))))))

      Удалить
    3. Ну, кроме внешних обстоятельств, есть же ещё принципы!
      :))))))))))

      Удалить
  3. думаю что истина где-то по середине как всегда, а любые крайности это уже не хорошо

    ОтветитьУдалить
    Ответы
    1. Сие есть железная истина.
      Но закон Ципфа при создании отдельного оптимизированного текста, ИМХО, ни в среднем, ни вообще никак применять не следует. :)

      Удалить
  4. С идеей согласен. Алгоритмы работающие по неизвестных схемах применять опасно. Также не известно правильно ли понимают и воплощают закон сами программисты сайтов проверки. При запуске разных вариантов проверки они демонстрирую разные показатели.

    А чем пользовались Вы при проведении экспериментов?

    ОтветитьУдалить
    Ответы
    1. У нас в тексте все указано. :)
      http://1y.ru/text.php - этот Ципф-анализатор использовался при экспериментах.
      Конечно, программисты могут ошибаться. Но здесь-то алгоритм весьма простой. Нет больших вопросов, что закон Ципфа выполняется. Важно понимать, что
      А) он работает только на массивах текстов, а не отдельных текстах.
      Б) Даже на массивах текстов он не позволяет отличить естественные, качественные тексты от, например, сгенерированных.

      Удалить
  5. Спасибо, вот здесь еще относительно текстов закон Ципфа интересно объясняется: artelectronics.ru/blogs/pisatelskij-dar-skvoz-prizmu-chisel-zakon-tsipfa

    ОтветитьУдалить
  6. Пожалуйста, всегда рады стараться.

    ОтветитьУдалить