3 метода создания LSI контента

LSI контент - методы содания

В отличие от SEO-текстов, использование LSI-контента (латентно-семантическое индексирование) в целях продвижения сайтов в СНГ упоминается редко. Публикаций на эту тему за последние 5 лет в Рунете немного. Но и в них авторы, как говорится, разъехались, кто в лес, кто – по дрова. Одни неоправданно, на мой взгляд, сужают сферу применения данного способа анализа, противопоставляют SEO и LSI, другие – относят к данной технологии то, что отношения к семантике вообще не имеет. Интересно отметить, что многие SEO-компании, студии веб-копирайтинга, пускай и не выдвигают LSI контент в ТОП своих преимуществ, но тематическую статейку о нем на своем сайте имеют. Иногда это гугло-перевод материала из англоязычной Википедии.

Попробуем расставить точки над I в LSI. Жаль, что не удастся расставить палочки над T, ввиду отсутствия последнего символа в аббревиатуре. :)

LSI оптимизация текста – анналы, текущее состояние дел


Обратимся к Википедии. В данном случае с ней спорить не придется. В русскоязычной Википедии статьи о латентно-семантической индексации (LSI) вообще нет. Есть только про LSA.

«Латентно-семантический анализ (ЛСА) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающимися, сопоставляющий некоторые факторы (тематики) всем документам и терминам.

В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов.» (Источник).
Там же мы можем выяснить, что существует и вероятностный латентно-семантический анализ, являющийся развитием LSI. Но для нас – практиков-копирайтеров-оптимизаторов
– это непринципиально, поскольку основным преимуществом ВЛСА (pLSA) является минимизация затрачиваемых ресурсов при обработке больших корпусов текстов.

Для практиков SEO намного важнее то, что LSI, несомненно, применяется поисковыми сервисами, как минимум – Google. Согласно источнику, Google ещё в далеком 2003 году «купил компанию “Appliad Semantics”, создателя улучшенной версии семантической технологии. Эта технология интегрирована в систему Интернет-рекламы, поисковые алгоритмы». В пресс-релизе о LSI говорится даже, как о способе анализа, «имитирующем человеческую мысль».
Влияние LSI на выдачу Google западные SEO-шники, мягко говоря, заметили в 2005 году (источник) .
Выше уже упоминалось, что сегодня в СНГ оптимизаторы семантическую индексацию упоминают, но не более того. На Западе ситуация принципиально иная – пример. Как видим, в широком употреблении термины «SEO-LSI», «органическое SEO». Следует оговориться, что с 2011 года на конференциях рунетовских оптимизаторов ряд докладчиков маркетинговых агентств, веб-студий делали примерно такие заявления: «уже год мы не пишем никакого SEO-контента, размещаем только естественные, полезные, продающие тексты». Такие заявления можно расценить, как переход к органическому, неявному использованию LSI.

Знакомство с историей вопроса на этом закончим. Тем не менее, следует иметь общее представление о том,

как работает латентно-семантическое индексирование текстов


И SEO-ежу понятно, что Google никому не расскажет подробностей. Тем не менее, рискну объяснить «на пальцах».

Система LSI-анализа собрала большие массивы (корпуса) текстов по разным темам (у поисковой машины с этим проблем нет). По каждой теме была выделена группа трастовых. Т.е. отобран контент, который однозначно вызывает доверие, приносит пользу посетителям сайтов. Логично предположить, что основой для такого деления контента являются поведенческие факторы, трастовость площадок.

Массивы трастовых текстов статистически обрабатываются на предмет выявления характерных для темы терминов и словосочетаний (коллокаций, биграмм, три- и более грамм). Задача это непростая не только из-за больших объёмов обработки. Ведь анализ контента должен учитывать морфологию и т. п. Добавим, что система анализа поисковой системы использует свои знания о правилах склонений, построения фраз и предложений не только при статистической обработке корпуса трастовых текстов. Последующая обработка «текущего» контента на предмет его проверки и ранжирования также использует эти знания.

После этого система имеет представление о том, из каких семантических (а по сути логических) последовательностей состоит (в значительной мере) хороший текст по определенной теме.
Например, для темы «автомобили» будут характерны «скорость Х км или миль в час, V-образный двигатель, отделка салона, объём цилиндров»…
Заметим, что для темы «строительство, ремонт» упомянутое выше слово «отделка» будет образовывать совсем другие коллокации, например «фактурная отделка фасада». А в теме инженерной графики речь будет идти о «сечении цилиндра».

Ясно, что система не стоит на месте, а постоянно пополняет и вновь статистически обрабатывает корпус трастовых текстов, чем совершенствует, актуализирует свою работу.

Что происходит, когда контент веб-страницы анализирует LSI-робот?


В ряде публикаций утверждается, что вначале страницу посещает, условно говоря, SEO-робот, а только вслед за ним LSI-робот. Последовательность для нас несущественна, будем считать, что это так.
SEO-робот нашел ключевые слова, определил тему. Затем LSI-робот проверяет контент на:

  • Правильность составления текста - грамматические, орфографические ошибки, правильную «увязку» слов (в первую очередь - ключевых) в предложениях…
  • Тематичность – подтверждаются ли ключевые слова и фразы наличием в тексте их синонимов, других тематических коллокаций
  • Актуальность контента для читателей.
Последний пункт требует пояснений. Уже писал здесь о реальной полезности данных LSA для авторов продающих текстов. Но сейчас мы смотрим на проблему с точки зрения робота.
Допустим, при анализе корпуса трастовых текстов по теме «мобильные телефоны» наиболее часто встречающимися оказались фразы о том, как долго телефон работает без подзарядки и насколько он удобно лежит в руке.
Теперь LSI-робот имеет перед собой два текста-описания моделей телефона. Оба явно тематические, в них есть указания на стандарт (GSM, CDMA), размер экрана, объём памяти, наличие диктофона, разрешение камеры… Но в одном из текстов ИМЕЮТСЯ фразы об удобстве и времени работы без подзарядки, а во втором – нет. Робот с полным основанием будет ранжировать выше первый текст, как отвечающий на актуальные вопросы потребителей.
Это мы рассматривали вариант «хорошего» тематического контента.
Понятно, что оптимизация текста подобным образом

«Закусив простоквашей, князь надел бекешу КУПИТЬ ПЛАСТИКОВЫЕ ОКНА и пошел тропкой через рощу к реке. В этот час он любил КАКИЕ ПЛАСТИКОВЫЕ ОКНА КУПИТЬ выходить на речной обрыв и любоваться закатом»

приведет к тому, что LSI-робот вообще откажется ранжировать его только за неправильность построения фраз.
Но даже если мы более правильно построим фразы

«Закусив простоквашей, князь надел бекешу и, задумавшись, ГДЕ КУПИТЬ ПЛАСТИКОВЫЕ ОКНА, пошел тропкой через рощу к реке. В этот час он любил, размышляя на тему, КАКИЕ ПЛАСТИКОВЫЕ ОКНА КУПИТЬ, выходить на речной обрыв и любоваться закатом»,

то нетематичность окружающих ключи слов даст ему все основания поступить аналогичным образом.
Это грубый пример. Но LSI «отловит» и фактически бессмысленный, набитый, кроме ключей, только общетематическими словами («лучшие, надежные, качественные, индивидуальный подход»…) контент.
Оговорюсь, что своими глазами на днях видел проиндексированную Google страницу, полностью аналогичную первому варианту. Это говорит о том, что LSI не работает? Нет. Во-первых, проиндексированная страница не означает фактически ранжируемая. Во-вторых, прогресс неумолим. Конечно, для Google русский язык – не самый важный приоритет. Тем не менее, и в «понимании» русского языка он по ряду вопросов превосходит Яндекс (пример).

Как писать LSI контент? (продолжение >>>)

4 комментария:

  1. В примере про автомобиль - двигательV-образный....

    ОтветитьУдалить
    Ответы
    1. Спасибо за обнаружение ошибки, сейчас исправим.
      Теоретически, конечно, может существовать и дабл-ю-образный двигатель, но в контексте темы LSI его упоминание будет явно нелогичным. :)

      Удалить
  2. Анонимный15 июля 2017 г., 23:03

    "Оговорюсь, что своими глазами на днях видел проиндексированную Google страницу, полностью аналогичную первому варианту. Это говорит о том, что LSI не работает? Нет. Во-первых, ........... Во-вторых, прогресс неумолим"...

    За 4 года ничего не изменилась. Нахожу в гугле подобные опусы, ничего общего не имеющие с текстом для людей. Не понятно, как же писать статьи. Стараться для людей или все равно?

    ОтветитьУдалить
    Ответы
    1. Не могу полностью согласиться. За последние годы объем абсолютного (бессмысленного и беспощадного)СЕО-спама таки уменьшился. И продолжает уменьшаться. Из чего не следует, что уже все чудненько и прекрасненько.
      А как писать? Если заказчик не ограничивает копирайтера, то - для людей. А если ограничивает, то - как заказчик скажет. :)

      Удалить