Вход в систему Регистрация

Увеличение текстовой релевантности без использования ключевых слов

SEO-конференция MegaIndex.tv 2012
Дата выхода в эфир : 12.11.2012
  • просмотров 40341
  • комментариев 22

Герои: Алексей Чекушин

Зарегистрируйтесь или авторизируйтесь, чтобы добавлять комментарии к передачам

Комментарии

  • Евгений. 08.01.2013

    Ребята из Мегаиндекса - ну сделайте же человеческие древовидные комментарии, ну в самом деле. Окошко без прокрутки и ответы строго в корень - это даже не прошлый век, а прямо доисторическая эра))

  • Евгений 08.01.2013

    Maks Enter, Алексей уже привел главное правило для любых коммерческих текстов - они должны решать проблемы посетителей, именно поэтому для выборки коллокаций берутся отзывы реальных покупателей товар или услуг. Если Текст будет написан красиво, грамотно, но не будет решать возникшую проблему - его никто не будет читать. А значит его роль - только Seo. Для вашей тематики лучше походить по форумам и подсмотреть, что люди говорят о своих тренерах плохого и хорошего , найти то же самое в своих тренерах и написать об этом. Тогда вы полностью сможете использовать потенциал текста - и для целей SEO и для целей продажи услуги.

  • Евгений 08.01.2013

    Ксения, это был пример SEO-мифа, а не рекомендация. когда-то давным давно, когда Яндекс только пробил скорлупу своего яйца, тексты ранжировались по количеству ключевых слов. Со временем этот фактор стал учитываться по-другому, хотя до сих пор можно увидеть в ТОПе сайты с переспамом. Но это уже скорее недоработки алгоритма, чем правило. Ну не может робот пока заменить человека.

  • Ксения 18.11.2012

    Почему вы сказали, что тошнота д.б. не менее 7%? - Везде говорится о том что низкие показатели не влияют на продвижение.

  • Aharito 18.11.2012

    @Алексей Чекушин:
    Алексей, вы говорили о сжимаемости текстов как одном из признаков спамности. Сжимаемость можно понимать совершенно по-разному. Вопросы:
    1. Что вы подразумевали под сжимаемостью текстов?
    2. Какой алгоритм, а лучше инструмент порекомендуете для быстрой проверки текста на сжимаемость?

  • Алексей Чекушин 16.11.2012

    Корпус отзывов, разбитый по категориям. Т.е. отзывы на мобильные телефоны, отзывы на GPS навигаторы, и.т.д.

  • Павко 16.11.2012

    Алексей, если самописный софт, то что берете в качестве эталонного корпуса для определения естественности коллокаций?

    Все сервисы для анализа коллокаций юзают свои корпуса, что неинтересно. Программы для работы с коллокациями используют любой корпус - но где взять любой корпус?)

    Если парсить инет по конкурентным тематикам - там будут одни seoшные коллокации про пластиковые окна купить недорого. Их анализировать, это бред. Но и не анализировать же стихи Пушкина))

  • Алексей Чекушин 15.11.2012

    Пардон, я видимо обманул вас про сервисы для выделения коллокаций в конце передачи. Забыл, что мы использовали самописную автоматизацию. Прошу "понять и простить" (с). Мы использовали один из самых простых способов: I(x,y) = log{P(x,y)/[P(x)*P(y)]}, где: P(x,y) - вероятность сочетания слов x и y, P(x) и P(y) - вероятности слов x и y, соответственно. Об этом и других способах подробнее можно прочитать здесь: http://www.helsinki.fi/slavicahelsingiensia/preview/sh34/pdf/21.pdf

  • Максим 14.11.2012

    Уважаемый Мегаиндекс, Ваш гость обещал выложить ссылки на лингвистические сервисы. Может быть напомните ему? Заранее спасибо!

  • Maks Enter 14.11.2012

    Павко, если конкурент стабильно держит высокую позицию, то это не означает, что его текст лучше оптимизирован. Возможно у него внешних ссылок больше, их качество выше, а набор ссылочной массы более стабилен. Возможно на странице собран большой процент внутреннего ссылочного веса. Возможно домен старше. Причин может быть море. Ведь существует множество факторов, влияющих на результаты поисковой выдачи.
    Если по-человечески текст - г**, то я бы ни стал на него ровняться.

    А что касается поведенческих факторов и текстового контента, то можно посмотреть на Википедию. Если человек заходит в сеть с целью получить нужную информацию, то в большинстве случаев он получает её в виде текста. Если ресурс рассчитан на людей, чья цель вовсе не информация, а например, развлечения, тогда да, читать там вряд ли что-нибудь будут, кроме анекдотов.

    Я сейчас пробую реализовать одну идею на нескольких проектах. Идея заключается в создании словарей с терминами на узкие темы. Вот например по теме кондиционеров:
    http://miproteh.ru/konditsioneryi-s-obogrevom-osobennosti-ispolzovaniya/
    Допустим, посетитель знакомиться с инструкцией по эксплуатации кондиционеров и встречает в тексте незнакомые термины (хладагент, фреон, цыкл Карно и т.д). Он может на них нажать и получить справку в специальном словаре понятий и терминов по теме - кондиционеры.
    http://miproteh.ru/category/slovar-ponyatiy-i-terminov/
    Идея была навеяна Википедией. Надеюсь, что приживётся.

  • Игорь 14.11.2012

    Спасибо за интервью.

    Хотелось бы увидеть ссылки на сервисы...

  • Bakalov 14.11.2012

    Ну и где обещанные плюшки?

  • zergut 13.11.2012

    Интересный доклад. Но смущает отсутствие экспериментов по сравнению ранжирования "seo текстов для людей" и seo текстов старого образца.
    В серпе Яндекса масса примеров переспамленных нечитаемых текстов. Действительно масса.

    Если тексты "нового образца" ранжируются не хуже (лучше?), если вы это проверяли - покажите результаты экспериментов. Смысл без проверки огород городить?

  • Павко 13.11.2012

    мля, столько ссылок написал с сервисами - пост похерился. Пусть викимарт тогда дублирует)

  • Павко 13.11.2012

    В викимарте жопят как всегда ссылки))

    Вот пример поиска коллокаций KWIC на ruscirpora

    http://search.ruscorpora.ru/search.xml?env=alpha

  • Павко 13.11.2012

    Maks Enter. Читабельность, смысловое содержание и интересный стиль подачи не оказывает влияния на текстовое ранжирование.
    У конкурента, которого никак не могу сделать такая бессмыслица в тексте: http://img-fotki.yandex.ru/get/6519/5175971.3a/0_77b6b_ed286bd0_XL Но первое место стабильно держит)) По-человечески текст - г**, но технически хорош и ни один матрикснет его не запилит)

    И как тексты могут оказывать влияние на поведенческие, если большинство людей их даже не читает, а весь фокус внимания на меню, крутящиеся слайдеры, баннеры? Время на странице это не время чтения текста, а время рассматривания юзером всякой фигни в попытке найти нужную ему кнопку/ссылку ))))

  • Павко 13.11.2012

    Podilo, Сергей сервисов немного, можно юзать национальный корпус - ruscorpora. Там есть формат KWIC для поиска коллокаций. Яндекс его юзает для натаскивания матрикснета.


    Вообще, баяны так-то двухлетние)) Про антиспам уже в паре-тройке передач все это говорили. На нескольких семинарах. Колокации взятые из маркета тоже показывали.

    Слишком поверхностный уровень изложения, говорите плз. больше практики)))

    С какой долей вероятности можно с помощью Hadoop и Mahout успешно кластеризировать спамные/качественные тексты, обучив их на хороших (например на коммерческом газетном корпусе) и спамных текстах?

    Признаков для текста ведь уже немало выделено - думаю можно с полсотни признаков и характеристик для каждого текста собрать, включая всякие экзотические и неявные типа длины слов и character n-grams и синтаксиса.
    Сравнив уровень знания яндексойдовских лингвистов и ведущими лингвистами экспериментаторами - увидел что там явно люди не очень высокого уровня работают и с трудом понимают что делают))

    Расскажите лучше подробнее про то как юзать автоматизированно скрытое семантическое индексирование. Упоминаете какой раз, но как копирайтерам давать задание по нему. Не собирать же для каждого задания корпус всех текстов конкурентов в тематике)))

    Когда уже будут передачи про всякие сингулярные разложения и многомерные шкалирования для классификации текстов/ссылок для чайников=) ? В яндексовской ШАД - ботаны какие-то вещают, тоска слушать их лекции, 5 минут и вырубает)) Хотя тема простая, если въехать. Примеры реализаций, к того же Расковалова занимают не больше страницы кода, т.к. все юзают уже готовые фреймворки.

  • Сергей 13.11.2012

    Увидеть бы наконец список этих сервисов.

  • C4ACTbE 13.11.2012

    Отличный эфир! Алексей, поделитесь названиями программ для вычисления коллокаций?

  • Maks Enter 13.11.2012

    Целая наука получилась.
    На мой взгляд, в первую очередь, тексты должны легко читаться! Всё остальное уже потом. На второе место, после читабельности, я ставлю правильное смысловое содержание и интересный стиль подачи. На третьем месте ключевые слова.
    Первые два компонента обеспечивают хорошие поведенческие факторы, третий нужен для настройки релевантности.

    Пример:
    Тема текста - Тренеры по большому теннису (6 место)
    Основной ключ - Тренеры по теннису (2 место)
    Результаты поисковой выдачи - Яндекс, регион Санкт-Петербург
    Адрес страницы - http://lidertennis.ru/treneryi-po-tennisu/
    Если найдёте какие-то изъяны в тексте или докажите, что его нельзя показывать в качестве примера, то просьба сообщить прямо там, на сайте теннисной школы.

  • Podilo 13.11.2012

    А где можно найти лингвистические сервисы, которые помогут в поиске коллокаций?? Спасибо.

  • Podilo 12.11.2012

    Большое спасибо за информацию. Нашел ответы на многие вопросы. Многие предположения подтвердились.

Рекомендуем

Новости блога

Facebook
ВКонтакте
Twitter

Доклады конференций

Как построить эффективную платформу для SEO
Использование эвристик для классификации ссылочных доноров

Новости AdCrunch

Sam Altman’s project World looks to scale its human verification empire. First stop: Tinder.
Kevin Weil and Bill Peebles exit OpenAI as company continues to shed ‘side quests’
Man who hacked US Supreme Court filing system sentenced to probation

Наши проекты