Увеличение текстовой релевантности без использования ключевых слов

SEO-конференция MegaIndex.tv 2012

Дата выхода в эфир : 12.11.2012

Код видео для блога

[авторизация]

подписаться в iTunes

просмотров 40341
комментариев 22

Герои: Алексей Чекушин

Зарегистрируйтесь или авторизируйтесь, чтобы добавлять комментарии к передачам

Евгений. 08.01.2013
Ребята из Мегаиндекса - ну сделайте же человеческие древовидные комментарии, ну в самом деле. Окошко без прокрутки и ответы строго в корень - это даже не прошлый век, а прямо доисторическая эра))
- Прокомментировать
Евгений 08.01.2013
Maks Enter, Алексей уже привел главное правило для любых коммерческих текстов - они должны решать проблемы посетителей, именно поэтому для выборки коллокаций берутся отзывы реальных покупателей товар или услуг. Если Текст будет написан красиво, грамотно, но не будет решать возникшую проблему - его никто не будет читать. А значит его роль - только Seo. Для вашей тематики лучше походить по форумам и подсмотреть, что люди говорят о своих тренерах плохого и хорошего , найти то же самое в своих тренерах и написать об этом. Тогда вы полностью сможете использовать потенциал текста - и для целей SEO и для целей продажи услуги.
- Прокомментировать
Евгений 08.01.2013
Ксения, это был пример SEO-мифа, а не рекомендация. когда-то давным давно, когда Яндекс только пробил скорлупу своего яйца, тексты ранжировались по количеству ключевых слов. Со временем этот фактор стал учитываться по-другому, хотя до сих пор можно увидеть в ТОПе сайты с переспамом. Но это уже скорее недоработки алгоритма, чем правило. Ну не может робот пока заменить человека.
- Прокомментировать
Ксения 18.11.2012
Почему вы сказали, что тошнота д.б. не менее 7%? - Везде говорится о том что низкие показатели не влияют на продвижение.
- Прокомментировать
Aharito 18.11.2012
@Алексей Чекушин:
Алексей, вы говорили о сжимаемости текстов как одном из признаков спамности. Сжимаемость можно понимать совершенно по-разному. Вопросы:
1. Что вы подразумевали под сжимаемостью текстов?
2. Какой алгоритм, а лучше инструмент порекомендуете для быстрой проверки текста на сжимаемость?
- Прокомментировать
Алексей Чекушин 16.11.2012
Корпус отзывов, разбитый по категориям. Т.е. отзывы на мобильные телефоны, отзывы на GPS навигаторы, и.т.д.
- Прокомментировать
Павко 16.11.2012
Алексей, если самописный софт, то что берете в качестве эталонного корпуса для определения естественности коллокаций?

Все сервисы для анализа коллокаций юзают свои корпуса, что неинтересно. Программы для работы с коллокациями используют любой корпус - но где взять любой корпус?)

Если парсить инет по конкурентным тематикам - там будут одни seoшные коллокации про пластиковые окна купить недорого. Их анализировать, это бред. Но и не анализировать же стихи Пушкина))
- Прокомментировать
Алексей Чекушин 15.11.2012
Пардон, я видимо обманул вас про сервисы для выделения коллокаций в конце передачи. Забыл, что мы использовали самописную автоматизацию. Прошу "понять и простить" (с). Мы использовали один из самых простых способов: I(x,y) = log{P(x,y)/[P(x)*P(y)]}, где: P(x,y) - вероятность сочетания слов x и y, P(x) и P(y) - вероятности слов x и y, соответственно. Об этом и других способах подробнее можно прочитать здесь: http://www.helsinki.fi/slavicahelsingiensia/preview/sh34/pdf/21.pdf
- Прокомментировать
Максим 14.11.2012
Уважаемый Мегаиндекс, Ваш гость обещал выложить ссылки на лингвистические сервисы. Может быть напомните ему? Заранее спасибо!
- Прокомментировать
Maks Enter 14.11.2012
Павко, если конкурент стабильно держит высокую позицию, то это не означает, что его текст лучше оптимизирован. Возможно у него внешних ссылок больше, их качество выше, а набор ссылочной массы более стабилен. Возможно на странице собран большой процент внутреннего ссылочного веса. Возможно домен старше. Причин может быть море. Ведь существует множество факторов, влияющих на результаты поисковой выдачи.
Если по-человечески текст - г**, то я бы ни стал на него ровняться.

А что касается поведенческих факторов и текстового контента, то можно посмотреть на Википедию. Если человек заходит в сеть с целью получить нужную информацию, то в большинстве случаев он получает её в виде текста. Если ресурс рассчитан на людей, чья цель вовсе не информация, а например, развлечения, тогда да, читать там вряд ли что-нибудь будут, кроме анекдотов.

Я сейчас пробую реализовать одну идею на нескольких проектах. Идея заключается в создании словарей с терминами на узкие темы. Вот например по теме кондиционеров:
http://miproteh.ru/konditsioneryi-s-obogrevom-osobennosti-ispolzovaniya/
Допустим, посетитель знакомиться с инструкцией по эксплуатации кондиционеров и встречает в тексте незнакомые термины (хладагент, фреон, цыкл Карно и т.д). Он может на них нажать и получить справку в специальном словаре понятий и терминов по теме - кондиционеры.
http://miproteh.ru/category/slovar-ponyatiy-i-terminov/
Идея была навеяна Википедией. Надеюсь, что приживётся.
- Прокомментировать
Игорь 14.11.2012
Спасибо за интервью.

Хотелось бы увидеть ссылки на сервисы...
- Прокомментировать
Bakalov 14.11.2012
Ну и где обещанные плюшки?
- Прокомментировать
zergut 13.11.2012
Интересный доклад. Но смущает отсутствие экспериментов по сравнению ранжирования "seo текстов для людей" и seo текстов старого образца.
В серпе Яндекса масса примеров переспамленных нечитаемых текстов. Действительно масса.

Если тексты "нового образца" ранжируются не хуже (лучше?), если вы это проверяли - покажите результаты экспериментов. Смысл без проверки огород городить?
- Прокомментировать
Павко 13.11.2012
мля, столько ссылок написал с сервисами - пост похерился. Пусть викимарт тогда дублирует)
- Прокомментировать
Павко 13.11.2012
В викимарте жопят как всегда ссылки))

Вот пример поиска коллокаций KWIC на ruscirpora

http://search.ruscorpora.ru/search.xml?env=alpha
- Прокомментировать
Павко 13.11.2012
Maks Enter. Читабельность, смысловое содержание и интересный стиль подачи не оказывает влияния на текстовое ранжирование.
У конкурента, которого никак не могу сделать такая бессмыслица в тексте: http://img-fotki.yandex.ru/get/6519/5175971.3a/0_77b6b_ed286bd0_XL Но первое место стабильно держит)) По-человечески текст - г**, но технически хорош и ни один матрикснет его не запилит)

И как тексты могут оказывать влияние на поведенческие, если большинство людей их даже не читает, а весь фокус внимания на меню, крутящиеся слайдеры, баннеры? Время на странице это не время чтения текста, а время рассматривания юзером всякой фигни в попытке найти нужную ему кнопку/ссылку ))))
- Прокомментировать
Павко 13.11.2012
Podilo, Сергей сервисов немного, можно юзать национальный корпус - ruscorpora. Там есть формат KWIC для поиска коллокаций. Яндекс его юзает для натаскивания матрикснета.

Вообще, баяны так-то двухлетние)) Про антиспам уже в паре-тройке передач все это говорили. На нескольких семинарах. Колокации взятые из маркета тоже показывали.

Слишком поверхностный уровень изложения, говорите плз. больше практики)))

С какой долей вероятности можно с помощью Hadoop и Mahout успешно кластеризировать спамные/качественные тексты, обучив их на хороших (например на коммерческом газетном корпусе) и спамных текстах?

Признаков для текста ведь уже немало выделено - думаю можно с полсотни признаков и характеристик для каждого текста собрать, включая всякие экзотические и неявные типа длины слов и character n-grams и синтаксиса.
Сравнив уровень знания яндексойдовских лингвистов и ведущими лингвистами экспериментаторами - увидел что там явно люди не очень высокого уровня работают и с трудом понимают что делают))

Расскажите лучше подробнее про то как юзать автоматизированно скрытое семантическое индексирование. Упоминаете какой раз, но как копирайтерам давать задание по нему. Не собирать же для каждого задания корпус всех текстов конкурентов в тематике)))

Когда уже будут передачи про всякие сингулярные разложения и многомерные шкалирования для классификации текстов/ссылок для чайников=) ? В яндексовской ШАД - ботаны какие-то вещают, тоска слушать их лекции, 5 минут и вырубает)) Хотя тема простая, если въехать. Примеры реализаций, к того же Расковалова занимают не больше страницы кода, т.к. все юзают уже готовые фреймворки.
- Прокомментировать
Сергей 13.11.2012
Увидеть бы наконец список этих сервисов.
- Прокомментировать
C4ACTbE 13.11.2012
Отличный эфир! Алексей, поделитесь названиями программ для вычисления коллокаций?
- Прокомментировать
Maks Enter 13.11.2012
Целая наука получилась.
На мой взгляд, в первую очередь, тексты должны легко читаться! Всё остальное уже потом. На второе место, после читабельности, я ставлю правильное смысловое содержание и интересный стиль подачи. На третьем месте ключевые слова.
Первые два компонента обеспечивают хорошие поведенческие факторы, третий нужен для настройки релевантности.

Пример:
Тема текста - Тренеры по большому теннису (6 место)
Основной ключ - Тренеры по теннису (2 место)
Результаты поисковой выдачи - Яндекс, регион Санкт-Петербург
Адрес страницы - http://lidertennis.ru/treneryi-po-tennisu/
Если найдёте какие-то изъяны в тексте или докажите, что его нельзя показывать в качестве примера, то просьба сообщить прямо там, на сайте теннисной школы.
- Прокомментировать
Podilo 13.11.2012
А где можно найти лингвистические сервисы, которые помогут в поиске коллокаций?? Спасибо.
- Прокомментировать
Podilo 12.11.2012
Большое спасибо за информацию. Нашел ответы на многие вопросы. Многие предположения подтвердились.
- Прокомментировать

Новости блога

Facebook

ВКонтакте

Twitter

Доклады конференций

	Как построить эффективную платформу для SEO
	Использование эвристик для классификации ссылочных доноров