Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Вершинин Владимир

No description
by

Vladimir Vershinin

on 16 April 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Вершинин Владимир

Вершинин Владимир для ТопЭксперт
Руководитель лаборатории в
BPR

Creative Lab
Аналитик и преподаватель
УЦ ТопЭксперт
Ведущий передачи "5 полезных кейсов" на
MI.TV
Индексация
Ранжирование
Link факторы
Слоны фауны SEO:
Вершинин Владимир
Руководил как студиями, так и отделами интернет-проектов в крупных компаниях

экс. Руководитель отдела Интернет-проектов в “1й Архитектор Бизнеса”


http://www.1ab.ru
экс. Руководитель Web-студии “Cron”

http://www.cronstudio.ru/

Работаю/л с:
1й Архитектор бизнеса
Усервис+
Nikita Online
Bork
Bagatelle
Catalonia On-line
Телекомпания Живые новости
Электрофлот
INVADER
Litebox Corp
Сантеком
Synology-Store
Автознак
и др
Опыт разработки, продвижения и последующей монетизации порталов с нуля.
От идеи до 15к $
/ мес с площадки.
При затратах в 2к
.
В разработке i-проектов
с 1995 года
В SEO
с 2006 года
Опыт работы –
более 300 проектов
• Консалтинг в IT
• SEO & SEM
• Семантика
• Автоматизация внешняя и внутренняя
• Коммерческая аналитика
• Проектирование интернет проектов
• Разработка интернет проектов
Настройка Индексации
"...и пусть узрят!"
Основные цели занятия:
дать представление о индексации

рассмотреть основные проблемы, мешающие индексации

рассмотреть основные решения данных проблем

показать интересные решения для повышения индексации

Sitemap
Robots.txt
htaccess
Настройка редиректов
Настройка ответов сервера
rel=canocical
Кабинет вебмастера
Что конкретно будем рассматривать?
Для любителей маштабов:
Алгоритм решения по автоматизации работы с индексацией.
Чем опасна
неправильная индексация?
“И начались кровавые войны между теми кому душно, и теми кому дует!”
Количество документов, участвующих в ранжировании ПС, значительно меньше, или больше настоящего кол-ва документов на сайте.

В ранжировании участвуют не те документы, что должны.
В сухом остатке:
Поиск не видит часть документов, или видит не те
Вы недополучаете трафик по этим документам
Вы теряете рекламные места и деньги, если площадка монетизируется
Вы теряете деньги с прямых продаж, если площадка продажная
Вы получаете “дыры” во внутренней перелинковке
Что делать?
1
Структура сайта
Как выглядит сайт сейчас?
Page Weight
Любой другой софт или сервисы
что бы сделать выводы о том, как на самом деле выглядит структура сайта

что бы сделать выводы о том, где искать дубли

что бы выделить структурные сегменты (категории, карточки, статьи и тд) связанные каким-либо единым URL

Полученные результаты нужны Вам для того:
Создаем sitemap
На основе данных шага
№1.1
составить Карту сайта
Советы:

делите карту сайта на сегменты (перечень страниц категорий, перечень карточек товара, перечень страниц статей и тд)

под каждый сегмент свой XML файл

основной файл сайтмапа содержит только ссылки на XML файлы сегментов

NB:

проверьте актуальность карты сайта

проверьте карту сайта на ошибки

проанализируйте расстановку дат индексации и приоритетов в карте сайта

займитесь поиском запрещенных к индексации страниц в карте сайта
Обязательно создаем отдельный файлик со всеми URL проекта
Данный список потребуется Вам для:

использования перечня урлов страниц в виде запросов к поиску для проверки на индекс

для дальнейшего сравнения, что в индексе, а что нет

2
Тюнинг robots.txt
технические страницы
конечным урлом
*
по маске
**

отдельные директории

инсайд информацию

Закрываем ВСЕ лишнее:
User-agent: *
Disallow: /?
Disallow: /*ukey=auth
Disallow: /*ukey=cart
Disallow: /*ukey=checkout
Disallow: /*ukey=feedback
Disallow: /installer/
Disallow: /published/wbsadmin/
(*)
Disallow: /login/
Disallow: /*ukey=logout
Disallow: /*ukey=office
Disallow: /*ukey=order_status
Disallow: /published/SC/html/scripts/
Disallow: /*ukey=register
Disallow: /*ukey=remind_password
Disallow: /*view=*
(**)

Sitemap:http://www.BBBBB.ru/sitemap.php
Host: www.ВВВВВ.ru

Sitemap:http://www._____.ru/sitemap.php
Указываем полный адрес к карте сайта в директиве sitemap:
Host: www._________.ru
Указываем основное зеркало в директиве Host:
webmaster.yandex.ru
*
Обязательно проверить
Проверка наличия и актуальности robots.txt

Проверка возможности индексации всех страниц сайта при текущих инструкциях robots.txt

Проверка robots.txt на ошибки

Проверка robots.txt на полноту данных

Проверка robots.txt на наличие директив для всех ПС
NB:
Все уважающие себя разработчики CMS выкладываю у себя в справке, или на сайте свой стандартный robots.txt

Вся дополнительная информация по директивам и их использованию толково описаны в хелпе самого Яндекса

Htaccess - основные моменты
Перенаправление с доменного имени
с www -> на без www и наоборот

Автоматическая установка и удаления
/
в конце URL

Удаление /index.php
в строке запроса

Указание серверу какие заготовки-заглушки отдавать при возникновении ошибок сервера с кодами от 400 до 504

Более подробно почитайте, например, на
http://habrahabr.ru/post/154643/

NB:
Если Вы не понимаете, что делаете: ни в коем случае, не меняйте настройки
данного файла самостоятельно. Это может оказаться фатальным.

А даже если понимаете, все равно лучше обратитесь к своему программисту, который сможет поправить все безболезненно.
Настройка ответов сервера - основные моменты
Основная проблема
- код 200 вместо 404 ошибки

Чем плохо?
попадание в индекс несуществующих страниц

разрастание структуры сайта в геометрической прогрессии

уменьшение скорости индексации нужных страниц

# Bad Rquest
ErrorDocument 400 /400.html
# Authorization Required
ErrorDocument 401 /401.html
# Forbidden
ErrorDocument 403 /403.html
# Not found
ErrorDocument 404 /404.html
# Method Not Allowed
ErrorDocument 405 /405.html
# Request Timed Out
ErrorDocument 408 /408.html
# Request URI Too Long
ErrorDocument 414 /414.html
# Internal Server
Error ErrorDocument 500 /500.html
# Not Implemented
ErrorDocument 501 /501.html
# Bad Gateway
ErrorDocument 502 /502.html
# Service Unavailable
ErrorDocument 503 /503.html
# Gateway Timeout
ErrorDocument 504 /504.html

Настройка редиректов
302 — «перемещен временно»
. Настройка 302 редиректа используется для временного перенаправления, например, во время редизайна сайта, когда страница еще «сырая», но сайт должен функционировать. При 302 редиректе прежняя страница сохраняется в индексе и ее вес не передается.
301 — «перемещен навсегда»
. Настройка 301 редиректа используется при смене URL страниц и при склейке сайтов. Прежняя страница выпадает из индекса, но при этом весь заработанный ею вес практически полностью передается на новую страницу, куда сделан редирект.



rel=canocical
Зачем нужно указывать каноническую страницу?

Часто сайты содержат несколько страниц, на которых перечислены одни и те же товары.

Например, на одной странице продукты могут быть указаны в алфавитном порядке, а на других – упорядочены по цене или рейтингу.
Что такое каноническая страница?

Каноническая страница – это рекомендуемый экземпляр из набора страниц с очень похожим содержанием.

http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=139394
Официальное описание:
rel=next / rel=prev
решение для пагинации

Например:
На новостных и издательских сайтах длинные статьи обычно размещаются на нескольких страницах.

На торговых сайтах списки товаров в категориях, содержащих большое количество элементов, разделяются на несколько страниц.

На дискуссионных форумах ветви обсуждений могут разделяться на несколько последовательных URL.
Содержание сайта может разбиваться на страницы по-разному.



http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=1663744
Официальное описание:
Основные компетенции:
Как повысить полноту индексации?
статические блоки
динамические блоки


Создаем блоки перелинковки
Что понадобится?
Перечень всех URLов сайта единым списком
Парсер выдачи ПС
Ловец ботов
Модуль динамических блоков перелинковки на сайте

Что будем делать?
Загоняем URLы структуры в парсер в качестве запросов к ПС.

На выходе получаем ответы ПС по каждому из этих URL. В данном случае нас интересует только бинарный показатель ответа – есть / нет. Если есть ответ в результатах поиска – страница в индексе. Если нет – нет.

Таким образом, загрузив результаты парсинга в тот же Excel и отсортировав ответы по бинарному показателю да / нет, мы получаем перечень URL присутствующих и отсутствующих в индексе.

Перечень отсутствующих в индексе URL ставится на очередь в подготовленные под это динамические блоки.

Ловец ботов идентифицирует пришедшего бота ПС и при получении данного сигнала в динамические блоки перед отдачей боту вставляются ссылки на не проиндексированные страницы данной поисковой системой.

Ранжирование
"...и пусть уверуют!"
Как результат индексация на уровне 98-99%
3
4
5
6
7
8
Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.
TF-IDF

(от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса.
Если документ
содержит 100 слов и слово «заяц» встречается в нём 3 раза
, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100).

Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов.
Таким образом, если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000).

Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-DF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).
Функция ранжирования BM25
В информационном поиске, Okapi BM25 — функция ранжирования, используемая поисковыми системами для упорядочивания документов по их релевантности данному поисковому запросу.
Сама функция носит название BM25 (BM от англ. best match), но её часто называют «Okapi BM25», по названию поисковой системы Okapi, созданной в Лондонском городском университете в 1980-х и 1990-х годах, в которой эта функция была впервые применена.
BM25 — поисковая функция на неупорядоченном множестве термов («мешке слов») и множестве документов, которые она оценивает на основе встречаемости слов запроса в каждом документе, без учёта взаимоотношений между ними (например, близости, *встречаемости слова в важных зонах документа). Это не одна функция, а семейство функций с различными компонентами и параметрами.
Пример применения на анкор-листах
Факторы выбора ссылочных доноров
"...и пойдут за нами!"
Возраст сайта
Кол-во входящих ссылок на домен
Кол-во исходящих ссылок с домена
Кол-во внешних на странице
Кол-во страниц в индексе
Уровень вложенности документа
Посещаемость
PR
Грязь в seoIN
Грязь в seoOUT

Кол-во внутренних на странице
Регион
Позиции сайта
Позиции страницы
Старый или новый документ
Продажа ссылок
Продажа рекламы
Покупка ссылок
ТИЦ
Наличие в каталогах

Выводим критерии:
Исходящие с домена / входящие
Исходящие с домена / станиц в индексе
Критерии оценки
Помощь в реализации:
Как представляются боты Я - http://help.yandex.ru/webmaster/?id=995329
Как представляются боты G - http://ru.wikipedia.org/wiki/Googlebot
Пример реализации ловца ботов - http://www.dimok.ru/notes/seo-stats-of-googlebot-visits.html

Что еще помогает быстро загнать страницы в индекс?
ссылки с Твиттера
ссылки с блогов
ссылки из новостных ресурсов

Спасибо за внимание!
skype:
bestpromo
e-m:
w.vershinin@gmail.com
fb:
facebook.com/w.vershinin/
Чем собирать?




Чем обрабатывать?
Excele
RDS Bar
www.recipdonor.com
LinkPad
www.linkpad.ru

Ahrefs
ahrefs.com

Кол-во документов в RU зоне
lang:ru
Full transcript