Основные понятия

tehnicheskaja_optimizatsija_sajtaИндексация сайта в ПС (поисковых системах)– это сканирование всех страниц сайта поисковыми роботами. После чего вся просканированная информация попадает в базу поисковой системы.

  • Как же работает система индексации у крупных поисковых систем?
    У поисковиков есть программы ( боты), которые постоянно «гуляют» по ссылкам в поисках новых страниц. Если они вдруг находят какую-то новую страницу, удовлетворяющую требованиям алгоритма данного поисковика, то она включается в базу данных поиска, или,как говорят, проходит индексацию.
  • Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список.Роботы  поддерживают стандарт описания http://www.robotstxt.org/wc/norobots.html
  • Как часто происходит индексация в Интернете?
    Данные об индексации  хранятся во временных базах, а обновление «главной» базы данных происходит с задержкой с интервалом в несколько суток. Поэтому индексация сайтов в крупных поисковых системах проходит довольно быстро и без «глюков».

  Как добавить сайт в индекс ПС?

 Провести индексацию сайта несложно: надо «сообщить» ПС , что у Вас имеется сайт, который может её заинтересовать. У каждого поисковика есть форма добавления сайтов в индекс. Вам необходимо этой формой  воспользоваться. Вот,например, ссылки на основные формы добавления ваших сайтов в индекс основных поисковиков:

 

 Яндекс: http://webmaster.yandex.ru/addurl.xml
Google: http://www.google.ru/addurl/

  • Главное, что надо для успешной индексации – оптимизация и уникальность контента  вашего сайта

  Техническая оптимизация сайта

Техническая оптимизация сайта – это такие действия, которые направлены на анализ и изменение (если это необходимо) работы сайта для корректного взаимодействия с роботами ПС. Другими словами, хороший сайт должен легко распознаваться роботами поисковиков, не выдавать ошибки при работе, каждой странице должен соответствовать только один адрес, пользователям должны отдаваться всегда только рабочие страницы и др. Основная цель технической оптимизации – доработать сайт таким образом, чтобы он правильно, без ошибок, индексировался роботами поисковых систем.

Технические доработки подразделяют на:

  • критичные;
  • желательные.

Критичные технические доработки – это  исправление серьезных ошибок, которые могут повлечь некорректность, либо невозможность индексации сайта роботами ПС. Проведение таких доработок предотвращает ситуации, когда сайт занимает достаточно высокие позиции, а потом вдруг совсем пропадает из выдачи или начинает ранжироваться очень низко.

Желательные доработки  проводят для уменьшения количества некритичных ошибок на сайте, которые могут в незначительной степени затруднить индексацию, а также для предотвращения утекания веса страниц сайта на другие сайты.

Рассмотрим более подробно каждую группу доработок, проводимых в рамках технической оптимизации сайта.

 

Критичные технические доработки

(на основе файлов robots.txt и файла .htaccess)

Небольшая терминология

 Какие бывают  роботы

В Яндексе целая плеяда , которые выполняют разные функции. Например, есть робот, который индексирует rss-ленту для поиска по блогам.  Или есть робот, который индексирует только картинки. Самый важный — основной индексирующий робот, функция которого — поиск и индексирование информации для формирования базы основного поиска.

В помощь основному есть быстрый робот — он предназначен для оперативного индексирования свежей, актуальной на данный момент информации. Если среди проиндексированных страниц своего сайта вы видите две копии какого-либо документа — скорее всего это означает, что помимо основного робота документ также был проиндексирован и быстрым роботом.

Виды роботов Яндекса:

  • Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий роботYandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
  • Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
  • Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
  • Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
  • Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
  • YandexBlog/0.99.101 (compatible; DOS3.30,B) – робот, индексирующий xml-файлы для поиска по блогам.
  • YandexSomething/1.0 – робот, индексирующий новостные потоки партнеров Яндекс-Новостей.
  • YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
  • Bond, James Bond (version 0.07) — робот, заходящий на сайты из подсети Яндекса. Официально никогда не упоминался. Ходит выборочно по страницам. Referer не передает. Картинки не загружает. Судя по повадкам, робот занимается проверкой сайтов на нарушения – клоакинг и пр.

Для информации – есть еще роботы Google, Bing, Aport

robots.txt — это текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем.  В этом файле web-мастер указывает параметры индексирования своего сайта. Причем он это может сделать  как для всех роботов сразу, так и для каждой поисковой системы по отдельности. Этот файл применяется для  индексации файлов поисковиками, а также, чтобы ЗАПРЕТИТЬ одному, нескольким или даже всем поисковикам индексировать конкретную страницу вашего сайта.

Но какие страницы ненужные и зачем это делается? Давайте разберемся.

И так начнем с первого вопроса - зачем вообще нужно что то закрывать от индексации поисковыми роботами? Дело в том, что поисковые системы анализируют тексты страниц вошедших в их индекс и на основании этого делают выводы о том, какие ключевые слова и фразы подходят для этого сайта.  Для того и пишут оптимизированные тексты заточенные под определенные фразы, что бы в целом на сайте чаще других встречались именно эти ключевики. Но нужно так же понять, что если в поисковый индекс попадет страница с контентом не содержащим нужные нам ключевые фразы, то она разбавит своими левыми ключевиками весь текст сайта в целом и отчасти наши труды по написанию правильных текстов будут напрасны. Это хорошо если "левая" страница одна на весь сайт, а если их половина? А если их большая часть на сайте? Получается капля хорошего контента среди кучи мусора. И этот мусор будет считаться, то есть ложка меда в бочке дегтя!!!

Помимо этого, роботы могут принять в индекс например служебные страницы - форму входа в админку, форма обратной связи, еще какую то стандартную страницу. Здесь ключевым является фраза стандартная страница - то есть страница которая есть не только у вас, но и еще на сотнях и тысячах сайтов. Ни чего в голову не приходит? Не уникальный контент например? А мне вот приходит. Я конечно верю в благоразумие поисковиков и что они понимают, что форма входа в админку не есть плагиат и не надо за это занижать в выдаче, но одно дело верить, а другое дело перестраховаться.

Так же есть третий вариант. Например, на этом сайте есть много тегов. Весьма полезная вещь - помогает найти пользователю статьи по определенной теме. НО! Эти страницы содержат контент который уже расположен на данном сайте по другим адресам. У страницы с данной статьей есть постоянный адрес, а есть еще несколько адресов содержащие этот же самый текст. На мой взгляд поисковый робот может это неправильно понять и заподозрить, что на сайте много не уникального контента и вообще он сгенерирован из кусков одно и того же текста.

Так вот, что бы выкинуть из поискового индекса страницы не содержащие нужных текстов или содержащие дубли контента и оставить роботам для анализа только полезную информацию мы и закрываем от индексации в файле robots.txt ненужные страницы.

Теперь путем очень простого логического вывода отвечаем на второй вопрос - что закрывать от индексации? Закрывают страницы не содержащие полезного с точки зрения продвигаемых ключевых фраз контента, страницы с дублями контента и служебные страницы.

Что собою представляет этот файл? Это обыкновенный текстовый файл, созданный в любом Блокноте, с определенными инструкциями поисковым роботам и имеющий название robots.txt. Именно такое название, а не какое-нибудь другое.

Про составление этого файла и настройку можно подробнее узнать на сайте

http://help.yandex.ru/webmaster/?id=996567

от Яндекса.

robots

 

Комментарии (5) на “Техническая оптимизация — часть 1”

Оставить комментарий

Календарь
Январь 2015
Пн Вт Ср Чт Пт Сб Вс
« Янв    
 1234
567891011
12131415161718
19202122232425
262728293031