XML-формат файла Sitemap

Ответить
Аватара пользователя
Distructor
Администратор
Сообщения: 1607
Зарегистрирован: 28.12.2009
Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, Bing, Яндекс) о страницах веб-сайта, которые подлежат индексации. Sitemaps может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.

Использование протокола Sitemaps не является гарантией того, что веб-страницы будут проиндексированы поисковыми системами, это всего лишь дополнительная подсказка для сканеров, которые смогут выполнить более тщательное сканирование Вашего сайта

Формат протокола Sitemap состоит из XML-тегов. Для всех значений данных в файле Sitemap должно использоваться маскирование. В файле необходимо использовать кодировку UTF-8.

Пример файла sitemap.xml
  • Код: Выделить всё

    <?xml version="1.0" encoding="UTF-8"?>
    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
       <url>
          <loc>http://www.example.com/</loc>
          <lastmod>2005-01-01</lastmod>
          <changefreq>monthly</changefreq>
          <priority>0.8</priority>
       </url>
       <url>
          <loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc>
          <changefreq>weekly</changefreq>
       </url>
       <url>
          <loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc>
          <lastmod>2004-12-23</lastmod>
          <changefreq>weekly</changefreq>
       </url>
       <url>
          <loc>http://www.example.com/catalog?item=74&desc=vacation_newfoundland</loc>
          <lastmod>2004-12-23T18:00:15+00:00</lastmod>
          <priority>0.3</priority>
       </url>
       <url>
          <loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc>
          <lastmod>2004-11-23</lastmod>
       </url>
    </urlset>
Описание XML-тегов
  • <urlset>
    • обязательный. Включает в себя этот файл и указывает стандарт текущего протокола.
    <url>
    • обязательный. Родительский тег для каждой записи URL-адреса. Остальные теги (естественно кроме urlset)являются дочерними для этого тега.
    <loc>
    • обязательный. URL-адрес страницы. Этот URL-адрес должен начинаться с префикса (например, HTTP) и заканчиваться косой чертой, если Ваш веб-сервер требует этого. Длина этого значения не должна превышать 2048 символов.
    <lastmod>
    • необязательный. Дата последнего изменения файла. Эта дата должна быть в формате W3C Datetime (внешка). Этот формат позволяет при необходимости опустить сегмент времени и использовать формат ГГГГ-ММ-ДД.
      (Обратите внимание, что этот тег не имеет отношения к заголовку "If-Modified-Since (304)", который может вернуть сервер, поэтому поисковые системы могут по-разному использовать информацию из этих двух источников.)
    <changefreq>
    • необязательный. Вероятная частота изменения этой страницы. Это значение предоставляет общую информацию для поисковых систем и может не соответствовать точно частоте сканирования этой страницы.
      Допустимые значения: always, hourly, daily, weekly, monthly, yearly, never.
      Значение"всегда (always)" должно использоваться для описания документов, которые изменяются при каждом доступе к этим документам. Значение "никогда (never)" должно использоваться для описания архивных URL-адресов.
      Имейте в виду, что значение для этого тега рассматривается как подсказка, а не как команда. Несмотря на то, что сканеры поисковой системы учитывают эту информацию при принятии решений, они могут сканировать страницы с пометкой "ежечасно" менее часто, чем указано, а страницы с пометкой "ежегодно" – более часто, чем указано. Сканеры могут периодически сканировать страницы с пометкой "никогда", чтобы отслеживать неожиданные изменения на этих страницах.
    <priority>
    • необязательный. Приоритетность URL относительно других URL на Вашем сайте. Допустимый диапазон значений — от 0.0 до 1.0 (по умолчанию приоритет равен 0.5). Это значение не влияет на процедуру сравнения Ваших страниц со страницами на других сайтах — оно только позволяет указать поисковым системам, какие страницы, по Вашему мнению, более важны для сканеров.
      Следует учитывать, что приоритет, который Вы назначили странице, не влияет на положение Ваших URL на страницах результатов той или иной поисковой системы. Поисковые системы используют эту информацию при обработке URL, которые относятся к одному и тому же сайту, поэтому можно использовать этот тег для увеличения вероятности присутствия в поисковом индексе Ваших самых важных страниц.
      Кроме того, следует учитывать, что назначение высокого приоритета всем URL на Вашем сайте не имеет смысла. Поскольку приоритетность – величина относительная, этот параметр используется для того, чтобы определить очередность обработки URL в пределах сайта.
Маскирование символов
  • В XML-файлах для всех значений данных (включая URL-адреса) должно использоваться маскирование символов, перечисленных ниже в таблице.

    Код: Выделить всё

    Символ 	           Маскирование 
    Амперсанд & 	       & 
    Одинарные кавычки '   &apos; 
    Двойные кавычки " 	 " 
    Больше > 	          > 
    Меньше < 	          <
    
Создание группы из нескольких файлов Sitemap
  • Можно предоставить несколько файлов Sitemap, однако в каждом из этих файлов должно быть не более 50000 URL, а размер каждого из этих файлов не должен превышать 10 МБ. При необходимости файл Sitemap можно сжать с помощью архиватора gzip, чтобы уменьшить требования к пропускной способности канала. Однако размер файла sitemap без сжатия не должен превышать 10 МБ. Если необходимо перечислить более 50000 URL-адресов, следует создать несколько файлов Sitemap.

    Если требуется передать несколько файлов Sitemap, необходимо перечислить каждый из этих файлов в файле индекса Sitemap. В файле индекса Sitemap может быть перечислено не более 50000 файлов Sitemap. Размер этого файла не должен превышать 10 МБ (10 485 760 байт) и может быть сжат. У вас может быть несколько файлов Sitemap. Формат XML-файла индекса Sitemap очень похож на формат XML-файла Sitemap.
    (Примечание. Файл индекса Sitemap может указывать только файлы Sitemap, которые находятся на том же сайте, что и файл индекса Sitemap. Например, файл индекса http://www.vashsait.ru/sitemap_index.xml может включать файлы Sitemap, размещенные на сайте http://www.vashsait.ru, но не на сайте http://www.primer.ru или http://vashkhost.vashsait.ru. Для файла индекса Sitemap, как и для файлов Sitemap, необходимо использовать кодировку UTF-8.)

    Пример индекса XML Sitemap

    Код: Выделить всё

    <?xml version="1.0" encoding="UTF-8"?>
    <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
       <sitemap>
          <loc>http://www.example.com/sitemap1.xml.gz</loc>
          <lastmod>2004-10-01T18:23:17+00:00</lastmod>
       </sitemap>
       <sitemap>
          <loc>http://www.example.com/sitemap2.xml.gz</loc>
          <lastmod>2005-01-01</lastmod>
       </sitemap>
    </sitemapindex>
    Описание XML-тегов
    <sitemapindex>
    • обязательный Инкапсулирует информацию о всех файлах Sitemap в этом файле.
    <sitemap>
    • обязательный Инкапсулирует информацию об отдельном файле Sitemap.
    <loc>
    • обязательный Указывает местоположение файла Sitemap.
      Этим местоположением может быть файл Sitemap, файл Atom, файл RSS или простой текстовый файл.
    <lastmod>
    • необязательно Указывает время изменения соответствующего файла Sitemap. Не соответствует времени изменения ни одной из страниц в этом файле Sitemap. Значение тега "lastmod" должно быть представлено в формате W3C Datetime.
      Предоставляя отметку времени последнего изменения, Вы позволяете сканерам поисковой системы извлекать только часть файлов Sitemap в индексе, то есть сканер может извлекать только те файлы Sitemap, которые были изменены после определенной даты. Этот механизм частичного извлечения файлов Sitemap позволяет быстро обнаруживать новые URL на сайтах больших размеров.
Описание формата времени W3C Datetime
  • Год: YYYY (например 1997)
    Год и месяц: YYYY-MM (например 1997-07)
    Полная дата: YYYY-MM-DD (например 1997-07-16)
    Полная дата + часы и минуты: YYYY-MM-DDThh:mmTZD (например 1997-07-16T19:20+01:00)
    Полная дата + часы, минуты и секунды: YYYY-MM-DDThh:mm:ssTZD (например 1997-07-16T19:20:30+01:00)
Статья основана на официальной спецификации http://www.sitemaps.org/ru/protocol.php

Ответить