28 Июл, 2011

Скандал с Robots.txt в Рунете: роботы атакуют

Сначала в поисковиках появились личные sms-сообщения клиентов сотового оператора, затем информация о клиентах секс-шопов, затем данные покупателей электронных билетов на пассажирские поезда РЖД. Затем в Гугле нашлись служебные документы российских государственных министерств и ведомств под грифом «секретно». Что за фигня происходит?)

Кто-то говорит, что «проблема индексации страниц интернет-магазинов связана с бездумным рвением скорейшего и более качественного появления в поисковых машинах самих владельцев сайтов«, а также, что «в погоне за прибылью владельцы используют стандартные шаблоны сайтов и нанимают в роли веб-мастеров неквалифицированных людей«.

Пресс-служба «Яндекса» тоже объясняет все просто: «утечки» происходят по вине создателей сайтов, некорректно заполняющих файл robots.txt. Как известно, этот файл оповещает поисковые машины о том, какую информацию стоит или не стоит индексировать поисковому роботу.

Однако на фоне того, что сообщения об утечке личных данных появились накануне подписания президентом РФ поправок к Закону «О персональных данных», ситуация приобретает конспирологический характер. И вот уже росийские спецслужбы во главе с ФСБ занялись расследованием «обстоятельств появления в поисковых системах личных данных пользователей различных сервисов и интернет-магазинов«.

На этом фоне оперативно появляется новый способ заработка: «квалифицированные» вебмастера начинают рассылать письма о том, что

«скрипт интернет-магазина, который Вы применяете, подвержен утечке информации: доступна информация о заказах, сделанных в магазине, причем доступна всему интернету… Разумеется, через некоторое время программисты Яндекса прикроют уязвимость со своей стороны (хотя, для них это не уязвимость, а нормальное функционирование поисковой машины, которая индексирует всю доступную ей информацию). Со стороны скрипта интернет-магазина уязвимость останется, а надо заметить, яндекс – не единственный поисковик, так что шанс того, что информация будет общедоступна – сохраняется, а глюк WebAsyst ShopScript, который применяется в Вашем интернет-магазине – сохраняет уязвимость.

Не стоит говорить, что репутация интернет-магазина – один из весомых критериев при выборе места для покупки. Предлагаю устранить текущую неполадку в максимально оперативном режиме – в течение завтрашнего дня всего за 250$. Для выполнения работ мне потребуется доступ к сайту. Готов подписать и выслать сканированную версию соглашения о конфиденциальности.»

И ведь действительно, глава Яндекса Аркадий Волож уже заявил, что разработчики поисковика попробуют сделать так, чтобы заранее уведомлять веб-мастеров о том, что нашли на их ресурсах нечто, похожее на персональную информацию. «Мы думаем, что можно сделать дополнительно, как еще повысить вежливость робота», — сказал он. Яндекс также рассматривает возможность оперативного удаления конфиденциальной информации, попавшей в поисковой индекс.

Какие страсти!..

Кстати, как пишут создатели платформы InSales для интернет-магазинов, подобная проблема с индексацией служебных страниц была и у них около года назад. После этого разработчики дополнительно закрыли от индексации страницы заказов во всех интернет-магазинах на платформе InSales. Тем, кто еще не видел эту систему, рекомендую обратить на нее внимание.

Содержание

Что же делать, если нежелательные страницы вашего сайта попали в поисковую выдачу?

Главное, не паниковать.

  1. Проверим, какие урлы вашего сайта уже находятся в Яндексе: здесь
  2. Создаем файл robots.txt в обычном блокноте.
  3. Читаем про правильное заполнение этого файла: вики, яндекс, robotstxt.org.ru
  4. Прописываем в disallow файлы, отвечающие за страницы заказа и любые нежелательные страницы в выдаче.
  5. Копируем файл robots.txt в корневую директорию вашего сайта.
  6. Проверяем, все ли правильно вы написали.
  7. Для ускорения процесса идем сюда или пишем в службу поддержки поисковой системы письмо с просьбой срочно удалить определенные страницы из поисковой выдачи.
  8. На сэкономленные 250$ [идем в казино; разрабатываем новый модуль заказа; обращаемся ко мне за консультацией;) выбрать свой вариант]

Что делать с robots.txt

Примеры файлов robots.txt

Robots.txt, который разрешает всем роботам индексирование всего сайта

User-agent: *
Disallow:
Host: www.вашсайт.by

Robots.txt запрещает всем роботам индексирование сайта

User-agent: *
Disallow: /
Host: www.вашсайт.by

Robots.txt запрещает всем роботам индексирование директории «abc», а также всех директорий и файлов, начинающихся с символов «abc»

User-agent: *
Disallow: /abc
Host: www.вашсайт.by

Robots.txt запрещает индексирование страницы «page.htm» в корневом каталоге сайта поисковым роботом «googlebot»

User-agent: googlebot
Disallow: /page.htm
Host: www.вашсайт.by

Robots.txt запрещает индексирование роботу «googlebot» страницы «page1.htm» в директории «directory» и роботу «Yandex» — всех директорий и страниц, начинающиеся символами «dir» (/dir/, /direct/, dir.htm, direction.htm, и т. д.) и находящиеся в корневом каталоге сайта

User-agent: googlebot
Disallow: /directory/page1.htm

User-agent: Yandex
Disallow: /dir
Host: www.вашсайт.by

Ошибки, связанные с файлом robots.txt

Перевернутый синтаксис

Неправильно:
User-agent: *
Disallow: Yandex

Правильно:
User-agent: Yandex
Disallow: *

Запись «Disallow» содержит несколько директив

Неправильно:
User-agent: *
Disallow: /dir/ /cgi-bin/ /forum/

Правильно:
User-agent: *
Disallow: /dir/
Disallow: /cgi-bin/
Disallow: /forum/

Регистр

Неправильно:
User-agent: *
Disallow: /CGI-BIN/

Правильно:
User-agent: *
Disallow: /cgi-bin/

Отсутствие открывающей наклонной черты

Неправильно:
User-agent: *
Disallow: dir

Правильно:
User-agent: *
Disallow: /dir

Помните, что использование директив в файле robots.txt является лишь указанием поисковым роботам о правилах индексирования сайта, но никак не защищает конфиденциальную информацию на сайте от других утечек.

Успехов!

Дмитрий Разахацкий

Этот сайт посвящен интернет-маркетингу во всех его проявлениях. Автор сайта более 15 лет занимается различными проектами в интернете начиная от небольших блогов, заканчивая сложными веб-сервисами и крупными международными интернет-магазинами. Подписывайтесь на рассылку, чтобы быть в курсе обновлений!

Вам понравится

комментариев 5

  1. Алекс:

    «А ты уже установил себе robots.txt?» =)

    • ага, сервис по автоматической установке robots.txt — система сама собирает нежелательные урлы и динамически закрывает-открывает их к индексации в зависимости от заданных критериев. стоимость поддержки в месяц — всего 15 уе.

      это стартап))))

  2. Д.Р.:

    В поисковики попали данные клиентов «дочки» «Почты России», фамилии, имена, отчества получателей и индекс места назначения посылок EMS Russian Post. 25 июля в «Яндекс», Google, Mail.ru и Bing попали персональные данные клиентов более 80 интернет-магазинов, в том числе секс-шопов. Тогда же пользователи обнаружили закрытые фотоальбомы на сайте Qip.Ru. 27 июля поисковики проиндексировали материалы «для служебного пользования» – документы ФАС, Минэкономразвития, Счетной палаты, Минобороны. 30 июля в Google обнаружились страницы с фотографиями из социальной сети «ВКонтакте», которые удалили пользователи.

    «Мегафон» обвинил в утечке «Яндекс». «Несанкционированный доступ к sms мог возникнуть через некоторые интернет-сервисы «Яндекса», занимающиеся сбором и хранением информации о действиях пользователей интернета», – заявили в сотовой компании. Этими сервисами являются бесплатные панель инструментов «Яндекс.Бар» и счетчик статистики «Яндекс.Метрика», панели инструментов Google и «тулбары» других производителей. Если пользователь не запретит, «Яндекс.Бар» собирает и передает в «Яндекс» информацию о посещаемых сайтах, страницах, загруженных файлах, тексты, введенные в адресную строку браузера, IP-адреса, данные о доступных WiFi-сетях. О том, что данные «попали в паблик» по вине «Яндекс.Бара», говорят и в RailwayTicket.

    Раньше поисковики получали данные (адреса в интернете, URL) только с помощью роботов, которые ходили по сайтам. Но сейчас поисковые системы стали покупать данные, что существенно увеличило проникновение поисковиков, объясняет Клименко. По его словам, «Яндекс» тоже, скорее всего, покупает ссылки на сайты в интернете, на которые заходили люди и которые были собраны бесплатными счетчиками статистики и панелями для браузеров.

    «Если бы на сайте «Мегафона» была страничка со специальными ссылками на sms, не было бы вопросов: это был бы прокол «Мегафона». Но «Яндекс» [с помощью счетчика] получил уникальную ссылку [на страницу с sms] и сразу отправил ее роботу-поисковику, хотя предварительно должен был проверить, существует ли такая ссылка на самом сайте. Так были проиндексированы заказы в магазинах, билеты и sms», – трактует Клименко.

    «Утечка началась 1 июля, когда на сайт «Мегафона» установили «Яндекс.Метрику». «Дыру» обнаружили только через 18 дней», – объясняет свою позицию технический директор Positive Technologies Сергей Гордейчик. Через две недели «Яндекс» объявил, что исправил настройки «Метрики». Заодно компания могла отрегулировать и «Яндекс.Бар», предполагает он.

    Эксперты по информационной безопасности сходятся во мнении, что при поиске этих данных в поисковиках использовались стандартные приемы под общим названием Google Hacking, существующие уже 15 лет. Это набор стандартных приемов, позволяющих с помощью интернет-поисковиков быстро обнаруживать явные ляпы администраторов и создателей ресурсов.

    Утечки связаны исключительно с принятием нового закона, уверен генеральный директор компании «Медиамир» (Qip.ru) Михаил Гуревич. Скандалы должны были раскачать тему, согласна Касперская. «Это внутренние схватки чиновников, насколько эти поправки (в закон «О персональных данных») должны быть жесткие», – считает Гуревич. Утечка sms абонентов «Мегафона» и «нескольких тысяч» служебных документов госорганов, безусловно, были частью этой схватки, уверен он. За утечками стоят «конторы, стоящие за силовыми структурами», уверен также депутат Госдумы Илья Пономарев. «Изначально поправки в закон лоббировались ими, чтобы создать себе новый рынок», – отмечает парламентарий.

    gazeta.ru

  3. Joker:

    Слушайте что за фигня хочю добавить сайт в яндексе выходит ошибка с robots.txt вроде все правельно делаю(
    User-agent: Yandex
    Disallow: /admin
    Host: http://www.washSait.ru
    Ну типо так но всеровно ошибка (

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

четыре × 1 =

Нужны советы по продвижению сайта? Подпишись сейчас!