четверг, 15 октября 2009 г.

Поисковик Majestic-12

(источник: http://blog.majesticseo.com/general/... )



Хороший день: 8 октября 2009 года - поисковик MJ12 (Majestic-12 Distributed Search Engine) зафиксировал более триллиона уникальных адресов веб-страниц в Интернете. Это вторая организация в мире, публично объявившая о преодолении рубежа в 1 триллион найденных веб-страниц; первой была Google (28 июля 2008 года). Но MJ12 использовал для этого по сравнению с Google существенно меньше аппаратных средств и намного меньше трудовых ресурсов. В то же время энергия движения и сила духа MJ12 достаточны для того, чтобы вскоре оставить Google позади.
Пока впечатляющие результаты работы поисковой машины MJ12 актуальны и востребованы только web-специалистами. На основе базы данных MJ12 функционирует проект Majestic-SEO, дающий исчерпывающие отчёты по беклинкам (в настоящее время ведущие поисковики показ обратных ссылок блокируют). Но уже в следующем (2010) году начнутся работы по написанию полнотекстового поисковика, что будет интересно и полезно уже всем.

Работа MJ12 основана на распределённых вычислениях. Любой энтузиаст в любой точке мира может принять участие в грандиозном проекте MJ12, установив крохотный клиент MJ12node на свой компьютер. Но надо иметь ввиду, что для его работы необходим безлимитный трафик сети (и чем толще, тем лучше), который клиентом MJ12node может использоваться на 100%; процессор компьютера также будет изрядно загружен. MJ12node индексирует страницы в соответствии с заданиями, получаемыми с основного сервера, и отправляет результаты обратно на сервер. За счёт этого центральный сервер снимает с себя 99% затрат времени по индексированию сети.

Руководство по установке и настройке MJ12node можно найти здесь:
http://www.majestic12.co.uk/...
http://www.majestic12.co.uk/...
http://www.xtremesystems.org/forums/... .

Проект имеет детализированную статистику, обновляемую ежечасно. Вот например статистика по участникам проекта:
http://www.majestic12.co.uk/projects/dsearch/users.php .

Офис MJ12 находится в английском городке Бирмингам, в строении Faraday Wharf (главное здание научного парка Астон):


По теме:
http://www.majesticseo.com/research/...
http://uk.prweb.com/...
http://www.ukspa.org.uk/news/...
http://www.birminghampost.net/...
http://distributed.ru/wiki/pro:majestic12
http://distributed.org.ua/...

О Majestic-SEO:
http://35metod.ru/backlinks-majestic-seo/



Небольшое дополнение для запускающего на своём компьютере паука MJ12. Ответ на вопрос "Сколько букетов и воркеров выставлять ?".
  • Программа не требует инсталляции. Чтобы программа начала получать задания и кролить (to crawl) сайты, необходима нехитрая регистрация. Почти все настройки оставляем по умолчанию, но некоторые необходимо изменить для эффективной работы паука.
  • Обязательно. Начать надо с указания скорости, которую вы готовы пожертвовать MJ12 и которую сможет обеспечить ваш провайдер. На вкладке Tools - Options - Connection задаём скорость Downstream. Например 5120 (Мегабайт в секунду). Скорость Upstream можно установить любую и небольшую, лишь бы программа успевала выгружать образующиеся данные и не захлебнулась в них. Также программа может захлебнуться в накапливаемых данных, если не будет хватать мощности процессора и он не будет успевать архивировать данные.
  • Обязательно. Скорость соединения определит максимальное число активных асинхронных процессов (Maximum number of async workers), например 150. Активироваться будет столько процессов, сколько позволяет скорость загрузки. Если допустим 90 активных процессов загрузят ваше соединение, то более активироваться процессы не будут, даже если их число установлено больше.
  • Обязательно. На вкладке Tools - Options - Crawler выставляем количество открытых букетов (Maximum open URL buckets), например 50. С сервера MJ12 будет загружаться именно указанное количество букетов, т.е. в данном случае 50. Но открываться будут не обязательно все 50 букетов, а то количество, которое активирует указанное число активных процессов. Максимум открытых букетов ограничен ресурсами вашего компьютера, каждый открытый букет займёт на жёстком диске до 250-300 Мегабайт. Программа не контролирует и не сигнализирует превышение ресурса диска, в этом случае её работа сперва начнёт сильно замедляться, а затем она просто намертво зависнет.
  • Опционально. Можно существенно увеличить объём данных, приходящихся на один URL, установив на вкладке Tools - Options - More Crawler галочку Request deep crawl buckets only. Но общая скорость сканирования (и количество отсканированных URL) при этом пропорционально уменьшится. Кроме того, сервер MJ12 не всегда может предложить ёмкие букеты, альтернативные же букеты он предлагать не будет, что чревато простоем вашей программы.
Кратко повторю цепочку взаимосвязей параметров программы. Ограничение скорости загрузки ограничит число активных (рабочих) процессов. Максимум активных (рабочих) процессов ограничит число открытых букетов. Максимум открытых букетов ограничен свободным пространством жёсткого диска.

Настройка программы более детально.
Снова о настройке.
Ещё соображения по настройке. читать дальше

Комментариев нет:

Отправить комментарий