ua     ru    Sitemap   Sitemap     | Поиск... |       Сайт открыт 14.12.2005

Ukraine - Distributed Computing Team

 

 » Навигация 
  Новости
  Новости (Архив)
  Описания проектов
  Наши опросы
  Архивы

  Форум
  Форум (PDA)

 » Статьи  


       Описания проектов 
Начало раздела > Majestic-12

Majestic-12



версія українською

авторnikelong



 

Проект Majestic-12

 

 

Ссылки:

 

Введение:

Нет, эта статья - не о катастрофе НЛО в Розуэлле, а о проекте распределенных вычислений Majestic-12 :)

 

Итак, на сайте проекта, в разделе about написано примерно следующее:

 

Если Вы читаете это, Вы должны быть онлайн и вероятно согласитесь, что Интернет стал настолько важным в повседневной жизни, что мы уже не мыслим себя без него.
С самого начала развития Интернета, очень важно было иметь возможность найти информацию быстро и точно. Если бы не была изобретена поисковая машина, то Интернет не стал бы тем, чем он является сегодня. В терминах непрофессионала, поисковые машины похожи на карты - ведь они дают нам правильное направление на информацию, которую мы хотим найти.

 

Итак, если Вы не можете вообразить вашу жизнь, без использования поисковых машин, то продолжайте читать далее.

 

Зачем мы создаём поисковую систему, когда все могут просто использовать гугл(яху/яндекс и т.д)?

Это сложный вопрос, так как на него нет единственного ответа. Мини-ответы разбиты на социальные и персональные категории для того, чтобы попытаться и начать объяснять хотя бы часть причин работы этого проекта:

 

Социальные:
1) Вы можете представить себе жизнь без Интернета? А как вам Интернет без поисковых систем?
Поисковики являются важной частью жизни, будь то работа или досуг и отсутствие возможности контролировать ИХ (поисковики) в известной степени не очень хорошая вещь.

 

2) Потому что мы можем -- персональные компьютеры и связи достигли того уровня, когда массовые масштабные проекты делают подобное возможным. Задумайтесь над этим: один компьютер с инетом в 512к может собрать 500 000 страниц в день, так что имея всего 8000 участников в сети, можно в день проиндексировать столько страниц, сколько нет у Гугла во всей его базе данных! И это всего за один день! Мы раельно можем побить Гугл по крайней мере в части размера и глубины базы даннх.

 

3) Вы когда-нибудь, вглядываясь в чистое звёздное небо, не хотелы бы узнать, сколько там звёзд? Собственно, мы тут не звёзды считаем, но аналогично этому примеру, никто точно не знает, насколько сейчас велика ''Международная Паутина''. Всё, что мы знаем, дак это то, что она намного больше, чем её проиндексировали крупнейшие поисковые системы. Проект постарается обеспечить ответ на этот сложный вопрос, собирая каждый линк и каждую страницу Интернета.

 

Персональные:
1) Я, Александр Чудновский, хочу взяться за решение задачи, требующей мировых возможностей
и амбиций (в последнем я уверен, а насчёт предпоследнего - время покажет).

 

2) Я хочу посмотреть, сможет ли Microsoft's .NET справиться с этим (в особенности её cross-platform angle)

 

3) Я хочу предоставить людям различие в поиске чего-либо в Интернете. Интернет является большой частью моей жизни и был ей достаточно долгое время, и это правильно, что я использую свои навыки в попытке сделать лучше другим людям.

 

 

О проекте:

Теперь более конкретно опишем цели (информация взята с distributed.ru):

 

Целью проекта является создание поисковой системы, типа Google, Yahoo и т.п , но с наиболее полной и глубокой базой данных проиндексированных интернет страниц.

 

Дело в том, что Интернет гораздо больше, чем его на данный момент смогли проиндексировать крупные поисковики.

Самая большая база данных на данный момент находится у поисковика Google. Сейчас они закрыли доступ ко всем своим техническим данным. По словам Марка Левина, профессора компьютерной науки университета Birkbeck, по информации на 2006г. Гугл имеет порядка 15000 серверов, индексирующих около 3000 страниц в секунду(по другим данным серверов от 30 до 70 тысяч). (The Guardian от 23 марта 2006).

 

Автор:

Автор проекта Александр Чудновский, русский, ныне проживающий в Англии. Программист, ныне возглавляет компанию Majestic-12, занимающуюся созданием ПО на базе платформ .NET/C#.

До этого работал в английской компании Jungle.com маркетологом.

 

Успехи:

На данный момент(16 ноября 2007) проиндексировано 37.5 миллиардов страниц, поисковик проекта уже начал кое-что находить (хотя, положа руку на сердце, - делает он это пока что не очень хорошо).

Вся база данных расположена на сервере, предоставленном компанией Gigaserver, с размером дискового хранилища в 16 террабайт.

 

Клиент:

Клиент графический, называется MJ12node. Индексирует страницы и отправляет результаты на основной сервер.


 

Очки:

Здесь всё просто: один обработаный WEB-адрес - одно очко. Как заявляет сам автор проекта - в сутки на канале 0.5 Мбита можно сделать 500 000 страниц. Т.е. 500 000 очков. Реально у меня получалось около 250...300 тысяч.

Что-бы достич таких результатов, Вам необходимо поигратся с количеством "воркеров" и "букетов" в настройке клиента (options, вкладка crawler). Поставьте значения 40 воркеров и 10 букетов для канала 0.5 Мбит, и играйтесь с этими параметрами (уменьшите если имеите сильно большой процент ошибок). Сообветственно для канала 1 Мбит эти цифры будут 80 и 20, арифметика проста. Но всё-же не ставьте более 200 воркеров (особенно для ADSL доступа), и вы в любом случае не поставите больше 300 воркеров.

 

Кто использует Windows XP, обратите внимание на тот факт, что максимальное количество соединений, устанавливаемых вашей системой равно 10 соединений в секунду. Т.е. у вас может быть и 200 активных соединений, но "набрать скорость", т.е. устанавливать их Вы будете 20 секунд минимум. Это сделано самой microsoft в целях самозащиты системы. Например от вирусов. Но нам для проекта это только помеха, поэтому используем патчи, снимающие это ограничение. Их сейчас в сети развелось множество, один из многих лежит тут.

 

Владельцам wi-fi роутеров - присмотритесь как работает клиент, сколько ошибок. Посмотрите вашу статистику. Особенно соотношение количества обработаных УРЛов к Вашему траффику. Потом посмотрите на других юзеров, соседов по турнирной таблице. Если Ваш траффик слишком мал - пахнет читерством, и Вас могут забанить (прецендент уже был, и к сожалению - с участником из нашей команды).

 

Официальная статистика обновляется раз в 15 минут.

 

 

Картинка со статистикой:

Если Вы желаете использовать сигнатуру (например, как подпись на форуме), то адрес изображения будет такой:

 

http://www.majestic12.co.uk/stats/allurls_by_day.php?w=200&h=140&id=1535

 

где id=1535 - Ваш индентификационный номер (в данном случае - мой).

Как узнать свой ID? Зайти в статистику команды, а потом кликнуть по своему нику. В адресной строке броузера, в конце и будет написан ваш ID.  

Результатом будет что-то типа этого:

 

 

 

Факты из жизни:

  • В проекте своеобразное понятие "фермы". Дело в том, что клиент способен загрузить Ваш канал по полной (вплоть до 100 Мбит), поэтому вторую копию клиента есть смысл ставить только на компьютер с другим каналом в интернет.
  • Если выставить загрузку канала в 100%, то нормально работать будет только ICQ :) Клиент максимально использует Ваш канал (как торрент-клиент с большим количеством соединений), поэтому его нужно будет или выключать на время Вашего пребывания в сети, или использовать сторонние программы для управления приоритетом траффика. Да, в самом клиенте есть менеджер профилей, так что допустим, когда запущено приложение firefox.exe то он может "засыпать", но это частичный выход из ситуации. Ведь у многих ФФ запущен 12 а то и 24 часа в сутки :)
  • В самом клиенте присутствует ВЭБ-сервер, так что им можно управлять удаленно.
  • Смайлик:   

 

 

Проблема с антивирусом ESET NOD32:

С этой проблемой столкнулся не только я, на официальном форуме есть соответствующая ветка.

Суть вот в чем - телодвижения клиента Маджестика NOD принимает за подозрительные, и блокирует его сетевую активность. В итоге очки в статистику не капают, да и сам клиент вылетает из системы.

Что-бы этого не произошло делаем следующее:

  1. Click on the NOD32 AV icon in the system tray, which will bring up the Control Center
  2. Click on Threat Protection Modules
  3. Click on IMON
  4. Click on Setup
  5. Click on the Miscellaneous Tab at the top
  6. Look for Exclusions (This option allows you to control what applications will be excluded from scanning by the (IMON) Internet Monitor)
  7. Click on Edit
  8. Click on Add
  9. Browse through you PC until you find MJ12node.exe and click on it
  10. Click on Open
  11. Click on OK
  12. At the next start-up of the MJ12 Node it will be excluded from the IMON scan.

 

 

Пресса:

habrahabr.ru

 

 

Ресурсоемкость:

  • процессор - 1% загрузки. Во время архивирования пакета данных для отправки загрузка возрастает до 100% (на минуту-три...). Поэтому клиент можно запускать и на слабых компютерах.
  • озу - до 100 Мб.
  • время - клиент работает сколько вы сами захотите.
  • траффик - стремится к бесконечности. Поэтому запускайте клиент только если у вас безлимитный доступ в интернет!

 

 

Как подключится (windows):

  1. Убедитесь в том что у Вас безлимитный доступ в интернет;
  2. Проверьте, установлен ли в Вашей системе NET 2.0 (пуск - панель управления - установка и удаление программ. В открывшимся списке должна присутствовать строчка NET Framework 2.0). Если нету - идем на windows update;
  3. Загрузите клиент (1.2 Мб), предпочтение - версии Installer;
  4. введите логин/пароль/прочие данные в самом клиенте, и нажмите кнопку регистрации. Если что-то непонятно - читаем на английском более подробное описание.
  5. Зайдите на сайт проекта и залогинтесь под собой (введите те логин и пароль шо вводили при регистрации клиента)
  6. Нажмите эту ссылку для присоединения к нашей команде. Или нажмите эту - же ссылку на странице статистике нашей команды (Join this team).
  7. Если всё сделано верно то в данный момент Вы уже являетесь членом нашей команды. Поздравляем!




Дата: Вторник, 08 Январь 2008
Прочитана: 12984 раза

Распечатать Распечатать    Переслать Переслать    В избранное В избранное

Другие публикации
  • Установка клиента
  • Алексей Чудновский в интервью Эрика Энге
    Вернуться назад

  •  » Поддержка (обращайтесь) 
    Folding@Home
     NikeLong246659609
     Alex266184514
     ReMMeR338177212
    Rosetta@Home
     uNiUs172324149
     KoDak313871706
    World Community Grid
     Dmitrio250896826
    FightAIDS@Home
     RHAngel50177406
    RC5/OGR
     Tamagoch53619819
     Paul B.Atton46941577
    Seti@Home
     Andrey Fenchenko285577622
    WebMaster
     ReMMeR338177212
     Rilian (PM)1
    Поболтать
     Dead J. Dona122008482