ua     ru    Sitemap   Sitemap     | Поиск... |       Сайт открыт 14.12.2005

Ukraine - Distributed Computing Team

 

 » Навигация 
  Новости
  Новости (Архив)
  Описания проектов
  Наши опросы
  Архивы

  Форум
  Форум (PDA)

 » Статьи  


       Описания проектов 
Начало раздела > Majestic-12

Majestic-12



версія українською

авторnikelong



 

Проект Majestic-12

 

 

Ссылки:

 

Введение:

Нет, эта статья - не о катастрофе НЛО в Розуэлле, а о проекте распределенных вычислений Majestic-12 :)

 

Итак, на сайте проекта, в разделе about написано примерно следующее:

 

Если Вы читаете это, Вы должны быть онлайн и вероятно согласитесь, что Интернет стал настолько важным в повседневной жизни, что мы уже не мыслим себя без него.
С самого начала развития Интернета, очень важно было иметь возможность найти информацию быстро и точно. Если бы не была изобретена поисковая машина, то Интернет не стал бы тем, чем он является сегодня. В терминах непрофессионала, поисковые машины похожи на карты - ведь они дают нам правильное направление на информацию, которую мы хотим найти.

 

Итак, если Вы не можете вообразить вашу жизнь, без использования поисковых машин, то продолжайте читать далее.

 

Зачем мы создаём поисковую систему, когда все могут просто использовать гугл(яху/яндекс и т.д)?

Это сложный вопрос, так как на него нет единственного ответа. Мини-ответы разбиты на социальные и персональные категории для того, чтобы попытаться и начать объяснять хотя бы часть причин работы этого проекта:

 

Социальные:
1) Вы можете представить себе жизнь без Интернета? А как вам Интернет без поисковых систем?
Поисковики являются важной частью жизни, будь то работа или досуг и отсутствие возможности контролировать ИХ (поисковики) в известной степени не очень хорошая вещь.

 

2) Потому что мы можем -- персональные компьютеры и связи достигли того уровня, когда массовые масштабные проекты делают подобное возможным. Задумайтесь над этим: один компьютер с инетом в 512к может собрать 500 000 страниц в день, так что имея всего 8000 участников в сети, можно в день проиндексировать столько страниц, сколько нет у Гугла во всей его базе данных! И это всего за один день! Мы раельно можем побить Гугл по крайней мере в части размера и глубины базы даннх.

 

3) Вы когда-нибудь, вглядываясь в чистое звёздное небо, не хотелы бы узнать, сколько там звёзд? Собственно, мы тут не звёзды считаем, но аналогично этому примеру, никто точно не знает, насколько сейчас велика ''Международная Паутина''. Всё, что мы знаем, дак это то, что она намного больше, чем её проиндексировали крупнейшие поисковые системы. Проект постарается обеспечить ответ на этот сложный вопрос, собирая каждый линк и каждую страницу Интернета.

 

Персональные:
1) Я, Александр Чудновский, хочу взяться за решение задачи, требующей мировых возможностей
и амбиций (в последнем я уверен, а насчёт предпоследнего - время покажет).

 

2) Я хочу посмотреть, сможет ли Microsoft's .NET справиться с этим (в особенности её cross-platform angle)

 

3) Я хочу предоставить людям различие в поиске чего-либо в Интернете. Интернет является большой частью моей жизни и был ей достаточно долгое время, и это правильно, что я использую свои навыки в попытке сделать лучше другим людям.

 

 

О проекте:

Теперь более конкретно опишем цели (информация взята с distributed.ru):

 

Целью проекта является создание поисковой системы, типа Google, Yahoo и т.п , но с наиболее полной и глубокой базой данных проиндексированных интернет страниц.

 

Дело в том, что Интернет гораздо больше, чем его на данный момент смогли проиндексировать крупные поисковики.

Самая большая база данных на данный момент находится у поисковика Google. Сейчас они закрыли доступ ко всем своим техническим данным. По словам Марка Левина, профессора компьютерной науки университета Birkbeck, по информации на 2006г. Гугл имеет порядка 15000 серверов, индексирующих около 3000 страниц в секунду(по другим данным серверов от 30 до 70 тысяч). (The Guardian от 23 марта 2006).

 

Автор:

Автор проекта Александр Чудновский, русский, ныне проживающий в Англии. Программист, ныне возглавляет компанию Majestic-12, занимающуюся созданием ПО на базе платформ .NET/C#.

До этого работал в английской компании Jungle.com маркетологом.

 

Успехи:

На данный момент(16 ноября 2007) проиндексировано 37.5 миллиардов страниц, поисковик проекта уже начал кое-что находить (хотя, положа руку на сердце, - делает он это пока что не очень хорошо).

Вся база данных расположена на сервере, предоставленном компанией Gigaserver, с размером дискового хранилища в 16 террабайт.

 

Клиент:

Клиент графический, называется MJ12node. Индексирует страницы и отправляет результаты на основной сервер.


 

Очки:

Здесь всё просто: один обработаный WEB-адрес - одно очко. Как заявляет сам автор проекта - в сутки на канале 0.5 Мбита можно сделать 500 000 страниц. Т.е. 500 000 очков. Реально у меня получалось около 250...300 тысяч.

Что-бы достич таких результатов, Вам необходимо поигратся с количеством "воркеров" и "букетов" в настройке клиента (options, вкладка crawler). Поставьте значения 40 воркеров и 10 букетов для канала 0.5 Мбит, и играйтесь с этими параметрами (уменьшите если имеите сильно большой процент ошибок). Сообветственно для канала 1 Мбит эти цифры будут 80 и 20, арифметика проста. Но всё-же не ставьте более 200 воркеров (особенно для ADSL доступа), и вы в любом случае не поставите больше 300 воркеров.

 

Кто использует Windows XP, обратите внимание на тот факт, что максимальное количество соединений, устанавливаемых вашей системой равно 10 соединений в секунду. Т.е. у вас может быть и 200 активных соединений, но "набрать скорость", т.е. устанавливать их Вы будете 20 секунд минимум. Это сделано самой microsoft в целях самозащиты системы. Например от вирусов. Но нам для проекта это только помеха, поэтому используем патчи, снимающие это ограничение. Их сейчас в сети развелось множество, один из многих лежит тут.

 

Владельцам wi-fi роутеров - присмотритесь как работает клиент, сколько ошибок. Посмотрите вашу статистику. Особенно соотношение количества обработаных УРЛов к Вашему траффику. Потом посмотрите на других юзеров, соседов по турнирной таблице. Если Ваш траффик слишком мал - пахнет читерством, и Вас могут забанить (прецендент уже был, и к сожалению - с участником из нашей команды).

 

Официальная статистика обновляется раз в 15 минут.

 

 

Картинка со статистикой:

Если Вы желаете использовать сигнатуру (например, как подпись на форуме), то адрес изображения будет такой:

 

http://www.majestic12.co.uk/stats/allurls_by_day.php?w=200&h=140&id=1535

 

где id=1535 - Ваш индентификационный номер (в данном случае - мой).

Как узнать свой ID? Зайти в статистику команды, а потом кликнуть по своему нику. В адресной строке броузера, в конце и будет написан ваш ID.  

Результатом будет что-то типа этого:

 

 

 

Факты из жизни:

  • В проекте своеобразное понятие "фермы". Дело в том, что клиент способен загрузить Ваш канал по полной (вплоть до 100 Мбит), поэтому вторую копию клиента есть смысл ставить только на компьютер с другим каналом в интернет.
  • Если выставить загрузку канала в 100%, то нормально работать будет только ICQ :) Клиент максимально использует Ваш канал (как торрент-клиент с большим количеством соединений), поэтому его нужно будет или выключать на время Вашего пребывания в сети, или использовать сторонние программы для управления приоритетом траффика. Да, в самом клиенте есть менеджер профилей, так что допустим, когда запущено приложение firefox.exe то он может "засыпать", но это частичный выход из ситуации. Ведь у многих ФФ запущен 12 а то и 24 часа в сутки :)
  • В самом клиенте присутствует ВЭБ-сервер, так что им можно управлять удаленно.
  • Смайлик:   

 

 

Проблема с антивирусом ESET NOD32:

С этой проблемой столкнулся не только я, на официальном форуме есть соответствующая ветка.

Суть вот в чем - телодвижения клиента Маджестика NOD принимает за подозрительные, и блокирует его сетевую активность. В итоге очки в статистику не капают, да и сам клиент вылетает из системы.

Что-бы этого не произошло делаем следующее:

  1. Click on the NOD32 AV icon in the system tray, which will bring up the Control Center
  2. Click on Threat Protection Modules
  3. Click on IMON
  4. Click on Setup
  5. Click on the Miscellaneous Tab at the top
  6. Look for Exclusions (This option allows you to control what applications will be excluded from scanning by the (IMON) Internet Monitor)
  7. Click on Edit
  8. Click on Add
  9. Browse through you PC until you find MJ12node.exe and click on it
  10. Click on Open
  11. Click on OK
  12. At the next start-up of the MJ12 Node it will be excluded from the IMON scan.

 

 

Пресса:

habrahabr.ru

 

 

Ресурсоемкость:

  • процессор - 1% загрузки. Во время архивирования пакета данных для отправки загрузка возрастает до 100% (на минуту-три...). Поэтому клиент можно запускать и на слабых компютерах.
  • озу - до 100 Мб.
  • время - клиент работает сколько вы сами захотите.
  • траффик - стремится к бесконечности. Поэтому запускайте клиент только если у вас безлимитный доступ в интернет!

 

 

Как подключится (windows):

  1. Убедитесь в том что у Вас безлимитный доступ в интернет;
  2. Проверьте, установлен ли в Вашей системе NET 2.0 (пуск - панель управления - установка и удаление программ. В открывшимся списке должна присутствовать строчка NET Framework 2.0). Если нету - идем на windows update;
  3. Загрузите клиент (1.2 Мб), предпочтение - версии Installer;
  4. введите логин/пароль/прочие данные в самом клиенте, и нажмите кнопку регистрации. Если что-то непонятно - читаем на английском более подробное описание.
  5. Зайдите на сайт проекта и залогинтесь под собой (введите те логин и пароль шо вводили при регистрации клиента)
  6. Нажмите эту ссылку для присоединения к нашей команде. Или нажмите эту - же ссылку на странице статистике нашей команды (Join this team).
  7. Если всё сделано верно то в данный момент Вы уже являетесь членом нашей команды. Поздравляем!




Дата: Вторник, 08 Январь 2008
Прочитана: 18270 раз

Распечатать Распечатать    Переслать Переслать    В избранное В избранное

Другие публикации
  • Установка клиента
  • Алексей Чудновский в интервью Эрика Энге
    Вернуться назад

  •  » Место команды 
    Медико-биологические
    Correlizer
    47
    DrugDiscovery@Home
    9
    Fightaids@Home
    40
    Folding@Home
    56
    Gpugrid.net
    50
    Help Cure Muscular Dystrophy
    40
    Help Conquer Cancer
    40
    Help Fight Childhood Cancer
    40
    Human Proteome Folding (Phase 2)
    40
    Lattice Project
    20
    Malariacontrol.net
    47
    NRG@home (Najmanovich Research Group)
    26
    Poem@Home
    32
    Ps3grid.net
    50
    RNA World
    47
    Rosetta@Home
    27
    World Community Grid
    40
    Математика
    Abc@Home
    13
    Collatz Conjecture
    75
    EulerNet
    10
    Gimps (Great Internet Mersenne Prime Search)
    29
    Mersenne@home
    78
    NFS@Home (Number Field Sieve)
    55
    OGR-27
    11
    OPTIMA@HOME
    35
    primaboinca
    44
    Primegrid
    40
    Seventeen Or Bust
    16
    Seventeen Or Bust-Sieve
    17
    WEP-M+2 Project (Wanless)
    40
    Криптография
    DistrRTgen
    68
    Enigma@Home
    52
    RC5-72
    22
    Физика
    Einstein@Home
    49
    IBERCIVIS
    1
    Leiden Classical
    61
    Lhc@Home
    33
    Magnetism@Home
    2
    Muon1-DPAD
    31
    Spinhenge@Home
    39
    Химия
    QMC@Home
    44
    Космос
    Constellation@home
    51
    Cosmology@Home
    44
    Milkyway@Home
    48
    Orbit@Home
    27
    SETI@Home
    90
    Планета земля
    Climate Prediction
    43
    La Red de Atrapa Sismos
    7
    Quake Catcher Network
    64
    Radioactive@Home
    12
    Virtual Prairie (ViP)
    24
    Искуственный интеллект
    FreeHAL@Home
    24
    Neurona@Home
    21
    Интернет
    Majestic-12
    4
    Рендеринг
    Burp
    34
    Luxrenderfarm@home
    0
    ORE (Open Rendering Environment)
    40
    Игровые проекты
    Chess960@Home
    95
    sudoku@vtaiwan
    16
    Кликеры и трекеры
    Marmot Project
    239
    Whatpulse
    83
    Микс
    AlmereGrid
    24
    Pirates@Home
    9
    Sztaki Desktop Grid
    58
    Yoyo@Home
    37