ua     ru    Sitemap   Sitemap     | Пошук... |       Сайт відкрито 14.12.2005

Ukraine - Distributed Computing Team

 

 » Навігація 
  Новини
  Новини (Архів)
  Описи проектів
  Опитування
  Архіви

  Форум
  Форум (PDA)

 » Статті 


       Описи проектів 
Начало раздела >

Majestic-12



версія українською

авторnikelong



 

Проект Majestic-12

 

 

Ссылки:

 

Введение:

Нет, эта статья - не о катастрофе НЛО в Розуэлле, а о проекте распределенных вычислений Majestic-12 :)

 

Итак, на сайте проекта, в разделе about написано примерно следующее:

 

Если Вы читаете это, Вы должны быть онлайн и вероятно согласитесь, что Интернет стал настолько важным в повседневной жизни, что мы уже не мыслим себя без него.
С самого начала развития Интернета, очень важно было иметь возможность найти информацию быстро и точно. Если бы не была изобретена поисковая машина, то Интернет не стал бы тем, чем он является сегодня. В терминах непрофессионала, поисковые машины похожи на карты - ведь они дают нам правильное направление на информацию, которую мы хотим найти.

 

Итак, если Вы не можете вообразить вашу жизнь, без использования поисковых машин, то продолжайте читать далее.

 

Зачем мы создаём поисковую систему, когда все могут просто использовать гугл(яху/яндекс и т.д)?

Это сложный вопрос, так как на него нет единственного ответа. Мини-ответы разбиты на социальные и персональные категории для того, чтобы попытаться и начать объяснять хотя бы часть причин работы этого проекта:

 

Социальные:
1) Вы можете представить себе жизнь без Интернета? А как вам Интернет без поисковых систем?
Поисковики являются важной частью жизни, будь то работа или досуг и отсутствие возможности контролировать ИХ (поисковики) в известной степени не очень хорошая вещь.

 

2) Потому что мы можем -- персональные компьютеры и связи достигли того уровня, когда массовые масштабные проекты делают подобное возможным. Задумайтесь над этим: один компьютер с инетом в 512к может собрать 500 000 страниц в день, так что имея всего 8000 участников в сети, можно в день проиндексировать столько страниц, сколько нет у Гугла во всей его базе данных! И это всего за один день! Мы раельно можем побить Гугл по крайней мере в части размера и глубины базы даннх.

 

3) Вы когда-нибудь, вглядываясь в чистое звёздное небо, не хотелы бы узнать, сколько там звёзд? Собственно, мы тут не звёзды считаем, но аналогично этому примеру, никто точно не знает, насколько сейчас велика ''Международная Паутина''. Всё, что мы знаем, дак это то, что она намного больше, чем её проиндексировали крупнейшие поисковые системы. Проект постарается обеспечить ответ на этот сложный вопрос, собирая каждый линк и каждую страницу Интернета.

 

Персональные:
1) Я, Александр Чудновский, хочу взяться за решение задачи, требующей мировых возможностей
и амбиций (в последнем я уверен, а насчёт предпоследнего - время покажет).

 

2) Я хочу посмотреть, сможет ли Microsoft's .NET справиться с этим (в особенности её cross-platform angle)

 

3) Я хочу предоставить людям различие в поиске чего-либо в Интернете. Интернет является большой частью моей жизни и был ей достаточно долгое время, и это правильно, что я использую свои навыки в попытке сделать лучше другим людям.

 

 

О проекте:

Теперь более конкретно опишем цели (информация взята с distributed.ru):

 

Целью проекта является создание поисковой системы, типа Google, Yahoo и т.п , но с наиболее полной и глубокой базой данных проиндексированных интернет страниц.

 

Дело в том, что Интернет гораздо больше, чем его на данный момент смогли проиндексировать крупные поисковики.

Самая большая база данных на данный момент находится у поисковика Google. Сейчас они закрыли доступ ко всем своим техническим данным. По словам Марка Левина, профессора компьютерной науки университета Birkbeck, по информации на 2006г. Гугл имеет порядка 15000 серверов, индексирующих около 3000 страниц в секунду(по другим данным серверов от 30 до 70 тысяч). (The Guardian от 23 марта 2006).

 

Автор:

Автор проекта Александр Чудновский, русский, ныне проживающий в Англии. Программист, ныне возглавляет компанию Majestic-12, занимающуюся созданием ПО на базе платформ .NET/C#.

До этого работал в английской компании Jungle.com маркетологом.

 

Успехи:

На данный момент(16 ноября 2007) проиндексировано 37.5 миллиардов страниц, поисковик проекта уже начал кое-что находить (хотя, положа руку на сердце, - делает он это пока что не очень хорошо).

Вся база данных расположена на сервере, предоставленном компанией Gigaserver, с размером дискового хранилища в 16 террабайт.

 

Клиент:

Клиент графический, называется MJ12node. Индексирует страницы и отправляет результаты на основной сервер.


 

Очки:

Здесь всё просто: один обработаный WEB-адрес - одно очко. Как заявляет сам автор проекта - в сутки на канале 0.5 Мбита можно сделать 500 000 страниц. Т.е. 500 000 очков. Реально у меня получалось около 250...300 тысяч.

Что-бы достич таких результатов, Вам необходимо поигратся с количеством "воркеров" и "букетов" в настройке клиента (options, вкладка crawler). Поставьте значения 40 воркеров и 10 букетов для канала 0.5 Мбит, и играйтесь с этими параметрами (уменьшите если имеите сильно большой процент ошибок). Сообветственно для канала 1 Мбит эти цифры будут 80 и 20, арифметика проста. Но всё-же не ставьте более 200 воркеров (особенно для ADSL доступа), и вы в любом случае не поставите больше 300 воркеров.

 

Кто использует Windows XP, обратите внимание на тот факт, что максимальное количество соединений, устанавливаемых вашей системой равно 10 соединений в секунду. Т.е. у вас может быть и 200 активных соединений, но "набрать скорость", т.е. устанавливать их Вы будете 20 секунд минимум. Это сделано самой microsoft в целях самозащиты системы. Например от вирусов. Но нам для проекта это только помеха, поэтому используем патчи, снимающие это ограничение. Их сейчас в сети развелось множество, один из многих лежит тут.

 

Владельцам wi-fi роутеров - присмотритесь как работает клиент, сколько ошибок. Посмотрите вашу статистику. Особенно соотношение количества обработаных УРЛов к Вашему траффику. Потом посмотрите на других юзеров, соседов по турнирной таблице. Если Ваш траффик слишком мал - пахнет читерством, и Вас могут забанить (прецендент уже был, и к сожалению - с участником из нашей команды).

 

Официальная статистика обновляется раз в 15 минут.

 

 

Картинка со статистикой:

Если Вы желаете использовать сигнатуру (например, как подпись на форуме), то адрес изображения будет такой:

 

http://www.majestic12.co.uk/stats/allurls_by_day.php?w=200&h=140&id=1535

 

где id=1535 - Ваш индентификационный номер (в данном случае - мой).

Как узнать свой ID? Зайти в статистику команды, а потом кликнуть по своему нику. В адресной строке броузера, в конце и будет написан ваш ID.  

Результатом будет что-то типа этого:

 

 

 

Факты из жизни:

  • В проекте своеобразное понятие "фермы". Дело в том, что клиент способен загрузить Ваш канал по полной (вплоть до 100 Мбит), поэтому вторую копию клиента есть смысл ставить только на компьютер с другим каналом в интернет.
  • Если выставить загрузку канала в 100%, то нормально работать будет только ICQ :) Клиент максимально использует Ваш канал (как торрент-клиент с большим количеством соединений), поэтому его нужно будет или выключать на время Вашего пребывания в сети, или использовать сторонние программы для управления приоритетом траффика. Да, в самом клиенте есть менеджер профилей, так что допустим, когда запущено приложение firefox.exe то он может "засыпать", но это частичный выход из ситуации. Ведь у многих ФФ запущен 12 а то и 24 часа в сутки :)
  • В самом клиенте присутствует ВЭБ-сервер, так что им можно управлять удаленно.
  • Смайлик:   

 

 

Проблема с антивирусом ESET NOD32:

С этой проблемой столкнулся не только я, на официальном форуме есть соответствующая ветка.

Суть вот в чем - телодвижения клиента Маджестика NOD принимает за подозрительные, и блокирует его сетевую активность. В итоге очки в статистику не капают, да и сам клиент вылетает из системы.

Что-бы этого не произошло делаем следующее:

  1. Click on the NOD32 AV icon in the system tray, which will bring up the Control Center
  2. Click on Threat Protection Modules
  3. Click on IMON
  4. Click on Setup
  5. Click on the Miscellaneous Tab at the top
  6. Look for Exclusions (This option allows you to control what applications will be excluded from scanning by the (IMON) Internet Monitor)
  7. Click on Edit
  8. Click on Add
  9. Browse through you PC until you find MJ12node.exe and click on it
  10. Click on Open
  11. Click on OK
  12. At the next start-up of the MJ12 Node it will be excluded from the IMON scan.

 

 

Пресса:

habrahabr.ru

 

 

Ресурсоемкость:

  • процессор - 1% загрузки. Во время архивирования пакета данных для отправки загрузка возрастает до 100% (на минуту-три...). Поэтому клиент можно запускать и на слабых компютерах.
  • озу - до 100 Мб.
  • время - клиент работает сколько вы сами захотите.
  • траффик - стремится к бесконечности. Поэтому запускайте клиент только если у вас безлимитный доступ в интернет!

 

 

Как подключится (windows):

  1. Убедитесь в том что у Вас безлимитный доступ в интернет;
  2. Проверьте, установлен ли в Вашей системе NET 2.0 (пуск - панель управления - установка и удаление программ. В открывшимся списке должна присутствовать строчка NET Framework 2.0). Если нету - идем на windows update;
  3. Загрузите клиент (1.2 Мб), предпочтение - версии Installer;
  4. введите логин/пароль/прочие данные в самом клиенте, и нажмите кнопку регистрации. Если что-то непонятно - читаем на английском более подробное описание.
  5. Зайдите на сайт проекта и залогинтесь под собой (введите те логин и пароль шо вводили при регистрации клиента)
  6. Нажмите эту ссылку для присоединения к нашей команде. Или нажмите эту - же ссылку на странице статистике нашей команды (Join this team).
  7. Если всё сделано верно то в данный момент Вы уже являетесь членом нашей команды. Поздравляем!




Дата: Вівторок, 08 Січень 2008
Прочитана: 19383 раза

Распечатать Распечатать    Переслать Переслать    В избранное В избранное

Повернутися назад

 » Положення команди 
Медико-біологічні
Correlizer
47
DrugDiscovery@Home
9
Fightaids@Home
40
Folding@Home
56
Gpugrid.net
50
Help Cure Muscular Dystrophy
40
Help Conquer Cancer
40
Help Fight Childhood Cancer
40
Human Proteome Folding (Phase 2)
40
Lattice Project
20
Malariacontrol.net
47
NRG@home (Najmanovich Research Group)
26
Poem@Home
32
Ps3grid.net
50
RNA World
47
Rosetta@Home
27
World Community Grid
40
Математика
Abc@Home
13
Collatz Conjecture
75
EulerNet
10
Gimps (Great Internet Mersenne Prime Search)
29
Mersenne@home
78
NFS@Home (Number Field Sieve)
55
OGR-27
11
OPTIMA@HOME
35
primaboinca
44
Primegrid
40
Seventeen Or Bust
16
Seventeen Or Bust-Sieve
17
WEP-M+2 Project (Wanless)
40
Криптографія
DistrRTgen
68
Enigma@Home
52
RC5-72
22
Фізика
Einstein@Home
49
IBERCIVIS
1
Leiden Classical
61
Lhc@Home
33
Magnetism@Home
2
Muon1-DPAD
31
Spinhenge@Home
39
Хімія
QMC@Home
44
Kосмос
Constellation@home
51
Cosmology@Home
44
Milkyway@Home
48
Orbit@Home
27
SETI@Home
90
Планета земля
Climate Prediction
43
La Red de Atrapa Sismos
7
Quake Catcher Network
64
Radioactive@Home
12
Virtual Prairie (ViP)
24
Штучний інтелект
FreeHAL@Home
24
Neurona@Home
21
Інтернет
Majestic-12
4
Рендеринг
Burp
34
Luxrenderfarm@home
0
ORE (Open Rendering Environment)
40
Ігрові проекти
Chess960@Home
95
sudoku@vtaiwan
16
Клікери і трекери
Marmot Project
239
Whatpulse
83
Мікс
AlmereGrid
24
Pirates@Home
9
Sztaki Desktop Grid
58
Yoyo@Home
37