====== Настройка клиента на Windows ====== Не забудьте, что устанавливать проект нужно только в том случае, если у вас неограниченный по входящему трафику тарифный план. Системные требования одной ноды: * Память: до 350МБ + 150МБ для архивации в отдельном потоке * Диск: до 10-15ГБ * Процессор: рекомендуется 1 полностью выделенное ядро * Траффик: до 20мегабит/сек Скачайте клиент Majestic12 с [[http://www.majestic12.co.uk/projects/dsearch/download.php|официального сайта]] и установите (или распакуйте) на диск. Ввиду того что клиент может записывать много маленьких файлов на диск, в идеале рекомендуется для базового диска для ноды (клиента) использовать диск либо с большим буфером, либо тот на котором система не установлена. ===== Настройка параметров ===== ==== Регистрационные данные - Personal ==== {{:ru:project_mj12_windows_options_presonal.png|}} Пока вы не зарегистрируетесь и не введете свои данные, вы не можете начать кравлить. Введите свои персональне данные * **Email** - ваш емейл, рекомендуется использовать один и тот же для всех проектв РВ * **Nickname** - имя под которым вы будете в статистике * **Password** - пароль от вашего аккаунта * **Country** - страна. Выбираем **Ukraine** * **Web site** - ваш персональный веб сайт. Пишем **http://distributed.org.ua** * **Node name** - имя этой ноды, в статистике. Имя служит для идентификации и более удобного управления если у вас много нод. Можно оставить Anonymous * **Preferred domains to crawl** - выберите те домены которые будут приоритетны для этой конкретной ноды. Например для домашнего компьютера можно поставить UA, а для сервера в германии - DE, EU, FI итд. Если вы выбрали приоритетные домены, это не означает что вам будут выдаваться задания только для них. Рекомендуется включать только те домены, географически в которых находится нода. * **Prefer all TLD (top level domains) apart from COM/NET/ORG** - выберите и вам будут выдаваться все домены кроме COM/NET/ORG. Опять же, если на сервере будут срочные задания для COM/NET/ORG, то их вам выдадут независимо от настроек. Включать не рекомендуется Итак, все данные введены, можно либо **зарегистрироваться** (Register), либо нажать "**обновить данные**" (Update). При этом ваша нода получит уникальный NodeHash, который будет записан в config.xml ==== Соединение - Connection ==== {{:ru:project_mj12_windows_options_connection.png|}} Здесь можно вибрать параметры своего соединения, а также указать лимит для потребления интернета. * **Your connection** - тут можно выбрать тип вашего соеинения из предустановленных * **Downstream** - лимит для закачки. Это один из основных параметров. Дело в том что маджестик не может указать конкретно с какой скоростью скачивать каждую страницу. Но при большом кол-ве соединений, если в среднем лимит будет превышен, нода сама ограничит количество воркеров и на протяжении длительного времени лимит будет соблюдаться. * **Downstream %** - в процентах от **Downstream**. Рекомендуется выставить значение 90% от общей пропускной способности на закачку. Например, если у вас тариф 10MBit/sec то ставим Downstream=10000 и 90% * **Upstream** - то же самое что и **Downstream**, только на аплоад. Обычно нода будет аплоадить примерно 10% от того, что она закачала. Ограничивать аплоад не рекомендуется. * **Upstream %** - в процентах от Upstream * **Network communication timeout** - через сколько секунд воркер будет обрывать соединение если не получено никакого ответа. По-умолчанию стоит 10 секунд, изменять не рекомендуется * **Bandwidth check period (sec)** - как часто нода будет определять пропускную способность. По умолчанию 10 секунд, изменять не рекомендую * **Count UpStream usage towards overall bandwidth** - с этой опцией настройrb UpStream не будут использоваться * **Connect to superpeer directly rather than via HTTP** - позволяет напрямую общаться с сервером. По умолчанию включено, и выключать не рекомендуется * **Track bandwidth usage on network interface** - на каком интерфейсе (на какой сетевой карте) измерять пропускную способность. Если вы не смотрите на график использования интернета каждую минуту, то рекомендую выключить * **HTTP Proxy** - настройки прокси. Если у вас интернет через прокси-сервер, то обычно нода не сможет тянуть большую скорость закачки. В этом случае особо смысла гонять маджестик на таком соединении нет. Если же у вас специальная прокси для фермы из нод - то в этом случае никаких ограничений нет ==== Кравлер - Crawler ==== {{:ru:project_mj12_windows_options_crawler.png|}} **Downloading** * **Maximum number of async workers*** - максимальное количество потоков для закачивания. Это основной параметр ноды. В процессе работы нода маджестика качает страницы с различных доменов, и не чаще чем 10 секунд с одного домена. Поэтому, ноде необходимо иметь как можно больше воркеров (потоков) для закачки с разных доменов. Домены сгруппированы в букеты по 10000 (или меньше) штук, и эти параметры взаимосвязаны. Чем больше букетов открыто, тем "легче" с них качать. В зависимости от скорости интернета, а также того, как "тянет" ваша сетевая карта и модем, нужно выставить максимальное число воркеров. Например, при скорости 1 мегабит/сек, и среднему размеру странички 25 килобайт, получается что в секунду нода может скачать 1024/8/25=5 страничек. Так как с одного домена нельзя качать чаще 10 секунд, а также разных факторов как время ответа сервера, пинг итд, то для успешного закачивания и полного использования канала 1 мегабит/сек необходимо больше чем 5 воркеров. Опытным путем выяснено что для такой скорости 50 воркеров примерно хватит. Ограничений на этот параметр нет, но все-таки не рекомендуется разрешать больше 400 воркеров для одной ноды. Смотрите табличку * **Maximum number of open buckets** - buckets, barrels, букеты - это задания в проекте. Каждый букет содержит 10000 страниц для закачивания, обычно с разных доменов. Иногда выдаются приоритетные букеты с одним доменом, и при этом количество страничек в букете будет меньше, например 2000, или другое число. Чем больше букетов разрешено открыть, тем больше диска будет использоваться (обычный букет может занимать 200-300 мегабат, но редко бывают и очень огромные по гигабайту). Также, если открыто мало букетов, и в них мало различных доменов, то скорость ноды может упаться потому что необходимо выдерживать таймаут при закачке с одного домена. Для 1 мегабит/сек рекомендуется открыть например 10 букетов. Ограничение на кол-во открытых букетов - 100. Рекомендуется открывать 75 на самой быстрой ноде. Опытным путем установлено что даже при таком кол-ве открытых букетов, общее потребление диска не превышает 15 гигабайт * **Use persistent connections** - по умолчанию включено * **Use alternative HTTP library** - если у вас какие-то проблемы с соединениями в ноде, попробуйте другую библиотеку HTTP. по умолчанию выключено и включать без особых причин не рекомендуется. * **Use GZIP** - нода будет пытаться сказать серверу что ответ надо отдавать в GZIP. при этом значительно уменьшается количество потребляемого трафика, экономия достигает 25% сети. По умолчанию включено, отключать не рекомендуется **Uploading** FIXME **General** FIXME **CPU usage tuning** FIXME **Hard errors** FIXME ==== Профили - Profiles ==== {{:ru:project_mj12_windows_options_profiles.png|}} Всякие профили для работы. * **Snooze downloads** - не будет закачивать ничего * **Snooze uploads** - будет закачивать но не загружать на сервер * **Full speed when idle** - через 60 секунд после того как вы перестанете двигать мышкой и печатать, установит на 100% переходники Downstream %, Upstream % на вкладке Connection. Вернет в нормальное положение когда пользователь будет активен * **Snooze archiving** не будет архивировать полностью законченные букеты (задания). При этом вы будете экономить 1 ядро процессора ==== Разное - Misc ==== {{:ru:project_mj12_windows_options_misc.png|}} FIXME ==== Архивация - Archiving ==== {{:ru:project_mj12_windows_options_archiving.png|}} FIXME ==== Дополнительные настройки кравлера - More Crawler ==== {{:ru:project_mj12_windows_options_more_crawler.png|}} FIXME ====== Разное ====== Какие параметры выставить | скорость | open buckets | max workers | | для 1 MBit/s | 10| 50| | для 2 MBit/s | 15| 70| | для 3 MBit/s | 20| 80| | для 4 MBit/s | 25| 100| | для 5 MBit/s | 25| 150| | для 8 MBit/s | 75| 300| | для 20 MBit/s | 75| 400| FIXME HDD 15GB RAM 500MB Bandwidth limits 50/50 and sliders 100% (so it just use all available connection) 300 workers 75 open buckets 0 deepcrawl, 50 priority lower priority to archiving Archiving delay at 1 ====== Настройка клиента на Linux ====== Ключевые слова - Refic's bundle Скачать, распаковать, настроить или обновить конфиг.хмл и запустить. FIXME ====== Настройка клиента на Macos ====== FIXME скачать mono http://www.go-mono.com/mono-downloads/download.html ====== Настройка клиента на FreeBSD ====== FIXME