Настройка клиента на Windows
Не забудьте, что устанавливать проект нужно только в том случае, если у вас неограниченный по входящему трафику тарифный план.
Системные требования одной ноды:
Память: до 350МБ + 150МБ для архивации в отдельном потоке
Диск: до 10-15ГБ
Процессор: рекомендуется 1 полностью выделенное ядро
Траффик: до 20мегабит/сек
Скачайте клиент Majestic12 с официального сайта и установите (или распакуйте) на диск. Ввиду того что клиент может записывать много маленьких файлов на диск, в идеале рекомендуется для базового диска для ноды (клиента) использовать диск либо с большим буфером, либо тот на котором система не установлена.
Настройка параметров
Регистрационные данные - Personal
Пока вы не зарегистрируетесь и не введете свои данные, вы не можете начать кравлить.
Введите свои персональне данные
Email - ваш емейл, рекомендуется использовать один и тот же для всех проектв РВ
Nickname - имя под которым вы будете в статистике
Password - пароль от вашего аккаунта
Country - страна. Выбираем Ukraine
-
Node name - имя этой ноды, в статистике. Имя служит для идентификации и более удобного управления если у вас много нод. Можно оставить Anonymous
Preferred domains to crawl - выберите те домены которые будут приоритетны для этой конкретной ноды. Например для домашнего компьютера можно поставить UA, а для сервера в германии - DE, EU, FI итд. Если вы выбрали приоритетные домены, это не означает что вам будут выдаваться задания только для них. Рекомендуется включать только те домены, географически в которых находится нода.
Prefer all TLD (top level domains) apart from COM/NET/ORG - выберите и вам будут выдаваться все домены кроме COM/NET/ORG. Опять же, если на сервере будут срочные задания для COM/NET/ORG, то их вам выдадут независимо от настроек. Включать не рекомендуется
Итак, все данные введены, можно либо зарегистрироваться (Register), либо нажать «обновить данные» (Update). При этом ваша нода получит уникальный NodeHash, который будет записан в config.xml
Соединение - Connection
Здесь можно вибрать параметры своего соединения, а также указать лимит для потребления интернета.
Your connection - тут можно выбрать тип вашего соеинения из предустановленных
Downstream - лимит для закачки. Это один из основных параметров. Дело в том что маджестик не может указать конкретно с какой скоростью скачивать каждую страницу. Но при большом кол-ве соединений, если в среднем лимит будет превышен, нода сама ограничит количество воркеров и на протяжении длительного времени лимит будет соблюдаться.
Downstream % - в процентах от Downstream. Рекомендуется выставить значение 90% от общей пропускной способности на закачку. Например, если у вас тариф 10MBit/sec то ставим Downstream=10000 и 90%
Upstream - то же самое что и Downstream, только на аплоад. Обычно нода будет аплоадить примерно 10% от того, что она закачала. Ограничивать аплоад не рекомендуется.
Upstream % - в процентах от Upstream
Network communication timeout - через сколько секунд воркер будет обрывать соединение если не получено никакого ответа. По-умолчанию стоит 10 секунд, изменять не рекомендуется
Bandwidth check period (sec) - как часто нода будет определять пропускную способность. По умолчанию 10 секунд, изменять не рекомендую
Count UpStream usage towards overall bandwidth - с этой опцией настройrb UpStream не будут использоваться
Connect to superpeer directly rather than via HTTP - позволяет напрямую общаться с сервером. По умолчанию включено, и выключать не рекомендуется
Track bandwidth usage on network interface - на каком интерфейсе (на какой сетевой карте) измерять пропускную способность. Если вы не смотрите на график использования интернета каждую минуту, то рекомендую выключить
HTTP Proxy - настройки прокси. Если у вас интернет через прокси-сервер, то обычно нода не сможет тянуть большую скорость закачки. В этом случае особо смысла гонять маджестик на таком соединении нет. Если же у вас специальная прокси для фермы из нод - то в этом случае никаких ограничений нет
Кравлер - Crawler
Downloading
Maximum number of async workers* - максимальное количество потоков для закачивания. Это основной параметр ноды. В процессе работы нода маджестика качает страницы с различных доменов, и не чаще чем 10 секунд с одного домена. Поэтому, ноде необходимо иметь как можно больше воркеров (потоков) для закачки с разных доменов. Домены сгруппированы в букеты по 10000 (или меньше) штук, и эти параметры взаимосвязаны. Чем больше букетов открыто, тем «легче» с них качать. В зависимости от скорости интернета, а также того, как «тянет» ваша сетевая карта и модем, нужно выставить максимальное число воркеров. Например, при скорости 1 мегабит/сек, и среднему размеру странички 25 килобайт, получается что в секунду нода может скачать 1024/8/25=5 страничек. Так как с одного домена нельзя качать чаще 10 секунд, а также разных факторов как время ответа сервера, пинг итд, то для успешного закачивания и полного использования канала 1 мегабит/сек необходимо больше чем 5 воркеров. Опытным путем выяснено что для такой скорости 50 воркеров примерно хватит. Ограничений на этот параметр нет, но все-таки не рекомендуется разрешать больше 400 воркеров для одной ноды. Смотрите табличку
Maximum number of open buckets - buckets, barrels, букеты - это задания в проекте. Каждый букет содержит 10000 страниц для закачивания, обычно с разных доменов. Иногда выдаются приоритетные букеты с одним доменом, и при этом количество страничек в букете будет меньше, например 2000, или другое число. Чем больше букетов разрешено открыть, тем больше диска будет использоваться (обычный букет может занимать 200-300 мегабат, но редко бывают и очень огромные по гигабайту). Также, если открыто мало букетов, и в них мало различных доменов, то скорость ноды может упаться потому что необходимо выдерживать таймаут при закачке с одного домена. Для 1 мегабит/сек рекомендуется открыть например 10 букетов. Ограничение на кол-во открытых букетов - 100. Рекомендуется открывать 75 на самой быстрой ноде. Опытным путем установлено что даже при таком кол-ве открытых букетов, общее потребление диска не превышает 15 гигабайт
Use persistent connections - по умолчанию включено
Use alternative HTTP library - если у вас какие-то проблемы с соединениями в ноде, попробуйте другую библиотеку HTTP. по умолчанию выключено и включать без особых причин не рекомендуется.
Use GZIP - нода будет пытаться сказать серверу что ответ надо отдавать в GZIP. при этом значительно уменьшается количество потребляемого трафика, экономия достигает 25% сети. По умолчанию включено, отключать не рекомендуется
Uploading
General
CPU usage tuning
Hard errors
Профили - Profiles
Всякие профили для работы.
Snooze downloads - не будет закачивать ничего
Snooze uploads - будет закачивать но не загружать на сервер
Full speed when idle - через 60 секунд после того как вы перестанете двигать мышкой и печатать, установит на 100% переходники Downstream %, Upstream % на вкладке Connection. Вернет в нормальное положение когда пользователь будет активен
Snooze archiving не будет архивировать полностью законченные букеты (задания). При этом вы будете экономить 1 ядро процессора
Разное - Misc
Архивация - Archiving
Дополнительные настройки кравлера - More Crawler
Разное
Какие параметры выставить
скорость | open buckets | max workers |
для 1 MBit/s | 10 | 50 |
для 2 MBit/s | 15 | 70 |
для 3 MBit/s | 20 | 80 |
для 4 MBit/s | 25 | 100 |
для 5 MBit/s | 25 | 150 |
для 8 MBit/s | 75 | 300 |
для 20 MBit/s | 75 | 400 |
HDD 15GB
RAM 500MB
Bandwidth limits 50/50 and sliders 100% (so it just use all available connection)
300 workers
75 open buckets
0 deepcrawl, 50 priority
lower priority to archiving
Archiving delay at 1
Настройка клиента на Linux
Ключевые слова - Refic's bundle
Скачать, распаковать, настроить или обновить конфиг.хмл и запустить.
Настройка клиента на Macos
Настройка клиента на FreeBSD