Сегодня для эксперимента решил полдня погонять ноду с 5 рабочими потоками, при обычных 15
В результате получил следующее:
* Скачано примерно на 40000 УРЛов меньше (при 15 рабочих обычно идет 230000 в день)
* Процент ошибок больше средних на 10% (при 15 потоках в среднем 60-70% в статусе ОК)
Следовательно количество рабочих потоков НЕ влияет на количество ошибок закачки
пс: возможно так много ошибок из-за того что у меня предпочитаются все домены кроме ком, орг и нет, и некоторые "экзотические" не резолвятся вовремя
а почему Limit на Downloading ноль ?
Хз. А зачем лимит ?
у меня канал выставлен 512, 100%
Отакої.
У меня, при количестве воркеров 80 штук картина ТАКАЯ-ЖЕ за исключением строки "тайм-аут". ТАм не 0.2% а обычно около 10%.
Но я как - то думал шо это нормально - по таймауту иметь 10% ошибок.
Поставил обратно 15 воркеров. Явно видно что проблемы с резолвом ДНС
Привет всем!
Большое кол-во ошибок DNS изза того что сейчас мы проверяем 70 млн доменов, те которые ведут к ошибкам будут отфильтрованы с базы, так что не надо пугаться пока - завтра таких ошибок будет меньше, а через несколько дней я надеюсь очистить базу от урлов с тех доменов, так что ошибок будет намного меньше
Алекс, а может быть такое что пров просто не дает столько резолвов ДНС одному клиенту в короткий промежуток времени?
Может, так как баррели все равно имеют очень короткий таймаут, сделать одну ноду на главном сервере, которая будет резолвить IP сайтов и сразу выдавать их в баррелях?
Аааа, то-то я думаю шо у меня за траблы
Вчера и сегодня грузится только один букет, хотя можно 5.
Да и тот не работает, а скорее мертвый...
Даже переустановил клиента, думал может с моей стороны трабл...
Эти домены почти полностью сделаны, осталось только 13 млн из 69 млн, мы их по второму разу делаем так как есть всегда вероятность что проблема DNS не имеет к домену отношению.
Я думал сделать это на центральном сервере, но проблема это скорость - более 2 млн в день я не могу разрезолвить, таким образом дело бы заняло месяц как минимум
Осталось совсем не много до нормальных данных, все эти ошибки будут использованы с пользой - они будут учтены для урлов, так что я ожидаю что новые данные будут намного более чистые чем когда либо
Это гуд.
У меня один вопрос, почему из барреля не банится сразу вся пачка урлов от одного домена, если для данного домена было например несколько ДНС ерроров?
Судя по букет-вотчеру СЕЙЧАС разных доменов реально почти 99%, но вообще такое предусмотрено? мучает меня такой вопрос
Кстати, всем пока рекомендую увеличить кол-во воркеров до 20-30-40-50 или больше - ошибок резолва очень много, и он не отнимает траффик у остальных воркеров
А у меня не грузится больше одного букета
Хотя в настройках выставлено 5 штук
Rilian: так оно и работает, если есть Х урлов от одного домена которые не может разрешится то через несколько ошибок начинается банится все урлы из этого бакета, но если у бакете много уникальных урлов (как было несколько дней назад), то это не поможет.
Поставил таймаут не 10 а 60 секунд
Поставил 5 букетов
Поставил 5 воркеров...
...
Т.Е. сделал максимально тепличные условия для того чтобы уменьшить количество ошибок по таймауту...
Процент всё-равно составляет 8% (!!)
При 100 Воркерах доходит до 15%...
Выяснил почему сегодня накравлил аномальное количество УРЛов.
Глючили букеты из зоны .nu .kz .by
Кто-нибудь сталкивался с такой проблемой: Маджестик не может заархивировать данные, при архивации очень медленно доходит до 30%, потом долго стоит на этой отметке. После этого показатель сбрасывается на 0, время архивации продолжает считаться, а через некоторое время все начинается сначала, и так по кругу. Пробовал подключить внешний архиватор RAR, все становится еще медленнее, но тоже по кругу. Перезагрузка Маджестика и машины ничего не дают.
Что посоветуете?
у меня с архивацией всё нормально, не скажу...
настроено всё по дефолту?
у меня кравлятся 10 доменов из 50000 ((
остальные в таймауте.
что делать?
Death
А какого типа ошибки? DNS или таймауты или что-то другое?
Хез... че-то у меня тоже таймауты поперли. Может задания такие...
При архивации были проблемы с внешним архиватором. выставил внутренний - все ущло.
При конкретных нерешаемых проблемах помогло все удалить и установить заново ( как правило версия новее уже есть) - такое было 1 раз.
попался букет аэро забитый тупо спамом.
connect-one.aero
connect-privet.aero
connect-blablabla.aero
и тд. сцуко весь день тупо висел, одни таймауты.
а второй не лоадится параллельно (((
пришлось убить нах всю базу. не знаю как один букет можно абортнуть.
зато щас попёрла Украина. 2мегабита жгут на 100% ))
75 воркеров.
MJ12node : v1.6.8
Platform : Win32 specific running on Microsoft Windows NT 5.1.2600.0
Total URLs : 7 237 (100,0%)
Successes : 6 062 (83,8%)
Not found : 169 (2,3%)
Timed out : 30 (0,4%)
Disallowed : 0 (0.0%)
Banned : 0 (0.0%)
DNS errors : 657 (9,1%)
Conn errors : 319 (4,4%)
Forbidden (403): 0 (0.0%)
Other : 0 (0.0%)
Retries : 0 (0,0%)
Uptime : 14 mins 22 secs
Memory usage : 54 MB
GZIP requests : 2 204 (30,4% of successes)
GZIP saved data: 78 MB (35,8% of total)
Короче ОГО оказалось полным УГ по части ошибок.
Я сегодня на другом прове попробовал - глазам не поверил - 98.2% УДАЧНЫХ кравлеров. Я на ого и 80% то ниразу невидел....
ЗЫ: настройки ессесно одинаковые для одной и той же ширини канала ...
ОГО падает на стадии резолва ДНС, или на стадии докачки страницы?
ого задолбало сцуко падением днс в 8 вечера
MJ12node : v1.6.8
Platform : Win32 specific running on Microsoft Windows NT 5.1.2600.0
Total URLs : 15 386 (100,0%)
Successes : 14 568 (94,7%)
Not found : 261 (1,7%)
Timed out : 224 (1,5%)
Disallowed : 179 (1,2%)
Banned : 0 (0.0%)
DNS errors : 13 (0,1%)
Conn errors : 139 (0,9%)
Forbidden (403): 0 (0.0%)
Other : 2 (0,0%)
Retries : 0 (0,0%)
Uptime : 46 mins 8 secs
Memory usage : 49 MB
GZIP requests : 5 475 (35,6% of successes)
GZIP saved data: 185 MB (32,5% of total)
Найк, если кликнуть по этой табличке - в клиенте - там есть скопировать в клипбоард. Кинь сюда )) и логи тоже...
У меня, когда идет Украина, удачных - 93-95%.
Когда зарубежка - 80-90% (если меньше, то рестартую клиент.).
Карочи, Чудновсикй проапгрейдил стат, теперь видно у кого сколько ошибок на каждой ноде.
у заодно видно кто читерсцуко!
ЗЫ: нормальным считается <15% ошибок. Все шо бОльше - подсвечивается красным (!)
мне вот такое на мыло пришло.
читайте топик по ссылке.
Hi!
First of all thanks for supporting Majestic-12 project!
The reason I email you is because one (or more) of your nodes generates higher than average number of network related errors
(DNS+Connections+Timeouts) - that's over 10% compared with 5% average (some of the nodes generate over 15% of errors - in those cases I had to instruct server not to issue new buckets to those nodes only - if you have mulptiple nodes that only those nodes that generated too many errors today would be affected)
In order to fix this problem please refer to this thread on our forum:
http://www.majestic12.co.uk/forum/viewtopic.php?t=3259 - please reply to this email or post in forum if you are in doubt what to do (generally speaking reducing number of workers should help or changing to OpenDNS).
Please check your userinfo page on our site to see which of the nodes generates more errors than others (this is in case you have more than one node!)
Thank you again for your support and please have a look at your node config to reduce number of errors, this would help project in a big way!
Regards,
Alex
Мне такое тоже пришло.
было 14/88 - сделал 7/40 ))))
скорость скачивания не упала, а ошибок днс стало реально меньше.
посмотрим на дневные результаты...
кстати, кто не пользовался веб-интерфесом для управления клиентом - попробуйте. реальни удобная штука.
опции - миск - єнейбл веб-сервер.
Парни, подскажите шо енто за хрень :
Не переживай, "неудачные" ссылки выдадутся комуто повторно. Если выбирать между 40% удачных либо ничего, я бы выбрал первое
Пока писал предыдущий пост клиент забанил ~32 тыс. урлов, удачных 0.4 % . Никаких других ошибок нет! Вообще никаких!
Так шо я пока рублю клиент !
Помню раньше были времена когда было много забаненых и ошибочных. И ничего, прошли. Подключи другие типы доменов
Посмотрел статистику друга (считает на мой ник; настраивал ему клиент сам; тот же провайдер) - удачных ~ 89 % ссылок. Так что мои проблемы - это скорее хреновые bucket-ы. Опять включил клиент на полную катушку!
кстати домены .cc довольно дешевые и поэтому их покупают те, у кого нет денег на хороший хостинг. Ну и как следствие, к ним трудно достучаться без ошибок
Привет!
Использую ОГО(1М/512к), но по статистике, вижу низкий уровень количества отосланных Мб...
есть опенднс
и есть 4.2.2.2 4.2.2.3
добавь их в настройках сетевого соединения дополнительно к укртелу.
шото мне торренты начали сифачить мадж (((((
кто-то сталкивался? правда сам сайт маджа тупит последние несколько дней....
на кого гнать?
20.05.2009 20:15:09] library routine called out of sequence Exception! We are going to reconnect to database
[20.05.2009 20:15:09] Failed to get param CurrUploadBucket due to System.Exception: System.Exception: Can't execute query 'pn_select_param': Attempted to read or write protected memory. This is often an indication that other memory is corrupt. - - SQL:
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName, Object[] asParams)
at Majestic12.p_SQL.GetParam(EasyDB oEasyDB, String sParam)
[20.05.2009 20:15:09] Failed to get param DownTrafficCountDay2009-05-20 due to System.Exception: System.Exception: Can't execute query 'pn_select_param': library routine called out of sequence - - SQL:
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName, Object[] asParams)
at Majestic12.p_SQL.GetParam(EasyDB oEasyDB, String sParam)
[20.05.2009 20:15:09] System.Exception: System.Exception: Can't execute query 'pn_select_uploads': The connection must be open to call ExecuteReader - - SQL:
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName)
at Majestic12.UploadManager.GetBucketsReadyForUpload(Int32& p_iDataBarrelsPendingUpload)
at Majestic12.UploadManager.UploadBarrels(Boolean& bServerDown)
что это такое в логе?
это у него шото с базой.
сделай cleanup. оно то бывает то пропадает.
правда один раз пришлось всю базу грохнуть.
а оно ж и текущие убьет пакеты ?
т.е. это внутрення ощибка клиента?
Не мог понять, почему одна нода перестала нормально работать, пока не посмотрел на адреса в bucket-е :
Это скоко мну за энто впаяют ?! (В свете последних занонопроектов Рады). Поди потом докажи, что не распространяешь !
Starvation of workers detected: you need to increase Max Open Buckets value in Options->Crawler OR reduce number of workers! Current flags: bForbidRaisingStarvation=False, IsMaxOpenBuckets()=True iSparseDomainRatioBuckets=4, MAX_LOW_UNIQUE_DOMAINS_BUCKETS=3, GetMaxWorkers()=40 GetMaxBuckets()=1 -*-
это че за шняга
у тебя много качающих потоков, и мало открытых "букетов" (наборы ссылок). увеличь кол-во открытых букетов. Но учти что будет больше хавать диска
[31.08.2009 20:40:39] Could not remove upload bucket savepoint: System.Exception: Database is still locked! Could not run query: pn_remove_param Queue size: System.Collections.ArrayList
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName, Object[] asParams)
at Majestic12.UploadManager.UploadBarrel(QueryResult oWorkUnit, Boolean bNewBarrel, Boolean& bServerDown)
Из-за порнушных сайтов скорость упала ~ в 5 раз.
З.Ы. Смотрю, что это у всех участников проекта !
кто нить проверьте колво ошибок на гугловском днс
8.8.8.8
8.8.4.4
по сравнению с опенднс.
http://www.grc.com/dns/benchmark.htm
гугл днс быстрее опенднсовского. и кстати когда опенднс не может резолвить адрес он подсовывает свою страницу. отстой.
4.2.2.2-8
супербыстрые
и гугловский тоже.
опенднс отстой.
а разве 4.2.2.2 не ОпенДНС?
zomg
OrgName: Level 3 Communications, Inc.
http://ip-lookup.net/?4.2.2.2
значет где-то сиране опенднс затесалсо.
спрашиваем у 4222 кто такой нетнихера.ком
; <<>> DiG 9.2.3 <<>> @4.2.2.2 netnihera.com A
;; global options: printcmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NXDOMAIN, id: 38565
;; flags: qr rd ra; QUERY: 1, ANSWER: 0, AUTHORITY: 1, ADDITIONAL: 0
;; QUESTION SECTION:
;netnihera.com. IN A
;; AUTHORITY SECTION:
com. 769 IN SOA a.gtld-servers.net. nstld.verisign-grs.com. 1265929467 1800 900 604800 86400
;; Query time: 1 msec
;; SERVER: 4.2.2.2#53(4.2.2.2)
;; WHEN: Thu Feb 11 23:07:02 2010
;; MSG SIZE rcvd: 104
не отдаёт ничего - нет нихера.
спрашиваем у опенднса
; <<>> DiG 9.2.3 <<>> @208.67.222.222 netnihera.com. IN
;; global options: printcmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 42458
;; flags: qr rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 0, ADDITIONAL: 0
;; QUESTION SECTION:
;netnihera.com. IN A
;; ANSWER SECTION:
netnihera.com. 0 IN A 208.67.219.132
;; Query time: 1 msec
;; SERVER: 208.67.222.222#53(208.67.222.222)
;; WHEN: Thu Feb 11 23:07:47 2010
;; MSG SIZE rcvd: 47
отдаёт 208.67.219.132 сучечько
идём на http://208.67.219.132/ и что мы видим? то же говно.
так шо где-то у тебя завелось уг. ищи и попячь его!
погоняй тесты скорости днс. гдето была тут тема на форуме.
чото я умничаю.
педивикия какгбе говорит нам
Серверы
OpenDNS предоставляет следующие адреса серверов для публичного использования, для альтернативной маршрутизации:
208.67.222.222 (resolver1.opendns.com)
208.67.220.220 (resolver2.opendns.com)
Блин, я перепутал
у меня ДНС прописан "4.2.2.2, 208.67.220.220"
Я думал первый - это опен, а второй укртелекомовский
запусти днс бенчмарк. там есть экспорт результатов в картинко.
Народ,Help.
Последнее время начали вылетать ноды с такой ошибкой (возникает при запуске):
Переустановка клиента непомогает, с библиотеками DOT NET тоже вроде всё ок... раньше работало без проблем, везде стоит Win7 x64
Top users (Today)
1 Roamer 3,089,594 80,590
2 Irish Republican 2,929,788 10,602
3 nikelong 2,826,754 68,022
4 Simorg 2,413,152 80,415
5 uNiUs 2,150,622 70,556
6 rrappee 1,608,230 15,525
7 Andrey fox 660,263 21,632
8 SlavaAltus 415,527 13,643
9 _Ro 400,714 10,521
10 Alexis Kravtchenko 321,109 11,494
11 rjurik 269,123 9,773
12 A1ex01 107,761 3,247
Проверь что у тебя там случилось?
))))))
шо-то Алекс версию 171 обещал релизнуть неделю назад.
а сегодня на форуме написал что будет мыло рассылать тем кто на 170 не апнулся.
Invision Power Board
© Invision Power Services