Сегодня для эксперимента решил полдня погонять ноду с
5 рабочими потоками, при обычных 15
В результате получил следующее:
* Скачано примерно на 40000 УРЛов меньше (при 15 рабочих обычно идет 230000 в день)
* Процент ошибок больше средних на 10% (при 15 потоках в среднем 60-70% в статусе ОК)
Следовательно количество рабочих потоков НЕ влияет на количество ошибок закачки
пс: возможно так много ошибок из-за того что у меня предпочитаются все домены кроме ком, орг и нет, и некоторые "экзотические" не резолвятся вовремя
а почему Limit на Downloading ноль ?
(Rilian @ Nov 2 2007, 06:22 PM)
Хз. А зачем лимит ?
Я не могу понять как он вообще может быть ноль, если это % выделенный тобой на твой канал (там ж 10% мин)
у меня канал выставлен 512, 100%
nikelong
Nov 3 2007, 05:12
Отакої.
У меня, при количестве воркеров 80 штук картина ТАКАЯ-ЖЕ за исключением строки "тайм-аут". ТАм не 0.2% а обычно около 10%.
Но я как - то думал шо это нормально - по таймауту иметь 10% ошибок.
Поставил обратно 15 воркеров. Явно видно что проблемы с резолвом ДНС
Привет всем!
Большое кол-во ошибок DNS изза того что сейчас мы проверяем 70 млн доменов, те которые ведут к ошибкам будут отфильтрованы с базы, так что не надо пугаться пока - завтра таких ошибок будет меньше, а через несколько дней я надеюсь очистить базу от урлов с тех доменов, так что ошибок будет намного меньше
Алекс, а может быть такое что пров просто не дает столько резолвов ДНС одному клиенту в короткий промежуток времени?
Может, так как баррели все равно имеют очень короткий таймаут, сделать одну ноду на главном сервере, которая будет резолвить IP сайтов и сразу выдавать их в баррелях?
nikelong
Nov 7 2007, 19:28
Аааа, то-то я думаю шо у меня за траблы
Вчера и сегодня грузится только один букет, хотя можно 5.
Да и тот не работает, а скорее мертвый...
Даже переустановил клиента, думал может с моей стороны трабл...
Эти домены почти полностью сделаны, осталось только 13 млн из 69 млн, мы их по второму разу делаем так как есть всегда вероятность что проблема DNS не имеет к домену отношению.
Я думал сделать это на центральном сервере, но проблема это скорость - более 2 млн в день я не могу разрезолвить, таким образом дело бы заняло месяц как минимум
Осталось совсем не много до нормальных данных, все эти ошибки будут использованы с пользой - они будут учтены для урлов, так что я ожидаю что новые данные будут намного более чистые чем когда либо
Это гуд.
У меня один вопрос, почему из барреля не банится сразу вся пачка урлов от одного домена, если для данного домена было например несколько ДНС ерроров?
Судя по букет-вотчеру СЕЙЧАС разных доменов реально почти 99%, но вообще такое предусмотрено? мучает меня такой вопрос
Кстати, всем пока рекомендую увеличить кол-во воркеров до 20-30-40-50 или больше - ошибок резолва очень много, и он не отнимает траффик у остальных воркеров
nikelong
Nov 8 2007, 08:42
А у меня не грузится больше одного букета
Хотя в настройках выставлено 5 штук
Rilian: так оно и работает, если есть Х урлов от одного домена которые не может разрешится то через несколько ошибок начинается банится все урлы из этого бакета, но если у бакете много уникальных урлов (как было несколько дней назад), то это не поможет.
(nikelong @ Nov 8 2007, 08:42 AM)
А у меня не грузится больше одного букета
Хотя в настройках выставлено 5 штук
Возможно одного бакета достаточно? Остальные бакеты грузятся если количество воркеров превышает количество уникальных доменов (а точнее IP) в бакете, может мало воркеров?
Сейчас уникальные домены почти полностью завершены, и я пости подготовил списки доменов которые имею проблемы - я их отфильтрую, думаю завтра или в воскресенье более чистые урлы пойдут
nikelong
Nov 10 2007, 01:11
я их отфильтрую, думаю завтра или в воскресенье более чистые урлы пойдут
Пятница, вечер...уже нормальные идут!
(nikelong @ Nov 10 2007, 01:11 AM)
я их отфильтрую, думаю завтра или в воскресенье более чистые урлы пойдут
Пятница, вечер...уже нормальные идут!
Удут лучше (но старые), но пока не нормальные, завтра должны пойти лучше, а через 2 недели еще лучше - супер свежие
nikelong
Nov 20 2007, 21:37
Поставил таймаут не 10 а 60 секунд
Поставил 5 букетов
Поставил 5 воркеров...
...
Т.Е. сделал максимально тепличные условия для того чтобы уменьшить количество ошибок по таймауту...
Процент всё-равно составляет 8% (!!)
При 100 Воркерах доходит до 15%...
nikelong
Dec 3 2008, 18:52
Выяснил почему сегодня накравлил аномальное количество УРЛов.
Глючили букеты из зоны .nu .kz .by
Кто-нибудь сталкивался с такой проблемой: Маджестик не может заархивировать данные, при архивации очень медленно доходит до 30%, потом долго стоит на этой отметке. После этого показатель сбрасывается на 0, время архивации продолжает считаться, а через некоторое время все начинается сначала, и так по кругу. Пробовал подключить внешний архиватор RAR, все становится еще медленнее, но тоже по кругу. Перезагрузка Маджестика и машины ничего не дают.
Что посоветуете?
у меня с архивацией всё нормально, не скажу...
настроено всё по дефолту?
у меня кравлятся 10 доменов из 50000 ((
остальные в таймауте.
что делать?
Death
А какого типа ошибки? DNS или таймауты или что-то другое?
у меня кравлятся 10 доменов из 50000 ((
остальные в таймауте.
Хез... че-то у меня тоже таймауты поперли. Может задания такие...
ReMMeR
Jan 24 2009, 22:51
При архивации были проблемы с внешним архиватором. выставил внутренний - все ущло.
При конкретных нерешаемых проблемах помогло все удалить и установить заново ( как правило версия новее уже есть) - такое было 1 раз.
попался букет аэро забитый тупо спамом.
connect-one.aero
connect-privet.aero
connect-blablabla.aero
и тд. сцуко весь день тупо висел, одни таймауты.
а второй не лоадится параллельно (((
пришлось убить нах всю базу. не знаю как один букет можно абортнуть.
зато щас попёрла Украина. 2мегабита жгут на 100% ))
75 воркеров.
MJ12node : v1.6.8
Platform : Win32 specific running on Microsoft Windows NT 5.1.2600.0
Total URLs : 7 237 (100,0%)
Successes : 6 062 (83,8%)
Not found : 169 (2,3%)
Timed out : 30 (0,4%)
Disallowed : 0 (0.0%)
Banned : 0 (0.0%)
DNS errors : 657 (9,1%)
Conn errors : 319 (4,4%)
Forbidden (403): 0 (0.0%)
Other : 0 (0.0%)
Retries : 0 (0,0%)
Uptime : 14 mins 22 secs
Memory usage : 54 MB
GZIP requests : 2 204 (30,4% of successes)
GZIP saved data: 78 MB (35,8% of total)
nikelong
Mar 5 2009, 00:08
Короче ОГО оказалось полным УГ по части ошибок.
Я сегодня на другом прове попробовал - глазам не поверил - 98.2% УДАЧНЫХ кравлеров. Я на ого и 80% то ниразу невидел....
ЗЫ: настройки ессесно одинаковые для одной и той же ширини канала ...
ОГО падает на стадии резолва ДНС, или на стадии докачки страницы?
ого задолбало сцуко падением днс в 8 вечера
MJ12node : v1.6.8
Platform : Win32 specific running on Microsoft Windows NT 5.1.2600.0
Total URLs : 15 386 (100,0%)
Successes : 14 568 (94,7%)
Not found : 261 (1,7%)
Timed out : 224 (1,5%)
Disallowed : 179 (1,2%)
Banned : 0 (0.0%)
DNS errors : 13 (0,1%)
Conn errors : 139 (0,9%)
Forbidden (403): 0 (0.0%)
Other : 2 (0,0%)
Retries : 0 (0,0%)
Uptime : 46 mins 8 secs
Memory usage : 49 MB
GZIP requests : 5 475 (35,6% of successes)
GZIP saved data: 185 MB (32,5% of total)
Найк, если кликнуть по этой табличке - в клиенте - там есть скопировать в клипбоард. Кинь сюда )) и логи тоже...
У меня, когда идет Украина, удачных - 93-95%.
Когда зарубежка - 80-90% (если меньше, то рестартую клиент.).
nikelong
Mar 21 2009, 23:49
Карочи, Чудновсикй проапгрейдил стат, теперь видно у кого сколько ошибок на каждой ноде.
у заодно видно кто читерсцуко!
ЗЫ: нормальным считается <15% ошибок. Все шо бОльше - подсвечивается красным (!)
мне вот такое на мыло пришло.
читайте топик по ссылке.
Hi!
First of all thanks for supporting Majestic-12 project!
The reason I email you is because one (or more) of your nodes generates higher than average number of network related errors
(DNS+Connections+Timeouts) - that's over 10% compared with 5% average (some of the nodes generate over 15% of errors - in those cases I had to instruct server not to issue new buckets to those nodes only - if you have mulptiple nodes that only those nodes that generated too many errors today would be affected)
In order to fix this problem please refer to this thread on our forum:
http://www.majestic12.co.uk/forum/viewtopic.php?t=3259 - please reply to this email or post in forum if you are in doubt what to do (generally speaking reducing number of workers should help or changing to OpenDNS).
Please check your userinfo page on our site to see which of the nodes generates more errors than others (this is in case you have more than one node!)
Thank you again for your support and please have a look at your node config to reduce number of errors, this would help project in a big way!
Regards,
Alex
nikelong
Mar 23 2009, 22:58
Мне такое тоже пришло.
было 14/88 - сделал 7/40 ))))
скорость скачивания не упала, а ошибок днс стало реально меньше.
посмотрим на дневные результаты...
кстати, кто не пользовался веб-интерфесом для управления клиентом - попробуйте. реальни удобная штука.
опции - миск - єнейбл веб-сервер.
Roamer
Mar 28 2009, 15:09
Парни, подскажите шо енто за хрень :
MJ12node : v1.6.8 (.NET 2.0)
Platform : Win32 specific running on Microsoft Windows NT 5.1.2600 Service Pack 2
Total URLs : 3 722 (100,0%)
Successes : 47 (1,3%)
Not found : 0 (0.0%)
Timed out : 0 (0.0%)
Disallowed : 0 (0.0%)
Banned : 3 675 (98,7%)
DNS errors : 0 (0.0%)
Conn errors : 0 (0.0%)
Forbidden (403): 0 (0.0%)
Other : 0 (0.0%)
Retries : 0 (0,0%)
Uptime : 3 mins 54 secs
Memory usage : 58 MB
GZIP requests : 25 (0,6% of successes)
GZIP saved data: 2 MB (57,5% of total)
Не пойму кто меня рубит - мой провайдер или попались такие "замечательные" bucket-ы (расширение .cc)?
З.Ы. Одновременно с админами FreeHal-а придумал правила подкючения к Inet-у и мой провайдер. Раньше таких злых пунктов у него не было. РВ можно присобачить к некоторым из них и отключить меня нах. Правда, пообещали канал с 1-го апреля увеличить до
10 Mbit за относительно небольшую доплату. Уже 3 дня не могу нормально запускать клиент Маджа - удачных ссылок максимум 24-65%. Вот и думаю, может подождать до 1 апреля, а пока отключить Мадж нафиг, шоб не дразнить админов из Англии ?
Rilian
Mar 28 2009, 15:16
Не переживай, "неудачные" ссылки выдадутся комуто повторно. Если выбирать между 40% удачных либо ничего, я бы выбрал первое
Roamer
Mar 28 2009, 15:21
Пока писал предыдущий пост клиент забанил ~32 тыс. урлов, удачных
0.4 % . Никаких других ошибок нет! Вообще никаких!
Так шо я пока рублю клиент !
Rilian
Mar 28 2009, 15:42
Помню раньше были времена когда было много забаненых и ошибочных. И ничего, прошли. Подключи другие типы доменов
Roamer
Mar 29 2009, 01:42
Посмотрел статистику друга (считает на мой ник; настраивал ему клиент сам; тот же провайдер) - удачных ~ 89 % ссылок. Так что мои проблемы - это скорее хреновые bucket-ы. Опять включил клиент на полную катушку!
Rilian
Mar 29 2009, 01:46
кстати домены
.cc довольно дешевые и поэтому их покупают те, у кого нет денег на хороший хостинг. Ну и как следствие, к ним трудно достучаться без ошибок
Alexis Kravtchenko
Apr 15 2009, 12:28
Привет!
Использую ОГО(1М/512к), но по статистике, вижу низкий уровень количества отосланных Мб...
29 shark 1,614,499 40,077
30 Spetznaz 1,455,753 35,210
31 Alexis Kravtchenko 1,257,910 4,673
32 Bakteriolog 1,216,906 35,956
33 wanderer_kh 1,050,782 26,318
Вот сейчас:
Current run successes 8.3% (DNS: 91.7%, Conn: 0.0%
T-out: 0.0%, 404s: 0.0%
Robots: 0.0%, Other: 0.0%)
Конечно, у Укртелекома бывают периоды, когда при заходе на любимые сайты(а круг их весьма ограничен) частенько выпадает "Страница не может быть отображена", F5 помагает... Но сейчас вроде их DNS нормально работает...
Network communications timeout: 10
Maximum numbers of async workers* 15
есть опенднс
и есть 4.2.2.2 4.2.2.3
добавь их в настройках сетевого соединения дополнительно к укртелу.
шото мне торренты начали сифачить мадж (((((
кто-то сталкивался? правда сам сайт маджа тупит последние несколько дней....
на кого гнать?
(_KoDAk_)
May 20 2009, 23:14
20.05.2009 20:15:09] library routine called out of sequence Exception! We are going to reconnect to database
[20.05.2009 20:15:09] Failed to get param CurrUploadBucket due to System.Exception: System.Exception: Can't execute query 'pn_select_param': Attempted to read or write protected memory. This is often an indication that other memory is corrupt. - - SQL:
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName, Object[] asParams)
at Majestic12.p_SQL.GetParam(EasyDB oEasyDB, String sParam)
[20.05.2009 20:15:09] Failed to get param DownTrafficCountDay2009-05-20 due to System.Exception: System.Exception: Can't execute query 'pn_select_param': library routine called out of sequence - - SQL:
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName, Object[] asParams)
at Majestic12.p_SQL.GetParam(EasyDB oEasyDB, String sParam)
[20.05.2009 20:15:09] System.Exception: System.Exception: Can't execute query 'pn_select_uploads': The connection must be open to call ExecuteReader - - SQL:
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName)
at Majestic12.UploadManager.GetBucketsReadyForUpload(Int32& p_iDataBarrelsPendingUpload)
at Majestic12.UploadManager.UploadBarrels(Boolean& bServerDown)
что это такое в логе?
это у него шото с базой.
сделай cleanup. оно то бывает то пропадает.
правда один раз пришлось всю базу грохнуть.
(_KoDAk_)
May 21 2009, 09:55
а оно ж и текущие убьет пакеты ?
т.е. это внутрення ощибка клиента?
Roamer
Jun 14 2009, 07:27
Не мог понять, почему одна нода перестала нормально работать, пока не посмотрел на адреса в bucket-е :
Это скоко мну за энто впаяют ?! (В свете последних занонопроектов Рады). Поди потом докажи, что не распространяешь !
(_KoDAk_)
Aug 27 2009, 19:12
Starvation of workers detected: you need to increase Max Open Buckets value in Options->Crawler OR reduce number of workers! Current flags: bForbidRaisingStarvation=False, IsMaxOpenBuckets()=True iSparseDomainRatioBuckets=4, MAX_LOW_UNIQUE_DOMAINS_BUCKETS=3, GetMaxWorkers()=40 GetMaxBuckets()=1 -*-
это че за шняга
Rilian
Aug 27 2009, 20:19
у тебя много качающих потоков, и мало открытых "букетов" (наборы ссылок). увеличь кол-во открытых букетов. Но учти что будет больше хавать диска
(_KoDAk_)
Aug 31 2009, 19:43
[31.08.2009 20:40:39] Could not remove upload bucket savepoint: System.Exception: Database is still locked! Could not run query: pn_remove_param Queue size: System.Collections.ArrayList
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName, Object[] asParams)
at Majestic12.UploadManager.UploadBarrel(QueryResult oWorkUnit, Boolean bNewBarrel, Boolean& bServerDown)