Допомога - Пошук - Користувачі - Календар
Количество ошибок
Розподілені обчислення в Україні > Активні проекти розподілених обчислень > Інтернет > Majestic12
1, 2
Rilian
Сегодня для эксперимента решил полдня погонять ноду с 5 рабочими потоками, при обычных 15

В результате получил следующее:

* Скачано примерно на 40000 УРЛов меньше (при 15 рабочих обычно идет 230000 в день)
* Процент ошибок больше средних на 10% (при 15 потоках в среднем 60-70% в статусе ОК)

Следовательно количество рабочих потоков НЕ влияет на количество ошибок закачки



пс: возможно так много ошибок из-за того что у меня предпочитаются все домены кроме ком, орг и нет, и некоторые "экзотические" не резолвятся вовремя
Oleg82
а почему Limit на Downloading ноль ?
Rilian
Хз. А зачем лимит ?
Oleg82
(Rilian @ Nov 2 2007, 06:22 PM) *

Хз. А зачем лимит ?


Я не могу понять как он вообще может быть ноль, если это % выделенный тобой на твой канал (там ж 10% мин)
Rilian
у меня канал выставлен 512, 100%
nikelong
Отакої.
У меня, при количестве воркеров 80 штук картина ТАКАЯ-ЖЕ за исключением строки "тайм-аут". ТАм не 0.2% а обычно около 10%.
Но я как - то думал шо это нормально - по таймауту иметь 10% ошибок.
Rilian
Поставил обратно 15 воркеров. Явно видно что проблемы с резолвом ДНС

alexc
Привет всем!

Большое кол-во ошибок DNS изза того что сейчас мы проверяем 70 млн доменов, те которые ведут к ошибкам будут отфильтрованы с базы, так что не надо пугаться пока - завтра таких ошибок будет меньше, а через несколько дней я надеюсь очистить базу от урлов с тех доменов, так что ошибок будет намного меньше smile.gif
Rilian
Алекс, а может быть такое что пров просто не дает столько резолвов ДНС одному клиенту в короткий промежуток времени?

Может, так как баррели все равно имеют очень короткий таймаут, сделать одну ноду на главном сервере, которая будет резолвить IP сайтов и сразу выдавать их в баррелях?
nikelong
Аааа, то-то я думаю шо у меня за траблы sad.gif
Вчера и сегодня грузится только один букет, хотя можно 5.
Да и тот не работает, а скорее мертвый...
Даже переустановил клиента, думал может с моей стороны трабл...
alexc
Эти домены почти полностью сделаны, осталось только 13 млн из 69 млн, мы их по второму разу делаем так как есть всегда вероятность что проблема DNS не имеет к домену отношению.

Я думал сделать это на центральном сервере, но проблема это скорость - более 2 млн в день я не могу разрезолвить, таким образом дело бы заняло месяц как минимум sad.gif

Осталось совсем не много до нормальных данных, все эти ошибки будут использованы с пользой - они будут учтены для урлов, так что я ожидаю что новые данные будут намного более чистые чем когда либо smile.gif
Rilian
Это гуд.

У меня один вопрос, почему из барреля не банится сразу вся пачка урлов от одного домена, если для данного домена было например несколько ДНС ерроров?

Судя по букет-вотчеру СЕЙЧАС разных доменов реально почти 99%, но вообще такое предусмотрено? мучает меня такой вопрос smile.gif

Кстати, всем пока рекомендую увеличить кол-во воркеров до 20-30-40-50 или больше - ошибок резолва очень много, и он не отнимает траффик у остальных воркеров
nikelong
А у меня не грузится больше одного букета sad.gif
Хотя в настройках выставлено 5 штук sad.gif
alexc
Rilian: так оно и работает, если есть Х урлов от одного домена которые не может разрешится то через несколько ошибок начинается банится все урлы из этого бакета, но если у бакете много уникальных урлов (как было несколько дней назад), то это не поможет.

(nikelong @ Nov 8 2007, 08:42 AM) *

А у меня не грузится больше одного букета sad.gif
Хотя в настройках выставлено 5 штук sad.gif


Возможно одного бакета достаточно? Остальные бакеты грузятся если количество воркеров превышает количество уникальных доменов (а точнее IP) в бакете, может мало воркеров?

Сейчас уникальные домены почти полностью завершены, и я пости подготовил списки доменов которые имею проблемы - я их отфильтрую, думаю завтра или в воскресенье более чистые урлы пойдут smile.gif
nikelong
я их отфильтрую, думаю завтра или в воскресенье более чистые урлы пойдут

Пятница, вечер...уже нормальные идут! dk.gif
alexc
(nikelong @ Nov 10 2007, 01:11 AM) *

я их отфильтрую, думаю завтра или в воскресенье более чистые урлы пойдут

Пятница, вечер...уже нормальные идут! dk.gif


Удут лучше (но старые), но пока не нормальные, завтра должны пойти лучше, а через 2 недели еще лучше - супер свежие smile.gif
nikelong
Поставил таймаут не 10 а 60 секунд
Поставил 5 букетов
Поставил 5 воркеров...
...
Т.Е. сделал максимально тепличные условия для того чтобы уменьшить количество ошибок по таймауту...
Процент всё-равно составляет 8% (!!)
При 100 Воркерах доходит до 15%...
nikelong
Выяснил почему сегодня накравлил аномальное количество УРЛов.

Глючили букеты из зоны .nu .kz .by nike.gif
Algon
Кто-нибудь сталкивался с такой проблемой: Маджестик не может заархивировать данные, при архивации очень медленно доходит до 30%, потом долго стоит на этой отметке. После этого показатель сбрасывается на 0, время архивации продолжает считаться, а через некоторое время все начинается сначала, и так по кругу. Пробовал подключить внешний архиватор RAR, все становится еще медленнее, но тоже по кругу. Перезагрузка Маджестика и машины ничего не дают.
Что посоветуете?
Death
у меня с архивацией всё нормально, не скажу...
настроено всё по дефолту?

у меня кравлятся 10 доменов из 50000 ((
остальные в таймауте.

что делать?
Algon
Death
А какого типа ошибки? DNS или таймауты или что-то другое?
Death
у меня кравлятся 10 доменов из 50000 ((
остальные в таймауте.

Algon
Хез... че-то у меня тоже таймауты поперли. Может задания такие...
ReMMeR
При архивации были проблемы с внешним архиватором. выставил внутренний - все ущло.

При конкретных нерешаемых проблемах помогло все удалить и установить заново ( как правило версия новее уже есть) - такое было 1 раз.
Death
попался букет аэро забитый тупо спамом.

connect-one.aero
connect-privet.aero
connect-blablabla.aero

и тд. сцуко весь день тупо висел, одни таймауты.
а второй не лоадится параллельно (((

пришлось убить нах всю базу. не знаю как один букет можно абортнуть.

зато щас попёрла Украина. 2мегабита жгут на 100% ))

75 воркеров.

MJ12node : v1.6.8
Platform : Win32 specific running on Microsoft Windows NT 5.1.2600.0
Total URLs : 7 237 (100,0%)
Successes : 6 062 (83,8%)
Not found : 169 (2,3%)
Timed out : 30 (0,4%)
Disallowed : 0 (0.0%)
Banned : 0 (0.0%)
DNS errors : 657 (9,1%)
Conn errors : 319 (4,4%)
Forbidden (403): 0 (0.0%)
Other : 0 (0.0%)
Retries : 0 (0,0%)
Uptime : 14 mins 22 secs
Memory usage : 54 MB
GZIP requests : 2 204 (30,4% of successes)
GZIP saved data: 78 MB (35,8% of total)
nikelong
Короче ОГО оказалось полным УГ по части ошибок.
Я сегодня на другом прове попробовал - глазам не поверил - 98.2% УДАЧНЫХ кравлеров. Я на ого и 80% то ниразу невидел.... sad.gif
ЗЫ: настройки ессесно одинаковые для одной и той же ширини канала ...
Rilian
ОГО падает на стадии резолва ДНС, или на стадии докачки страницы?
Death
ого задолбало сцуко падением днс в 8 вечера

MJ12node : v1.6.8
Platform : Win32 specific running on Microsoft Windows NT 5.1.2600.0
Total URLs : 15 386 (100,0%)
Successes : 14 568 (94,7%)
Not found : 261 (1,7%)
Timed out : 224 (1,5%)
Disallowed : 179 (1,2%)
Banned : 0 (0.0%)
DNS errors : 13 (0,1%)
Conn errors : 139 (0,9%)
Forbidden (403): 0 (0.0%)
Other : 2 (0,0%)
Retries : 0 (0,0%)
Uptime : 46 mins 8 secs
Memory usage : 49 MB
GZIP requests : 5 475 (35,6% of successes)
GZIP saved data: 185 MB (32,5% of total)

Найк, если кликнуть по этой табличке - в клиенте - там есть скопировать в клипбоард. Кинь сюда )) и логи тоже...
Roamer
У меня, когда идет Украина, удачных - 93-95%.
Когда зарубежка - 80-90% (если меньше, то рестартую клиент.).
nikelong
Карочи, Чудновсикй проапгрейдил стат, теперь видно у кого сколько ошибок на каждой ноде.
у заодно видно кто читерсцуко!

ЗЫ: нормальным считается <15% ошибок. Все шо бОльше - подсвечивается красным (!)

rtfm.gif
Death
мне вот такое на мыло пришло.
читайте топик по ссылке.

Hi!

First of all thanks for supporting Majestic-12 project!

The reason I email you is because one (or more) of your nodes generates higher than average number of network related errors
(DNS+Connections+Timeouts) - that's over 10% compared with 5% average (some of the nodes generate over 15% of errors - in those cases I had to instruct server not to issue new buckets to those nodes only - if you have mulptiple nodes that only those nodes that generated too many errors today would be affected)

In order to fix this problem please refer to this thread on our forum:
http://www.majestic12.co.uk/forum/viewtopic.php?t=3259 - please reply to this email or post in forum if you are in doubt what to do (generally speaking reducing number of workers should help or changing to OpenDNS).

Please check your userinfo page on our site to see which of the nodes generates more errors than others (this is in case you have more than one node!)

Thank you again for your support and please have a look at your node config to reduce number of errors, this would help project in a big way!

Regards,
Alex
nikelong
Мне такое тоже пришло.
Death
было 14/88 - сделал 7/40 ))))

скорость скачивания не упала, а ошибок днс стало реально меньше.
посмотрим на дневные результаты...
Death
кстати, кто не пользовался веб-интерфесом для управления клиентом - попробуйте. реальни удобная штука.
опции - миск - єнейбл веб-сервер.
Roamer
Парни, подскажите шо енто за хрень :
MJ12node : v1.6.8 (.NET 2.0)
Platform : Win32 specific running on Microsoft Windows NT 5.1.2600 Service Pack 2
Total URLs : 3 722 (100,0%)
Successes : 47 (1,3%)
Not found : 0 (0.0%)
Timed out : 0 (0.0%)
Disallowed : 0 (0.0%)
Banned : 3 675 (98,7%)
DNS errors : 0 (0.0%)
Conn errors : 0 (0.0%)
Forbidden (403): 0 (0.0%)
Other : 0 (0.0%)
Retries : 0 (0,0%)
Uptime : 3 mins 54 secs
Memory usage : 58 MB
GZIP requests : 25 (0,6% of successes)
GZIP saved data: 2 MB (57,5% of total)


Не пойму кто меня рубит - мой провайдер или попались такие "замечательные" bucket-ы (расширение .cc)? helpsmilie.gif

З.Ы. Одновременно с админами FreeHal-а придумал правила подкючения к Inet-у и мой провайдер. Раньше таких злых пунктов у него не было. РВ можно присобачить к некоторым из них и отключить меня нах. Правда, пообещали канал с 1-го апреля увеличить до 10 Mbit за относительно небольшую доплату. Уже 3 дня не могу нормально запускать клиент Маджа - удачных ссылок максимум 24-65%. Вот и думаю, может подождать до 1 апреля, а пока отключить Мадж нафиг, шоб не дразнить админов из Англии ? idontno.gif
Rilian
Не переживай, "неудачные" ссылки выдадутся комуто повторно. Если выбирать между 40% удачных либо ничего, я бы выбрал первое smile.gif
Roamer
Пока писал предыдущий пост клиент забанил ~32 тыс. урлов, удачных 0.4 % . Никаких других ошибок нет! Вообще никаких!
Так шо я пока рублю клиент ! sad.gif
Rilian
Помню раньше были времена когда было много забаненых и ошибочных. И ничего, прошли. Подключи другие типы доменов
Roamer
Посмотрел статистику друга (считает на мой ник; настраивал ему клиент сам; тот же провайдер) - удачных ~ 89 % ссылок. Так что мои проблемы - это скорее хреновые bucket-ы. Опять включил клиент на полную катушку! smile.gif
Rilian
кстати домены .cc довольно дешевые и поэтому их покупают те, у кого нет денег на хороший хостинг. Ну и как следствие, к ним трудно достучаться без ошибок smile.gif
Alexis Kravtchenko
Привет!
Использую ОГО(1М/512к), но по статистике, вижу низкий уровень количества отосланных Мб...
29 shark 1,614,499 40,077
30 Spetznaz 1,455,753 35,210
31 Alexis Kravtchenko 1,257,910 4,673
32 Bakteriolog 1,216,906 35,956
33 wanderer_kh 1,050,782 26,318
Вот сейчас:
Current run successes 8.3% (DNS: 91.7%, Conn: 0.0%
T-out: 0.0%, 404s: 0.0%
Robots: 0.0%, Other: 0.0%)
Конечно, у Укртелекома бывают периоды, когда при заходе на любимые сайты(а круг их весьма ограничен) частенько выпадает "Страница не может быть отображена", F5 помагает... Но сейчас вроде их DNS нормально работает...

Network communications timeout: 10
Maximum numbers of async workers* 15
idontno.gif


Death
есть опенднс
и есть 4.2.2.2 4.2.2.3

добавь их в настройках сетевого соединения дополнительно к укртелу.
Death
шото мне торренты начали сифачить мадж (((((

кто-то сталкивался? правда сам сайт маджа тупит последние несколько дней....
на кого гнать?
(_KoDAk_)
20.05.2009 20:15:09] library routine called out of sequence Exception! We are going to reconnect to database
[20.05.2009 20:15:09] Failed to get param CurrUploadBucket due to System.Exception: System.Exception: Can't execute query 'pn_select_param': Attempted to read or write protected memory. This is often an indication that other memory is corrupt. - - SQL:
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName, Object[] asParams)
at Majestic12.p_SQL.GetParam(EasyDB oEasyDB, String sParam)
[20.05.2009 20:15:09] Failed to get param DownTrafficCountDay2009-05-20 due to System.Exception: System.Exception: Can't execute query 'pn_select_param': library routine called out of sequence - - SQL:
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName, Object[] asParams)
at Majestic12.p_SQL.GetParam(EasyDB oEasyDB, String sParam)
[20.05.2009 20:15:09] System.Exception: System.Exception: Can't execute query 'pn_select_uploads': The connection must be open to call ExecuteReader - - SQL:
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName)
at Majestic12.UploadManager.GetBucketsReadyForUpload(Int32& p_iDataBarrelsPendingUpload)
at Majestic12.UploadManager.UploadBarrels(Boolean& bServerDown)

что это такое в логе?
Death
это у него шото с базой.

сделай cleanup. оно то бывает то пропадает.

правда один раз пришлось всю базу грохнуть.
(_KoDAk_)
а оно ж и текущие убьет пакеты ?

т.е. это внутрення ощибка клиента?
Roamer
Не мог понять, почему одна нода перестала нормально работать, пока не посмотрел на адреса в bucket-е :


Это скоко мну за энто впаяют ?! (В свете последних занонопроектов Рады). Поди потом докажи, что не распространяешь ! nike.gif
(_KoDAk_)
Starvation of workers detected: you need to increase Max Open Buckets value in Options->Crawler OR reduce number of workers! Current flags: bForbidRaisingStarvation=False, IsMaxOpenBuckets()=True iSparseDomainRatioBuckets=4, MAX_LOW_UNIQUE_DOMAINS_BUCKETS=3, GetMaxWorkers()=40 GetMaxBuckets()=1 -*-
это че за шняга
Rilian
у тебя много качающих потоков, и мало открытых "букетов" (наборы ссылок). увеличь кол-во открытых букетов. Но учти что будет больше хавать диска
(_KoDAk_)
[31.08.2009 20:40:39] Could not remove upload bucket savepoint: System.Exception: Database is still locked! Could not run query: pn_remove_param Queue size: System.Collections.ArrayList
at Majestic12.EasyDB.intExecQuery(String sQueryName, ArrayList oQueries, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByNameAndTran(String sQueryName, String sTranID, Object[] asParams)
at Majestic12.EasyDB.ExecQueryByName(String sQueryName, Object[] asParams)
at Majestic12.UploadManager.UploadBarrel(QueryResult oWorkUnit, Boolean bNewBarrel, Boolean& bServerDown)
.
Invision Power Board © 2001-2024 Invision Power Services, Inc.