Допомога - Пошук - Користувачі - Календар
Сервер статистики лежить?
Розподілені обчислення в Україні > Завершені проекти > Математика (завершені проекти) > OGR
1, 2
Paul B.Atton
Сервер статистики лежить? Чи це тільки мені таке щастя, що не маю інформації про злиті і зараховані блоки?
На серваку статистики дав дуба RAID, при чому rebuild не пройшов. Окрім того, кілька non-critical таблиць теж накрилися.
Незабаром обіцяють вмикнути стат, але без можливості апдейту (зміни команди, країни, особистих даних).
Найближчим часом Децибел обіцяє апргрейд на " dual Opteron machine with RAID10 for the database and RAID1 for the database logs".
Я думаю, що це справа кількох тижнів.
Paul B.Atton
Цікаво, яке ж там "залізяччя" використовується? Напевно, все "іржаве"... wink.gif
Взагалі вони 2 роки тому апгрейділися.
Paul B.Atton
Жах! Вже два роки пройшло...
nugget's comment:

Since the delivery timeline on the Dual Opteron box we ordered keeps
slipping and we realize that it's crucially important that we gets stats
back up and running in a reasonable timeframe, I've just cancelled the
order on the Opteron box. We all decided it would make more sense to buy a
machine locally so we wouldn't have to wait for shipping delays.

This morning I headed over to CompUSA and picked up a nice eMachines
Minitower. Since we'd lose the 90 days of telephone support if we
installed FreeBSD on the box, we're just going to stick with Windows ME
which was preinstalled on the machine.

As soon as I've had a chance to get Access installed we should be ready to
start serving up stats again. Thanks again, everyone, for your patience
through this unexpected downtime. I'm excited about getting something up
and running now instead of just waiting for that other box!

(By the way, does anyone know the proper modem initialization string for
the eMachines winmodem? I need to get the box online asap)
Paul B.Atton
(bihor @ Apr 1 2004, 06:42 PM)
nugget's comment:
(By the way, does anyone know the proper modem initialization string for
the eMachines winmodem? I need to get the box online asap)

Шо за геМашину вони купили?!
Фото трупика... wink.gif
Paul B.Atton
Поліз оце шукати тему до нинішноього стану статистики. І надибав ось цю. Якраз те що потрібно.
Отже, продовження старої теми...

:: 17-Nov-2005 09:17 CST (Thursday) ::

Here's the situation so far with stats:

Thanks to poor driver support, we had been running for who knows how long with
3 failing drives in the raid10 array that housed the database. But that wasn't
actually what caused the outage... if a machine with an 8500 in it goes down
unexpectedly (think power failure), the controller can't trust the data on the
drives to be in-sync, so it needs to rebuild the array. Unfortunately, one
of the drives it picked to be authoritative was failing, and decided that it
wasn't going to give up it's data.

Unfortunately we've been unable to recover the array. We tried using spinrite
as a last resort, but at the rate it was going it would have taken something
like a week to recover the drive. This means that when we get back online,
we'll be running from a stats backup taken Nov. 6, about 4 days before the
failure. Any changes made to participant accounts or teams in the meantime will
have been lost.

In an ironic twist of fate, we've been working on getting a new machine in
production that would have allowed replicating user-modifiable tables (ie:
participant accounts and teams) to another machine. Had that been in place we
would have lost very little, if any, of this data.

The current situation is that we've bought 3 new drives and used them to
rebuild the array. We've also taken this opportunity to upgrade to FreeBSD 6.0.
But now any time we try to access the array, the machine reboots.

Once someone is on-site to investigate we'll hopefully know more.

Наскільки я зрозумів, новий сервер статистики протримався трохи більше як півтора роки. Здохли три диски в RAID-10 і потвори змушені були витягати архів від 6 листопада. Отже, всі зміни у даних учасників чи у складі команд, зроблені після шостого листопада будуть втрачені. А нам доведеться мовчки чекати відновлення роботи статистики.
Paul B.Atton
Наскільки мені дозволяє моє знання "англіцької", потвори таки зробили собі новий рейд-10 з 300-гігових дисків, переповзли на FreeBSD 6.0 і зараз піднімають статистику.
:: 23-Nov-2005 23:05 CST (Wednesday) ::

23:02 <+dctievent> (statsbox-iv/r72) Daily processing for 20051106 has

As soon as fritz is moved back into a datacenter we should be all set. In the
meantime, it's playing catchup.

На даний момент готова статистика за 23 листопада 2005 року.
Здається стат запрацював в повну силу. smile.gif. Приємно бачити що, команда не скидає обертів.
Paul B.Atton
Нібито запрацював, але не надовго: зараз знову недоступний. Добре, хоч командний стат надолужив пропущене і я зміг подивитися на свої успіхи. smile.gif
Paul B.Atton
В сервері статистики вийшов з ладу ще один диск.
another drive has failed. I've heard it's common for drives from the same manufacturing run to all fail at the same time; I guess this is proof.

Але наразі це не зайняло багато часу і ми знову маємо статистику. І маленький сюрприз... smile.gif
Paul B.Atton
Прямо якесь кіно з цією статистикою!
Перебуваючи в Бельгії, на відстані восьми годинних поясів від сервера статистики, 24 березня decibel проводив апгрейд PostgreSQL на сервері статистики fritz. І сервер відключився. Як виявилося, знову здох один з дисків ("Another of the original drives"). Дані нібито не постраждали, але вирішено не чіпати стат до заміни диску та приїзду decibel. Можливо вже цього тижня. Будемо чекати...
дивлюся на початок теми - у них мабуть щоберезня диски летять...
хоча, насправді, злетіли вентилятори, що диски ті охолоджували

невже в тій Гамериці нормального колокейшену немає?
Paul B.Atton
щоберезня диски летять

Весняний авітаміноз. wink.gif

Ги, nugget'ові плани я не читав. smile.gif
А за колокейшен треба, певно, гроші платити.
(Paul B.Atton @ Mar 30 2006, 03:09 PM) *
А за колокейшен треба, певно, гроші платити.

та які там гроші... у нас за 2U-север 50 баксів щомісяця, а в них хіба дорожче?
якщо вони свій стат-сервер транспортують у багажнику Honda NSX, то гроші, мабуть є rolleyes.gif
Paul B.Atton
Вчора статистика запрацювала. Але пояснень ніде не видно.
Paul B.Atton
Потворам нарешті вдалося знайти причину виходу з ладу сервера: пошкоджений роз'єм SATA. Подробиці описані тут, навіть є фото.
Paul B.Atton
Щось нема щастя у ДНетівських потвор із "новим" сервером статистики fritz. Шостого вересня провели якісь сервісні процедури...
:: 06-Sep-2006 12:39 CDT (Wednesday) ::

We'll be doing some maintenance on fritz this afternoon, so stats will be
offline for a few hours. Sorry for any inconvenience.

Але, здається, не дуже вдало - довелося замінювати диски...
:: 06-Sep-2006 15:52 CDT (Wednesday) ::

Statsbox recovery is proceeding as expected. We've got the hardware all sorted
out and now we're just doing one last quick backup of the postgresql database
prior to starting the raid10 rebuild (currently degraded).

Thanks again for your patience while we replace yet another of these old SATA

А зараз наразі маємо повну зупинку статистики ще вчора, хоча дехто помітив це лише сьогодні...
:: 25-Sep-2006 11:52 CST (Monday) ::

Statsbox appears to be down again. More information when we know more.

Чи то через різницю в часових поясах. wink.gif
Одним словом, чекаємо... :glare:
Paul B.Atton
Статистика знову зупинилася. Причина достеменно наразі невідома.
:: 30-Oct-2006 16:08 CST (Monday) ::

At the risk of sounding like a broken record, stats are down again. More
information when we know more.
Paul B.Atton
Статистика вже працює. Але ніяких пояснень поки що не видно.
(Paul B.Atton @ Nov 3 2006, 07:18 PM) *

Статистика вже працює.

Здається все-таки не працює. sad.gif.
Paul B.Atton
Так, вже не працює. sad.gif Знову проблеми з дисками. angry2.gif
Але потвори працюють і роблять все можливе для скорішого відновлення роботи статистики.
:: 05-Nov-2006 17:07 CST (Sunday) ::

As you've no doubt all noticed, stats has gone down. Again.

It's looking like fritz is having some more drive troubles. We're working as
fast as we can to get the box back online and stable again.

As usual, all work is being logged, and will be credited when the site is back
online again.

Apologies for the extended down-time.
(Paul B.Atton @ Nov 6 2006, 11:24 AM) *
Так, вже не працює. sad.gif Знову проблеми з дисками. angry2.gif

як тільки я підключаю нових корів, чи зливаю старі блоки, в них валиться стат... жах якийсь smile.gif
Paul B.Atton
Пункт 35. Заборонити Tamagoch підключати нових корів чи зливати старі блоки.

(Tamagoch @ Nov 6 2006, 02:39 PM) *

(Paul B.Atton @ Nov 6 2006, 11:24 AM) *
Так, вже не працює. sad.gif Знову проблеми з дисками. angry2.gif

як тільки я підключаю нових корів, чи зливаю старі блоки, в них валиться стат... жах якийсь smile.gif

так. Я також підключив до обчислень одну машинку на FreeBSD і вже спостерігав як я піднімусь ще на одну сходинку вверх у командному рейтингу і тут... треба було такому статися, що Tamagoch почав підключати новіх корів. lol.gif
А він все лежить та й лежить. sad.gif
Paul B.Atton
Сказав би "круто лежить" - досі не полагодили.
Paul B.Atton
Стат знову запрацював! smile.gif
Чи надовго?... rolleyes.gif
Будемо сподіватися що надовго. Або доти поки дехто не почне підключати новіх корів. wink.gif
Здається ми знову залишились без стату.
Paul B.Atton
ДНетівці мають купу проблем із залізом
:: 04-Dec-2006 23:49 GMT (Monday) ::

Our stats server, Fritz, is currently offline due to its ongoing RAID
issues. Although the machine is actually back online right now, we
have the webpages turned off until we finish making some more tweaks.

For the technically interested, the problem appears to one of the
following problems:

1) Four of the WDC hard drives (SATA model WD2000JB) we have are
suspected to possibly be affected by a timeout issue related to
thermal calibration, or a lack of TLER (Time Limited Error Recovery).

Western Digital claims the problem only affects certain older ATA
drives (but ours are SATA) http://lnk.nu/wdc.custhelp.com/c6c.php
And 3Ware confirms that the ATA version of our model number (but
not necessarily SATA). http://lnk.nu/3ware.com/c6d.aspx

There is a drive firmware update, but only available for ATA
drives. We have already opened support tickets 3Ware and WDC more
than a week ago and are still waiting for responses.

2) Physical drive failure. We've already had all of the drives RMA'ed
at least once when we first started having these problems, so we
don't believe there is a physical failure in the normal sense. The
drives report no errors after a reboot.

3) Motherboard compatibility with our RAID controller. We have a Tyan
S2882 motherboard, but 3Ware's compatibility page for the
9550SX-8LP says only Tyan S2880 and S2885 are "officially"
supported. http://lnk.nu/3ware.com/c6e.pdf We don't think this is
too probable of a cause though.

4) FreeBSD updates. We're currently on FreeBSD 6.0 stable, but 6.1
stable has some additional 3Ware driver updates, so tonight we will
be upgrading to that. http://lnk.nu/freebsd.org/c6f.html

5) 3Ware RAID firmware updates. We've already updated to the latest
firmware a couple weeks ago prior to this most recent outage, so
the firmware alone is not a fix.

6) 3Ware RAID controller. Several months ago we tried replacing the
RAID controller with a slightly different 3Ware model to see if
that would affect things, but the problem persisted.

We've also just recently purchased a KVM-over-IP solution to allow us
to remotely manage the machine if it becomes inaccessible over the
network. Unfortunately, this most recent failure wedged the OS
preventing even a keyboard-initiated reboot from working.

If we don't get any further responses from WDC or 3Ware, our next
possible option is to go out and buy 4 new 200GB+ SATA drives from
another manufacturer and see if that improves things.

We might also try moving some of the drives (containing the OS and
swap) to the onboard RAID controller and see if that can avoid
preventing the OS from going down when the data volume goes down.

Thanks for your patience!

Хоча мене чомусь це не дивує - використовувати SATA RAID...
Тепер мабуть ще з місяць будуть думати як то все виправити.
Paul B.Atton
Ура! Статистика подала ознаки життя! smile.gif
Чотири нові диски встановлено, рейд перебудовано.
:: 13-Dec-2006 06:57 GMT (Wednesday) ::

Today 4 new hard drives were installed into Fritz and the RAID array
has been successfully rebuilt. The new drives reportedly have TLER so
hopefully the problems of drives dropping out of the RAID should not
occur anymore. Additionally, we are hoping that the newer FreeBSD
kernel will not freeze whenever the RAID controller resets itself.

Stats should now be online and accessible, though it is currently
re-processing the backlog of data since the time it went offline.
Hopefully it should be fully caught up in a few hours.

Thanks for your patience! Keep crunching!

Йде обрахунок статистики станом за 11 грудня по RC5-72 та за 10 грудня по OGR-25. Такими темпами до обіду можуть бути поточні дані! smile.gif
Paul B.Atton
Сервер статистики тимчасово не працює через несподівані технічні проблеми.
:: 29-Aug-2008 07:00 GMT (Friday) ::

We're having some unexpected hardware problems with our stats server.
We hope to get it back online soon. No work will be lost during this
outage. Thanks for your patience.
лол я тока вчера пару часов посчитал огр и вот такой резонанс))))
а ведь просто хотел проверить сколько реально насчитаю)
давай давай. считать ещё месяц. ))))
та не считать вслепую (с дохлым статом ) не профильный для себя проект нет желания
(_KoDAk_), стат поднимают обычно за день-два. а бороться надо. финал скоро...
Paul B.Atton
За прогнозами - вже зовсім скоро...
Люди, стат ожил еще вчера
Paul B.Atton
Я про завершення ОГРу... smile.gif
Логично smile.gif
Paul B.Atton
Не пройшло і двох діб, як потвори помітили, що їх стат-сервер лежить. huh1.gif
mikereed@distributed.net link.gif
:: 20-Nov-2008 17:06 GMT (Thursday) ::

Our stats system is down. We apologise for any inconvenience this may cause.
More to follow.
Paul B.Atton
Якщо когось цікавить: стат стояв, бо у потвор був здох один із блоків живлення.
bovine@distributed.net link.gif
:: 21-Nov-2008 21:55 GMT (Friday) ::

The stats server should now be back online. There was no lost work
while it was offline.

One of its redundant power supplies failed a week ago, so it was
removed and a replacement power supply was ordered (for which we are
still waiting to arrive). However, the machine is apparently more
sensitive to line fluctuations without full redundancy.
Не могу понять, почему у меня из таблички в подписи исчез ОГР25? Настроек я не менял, да у всех остальных он остался на месте. Чего я опять не понял?

У того, кто создал эту тему в подписи табличка с ОГР-25 smile.gif Я так понял, что полсе завершения проекта он автоматом у всех перенесся в Арчивед Проджектс, у меня такого не произошло sad.gif Более того, ОГР25 исчез и из Статстул Конфигурейшн. Я просто не понимаю, что это за ерунда.
Ты наверное имел ввиду 26?

уточни свой user_id в stat tool

вобщем надо подождать пока 25й появится в статс тул
Invision Power Board © 2001-2024 Invision Power Services, Inc.