The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Странная работа сервера"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Открытые системы на сервере (Маршрутизация, NAT / FreeBSD)
Изначальное сообщение [ Отслеживать ]

"Странная работа сервера"  +/
Сообщение от morfey (ok) on 22-Сен-11, 18:41 
Поставили новый сервер Dell PowerEdge 1950 II 2 x Dual-Core XEON 3.0Ghz
Проработал сутки, потом увидел по графику загрузку Load averages = 20. Небыло доступа не по ссш, не по локальной консоли. Хотя как маршрутизатор он продолжал работать. Полечилось хардовым рестартом. Сейчас работает:
# uptime
# 5:31PM  up 1 day, 2 mins, 1 user, load averages: 0.57, 0.39, 0.37
Траффик до 150мбит
Из основных программ стоят:
Kernel NAT
Dummynet
bind
quagga

Карточки Broadcom®  NetXtreme IITM  5708 Gigabit5
#uname -a
#FreeBSD billing 8.2-STABLE FreeBSD 8.2-STABLE #0: Fri Sep 16 10:03:58 UTC 2011     morfey@border:/usr/obj/usr/src/sys/kernel_15.09.2011  amd64

Со свого в ядре добавил :

options  IPFIREWALL
options  IPFIREWALL_VERBOSE
options  IPFIREWALL_VERBOSE_LIMIT=20
options  IPFIREWALL_FORWARD
options  IPDIVERT
options  DUMMYNET
#options IPFIREWALL_DEFAULT_TO_ACCEPT
options  IPFIREWALL_NAT
options  LIBALIAS
options  ROUTETABLES=2

Из тюнинга:

net.inet.ip.intr_queue_maxlen=5000
kern.ipc.maxsockbuf=8388608
kern.ipc.nmbclusters=65000
#kern.polling.idle_poll=1
net.inet.udp.blackhole=1
net.inet.icmp.icmplim=50
kern.ipc.somaxconn=32768
net.inet.tcp.log_in_vain=0
net.inet.udp.log_in_vain=0
net.inet.tcp.blackhole=2
net.inet.udp.blackhole=1
net.inet.ip.fastforwarding=1
net.inet.ip.portrange.randomized=0
net.inet.tcp.nolocaltimewait=1
net.inet.icmp.drop_redirect=1
net.inet.ip.redirect=0
net.inet.tcp.drop_synfin=1
net.inet.icmp.icmplim=2000


Влогах пусто.

Знакомые говорят что может быть  interrupt storm. Но тазик фирменный, не самосборный. Так что маловероятно.
У кого какие идеи ? :)

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Странная работа сервера"  +/
Сообщение от wiseman (ok) on 22-Сен-11, 20:41 

> Знакомые говорят что может быть  interrupt storm. Но тазик фирменный, не
> самосборный. Так что маловероятно.
> У кого какие идеи ? :)

Попробуйте включить поллинг. Если с включенным поллингом проблема повториться, то причина не в прерываниях

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Странная работа сервера"  +/
Сообщение от XoRe (ok) on 23-Сен-11, 01:30 
Может quagga full view не осилила?
load average 20 = 20 активных процессов одновременно хотят процессорную секунду.
Или прерываний.

В свое время для поиска неведомой фигни каждую минуту запускался скрипт, который сохранял ps и top в отдельный файл.
Если что - не брезгуйте.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

3. "Странная работа сервера"  +/
Сообщение от YuryD (??) on 23-Сен-11, 06:59 
> Может quagga full view не осилила?

Свежая - вряд ли, два fw пережевывает не напрягая машину...

> load average 20 = 20 активных процессов одновременно хотят процессорную секунду.
> Или прерываний.

vmstat -i ?

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

10. "Странная работа сервера"  +/
Сообщение от universite email(ok) on 23-Сен-11, 23:46 

> В свое время для поиска неведомой фигни каждую минуту запускался скрипт, который
> сохранял ps и top в отдельный файл.
> Если что - не брезгуйте.

можно atop поставить

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

4. "Странная работа сервера"  +/
Сообщение от Moomintroll (ok) on 23-Сен-11, 08:54 
> Из основных программ стоят:
> Kernel NAT
> Dummynet
> bind
> quagga

А апач у Вас там есть? Может это результат его недавнего бага с диапазонами (Range)?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

5. "Странная работа сервера"  +/
Сообщение от morfey (ok) on 23-Сен-11, 12:53 
>> Из основных программ стоят:
>> Kernel NAT
>> Dummynet
>> bind
>> quagga
> А апач у Вас там есть? Может это результат его недавнего бага
> с диапазонами (Range)?

Apache 2.2.21
Fw не держим.

#vmstat -i
irq1:      atkbd0 72 0

irq14: ata0 35 0
irq20:  uhci1 151964. 1
irq21: uhci0 uhci2+ 149036 0
cpu0: timer 298177177 1964
irq256:   bce0 564726449 3720
irq257: mpt0 3287893 21
irq258: bce1 774003527 5099
cpu3: timer 298062336 1963
cpu2: timer 298062336 1963
cpu1: timer 298062336 1963
Total 2534789896 16700

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

7. "Странная работа сервера"  +/
Сообщение от YuryD (??) on 23-Сен-11, 13:25 
> #vmstat -i

на шторм непохоже, а вот в ядре я бы добавил
options         HZ=4000

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

6. "Странная работа сервера"  +/
Сообщение от 2ihi email(ok) on 23-Сен-11, 13:16 
К сожалению деловского менеджмента не довелось повидать, по процессорам стоит 4 ядра, почему загруз 20% а не 25? или там стата взята с куском где загрузки небыло?

если загруз в момент "глюка" был именно 20% то это скорей всего на шторм (правда какой именно трудно сказать) похоже, если 25 то возможно процесс какой-то с ума сходил.

Шейпер попробуйте к ядру привязать, на 54хх-55хх ксеонах были проблемы про дуалкоры не знаю, наводка cpuset, думаю найдете сами..?

для мониторинга думаю понадобится как минимум логи top -SCH

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

8. "Странная работа сервера"  +/
Сообщение от morfey (ok) on 23-Сен-11, 19:33 
> К сожалению деловского менеджмента не довелось повидать, по процессорам стоит 4 ядра,
> почему загруз 20% а не 25? или там стата взята с
> куском где загрузки небыло?
> если загруз в момент "глюка" был именно 20% то это скорей всего
> на шторм (правда какой именно трудно сказать) похоже, если 25 то
> возможно процесс какой-то с ума сходил.
> Шейпер попробуйте к ядру привязать, на 54хх-55хх ксеонах были проблемы про дуалкоры
> не знаю, наводка cpuset, думаю найдете сами..?
> для мониторинга думаю понадобится как минимум логи top -SCH

По графику до ребута было 20, хз сколько было на самом деле, т.к. на сервер меня не пускало, а какус мог немного врать

Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

9. "Странная работа сервера"  +/
Сообщение от 2ihi email(ok) on 23-Сен-11, 20:55 
> По графику до ребута было 20, хз сколько было на самом деле,
> т.к. на сервер меня не пускало, а какус мог немного врать

а на ИЛОшном экране что-то показывало? Если показывало то в нулевую консоль запускайте для начала top с ключиками и ждите следующего фокуса..

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

11. "Странная работа сервера"  +/
Сообщение от morfey (ok) on 26-Сен-11, 00:05 
> а на ИЛОшном экране что-то показывало? Если показывало то в нулевую консоль
> запускайте для начала top с ключиками и ждите следующего фокуса..

Небыло, топ уже логируется :)

Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

12. "Странная работа сервера"  +/
Сообщение от morfey (ok) on 27-Сен-11, 10:37 
Ну вот, уже 4 суток прошло, и ничего не происходит. Только видел в логах
ipfw: pullup failed. И все.
Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

13. "Странная работа сервера"  +/
Сообщение от morfey (ok) on 01-Окт-11, 20:01 
> Ну вот, уже 4 суток прошло, и ничего не происходит. Только видел
> в логах
> ipfw: pullup failed. И все.

la = 25 :(


last pid: 57056;  load averages: 25.11, 25.15, 25.13  up 2+18:16:45    18:25:01
244 processes: 32 running, 192 sleeping, 1 stopped, 19 waiting

Mem: 536M Active, 1425M Inact, 837M Wired, 880K Cache, 827M Buf, 5110M Free
Swap: 13G Total, 13G Free

  PID USERNAME PRI NICE   SIZE    RES STATE   C   TIME    CPU COMMAND
   11 root     171 ki31     0K    64K RUN     1  60.8H 100.00% {idle: cpu1}
   20 root      20    -     0K    16K CPU0    0  55.3H 100.00% [flowcleaner]
   11 root     171 ki31     0K    64K RUN     3  60.2H 98.00% {idle: cpu3}
   11 root     171 ki31     0K    64K RUN     2  59.5H 92.38% {idle: cpu2}
    0 root     -68    0     0K   128K -       2 259:11  4.69% {dummynet}
   12 root     -68    -     0K   304K WAIT    3 226:11  4.05% {irq256: bce0}
   12 root     -68    -     0K   304K WAIT    1 241:21  3.86% {irq258: bce1}

Кто такой flowcleaner и куда делся cpu0 ? :)

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

14. "Странная работа сервера"  +/
Сообщение от morfey (ok) on 02-Окт-11, 01:25 
Установил net.inet.flowtable.enable=0. О результатах отпишусь
Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

15. "Странная работа сервера"  +/
Сообщение от YuryD (??) on 03-Окт-11, 07:23 
> Кто такой flowcleaner и куда делся cpu0 ? :)

Убейте его, про него многое чего плохого писали. это из flow-tools, и без него можно жить.

Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

16. "Странная работа сервера"  +/
Сообщение от morfey (ok) on 07-Окт-11, 15:24 
>> Кто такой flowcleaner и куда делся cpu0 ? :)
>  Убейте его, про него многое чего плохого писали. это из flow-tools,
> и без него можно жить.

Да, все гут


billing# uptime
2:23PM  up 5 days, 19:31, 1 user, load averages: 0.46, 0.45, 0.49

Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру