The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Умерло 4 диска: Constellation ES + Barracuda ES.2 "
Вариант для распечатки  
Пред. тема | След. тема 
Форум Открытые системы на сервере (Файловые системы, диски / Linux)
Изначальное сообщение [ Отслеживать ]

"Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от zeiter (ok) on 17-Май-11, 15:12 
Приветствую!

Долгое время стояли два диска семейства Seagate Barracuda ES.2 по 250Гб в программном RAID-1 и в принципе не знали проблем. Решили увеличить емкость дисков, взяли 1 (Диск#1) Seagate Constellation ES 500Гб (ST3500514NS) + 1 (Диск#2) Seagate Barracuda ES.2 500Гб (ST3500320NS). Не успели запустить в продакшн, как начались проблемы с этими дисками (на пустом сервере без рабочей нагрузки):

Декабрь 2010: То gmirror не собирался под FreeBSD, то еще чего. А когда собрался то вскоре благополучно развалился. На дисках стремительно начало расти количество reallocated sector по SMART.

Январь-Февраль 2011: Замена указанных дисков на новые 2 диска: Диск#3 и Диск#4 Constellation ES 500Гб (ST3500514NS). Ошибки записи:


....
ad0: TIMEOUT - WRITE_DMA retrying....
....

Март 2011: Перестановка OS, миграция на CentOS 5. Программный рейд 1.

Апрель 2011: Умирает диск (?):


...
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
...

Май 2011: Демонтаж сервера. Проверка дисков SeaTools Windows. Короткий+длительные тесты пройдены усешно. По SMARTу:


Диск #3

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   084   064   044    Pre-fail  Always       -       243397615
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       8
  5 Reallocated_Sector_Ct   0x0033   066   066   036    Pre-fail  Always       -       1418
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4755547
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1228
10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       8
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   097   000    Old_age   Always       -       197571510321
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   062   045    Old_age   Always       -       29 (Lifetime Min/Max 26/31)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       7
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       8
194 Temperature_Celsius     0x0022   029   040   000    Old_age   Always       -       29 (0 19 0 0)
195 Hardware_ECC_Recovered  0x001a   038   014   000    Old_age   Always       -       243397615
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

Диск #4

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   081   063   044    Pre-fail  Always       -       149799206
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       4
  5 Reallocated_Sector_Ct   0x0033   095   095   036    Pre-fail  Always       -       236
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       3756969
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1132
10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       4
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   099   000    Old_age   Always       -       4295032833
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   075   068   045    Old_age   Always       -       25 (Lifetime Min/Max 21/26)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       3
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       4
194 Temperature_Celsius     0x0022   025   040   000    Old_age   Always       -       25 (0 13 0 0)
195 Hardware_ECC_Recovered  0x001a   033   015   000    Old_age   Always       -       149799206
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

Сервер на платформе Intel SR1530AH со втроенным Intel ICH7 SATA 300 controller.


Все-таки диски попались бракованные али ICH7 побил диски?

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от Ващенаглухо (ok) on 17-Май-11, 16:59 
наверно диски бракованные... Reallocated_Sector_Ct этим вроде бы сам диск занимается, а не контроллер?
3 года использовал в 5 рейде Seagate Barracuda ES ST3500630NS, только на 1 из 5 дисков появился 1 Reallocated_Sector
Стало мало места, заменил все 5шт на терабайтные ST31000340NS, работают уже 2 года, проблем тоже не возникло.
md0 : active raid5 sdc[3] sda[4] sde[2] sdd[1] sdb[0]
      3907045376 blocks level 5, 128k chunk, algorithm 2 [5/5] [UUUUU]
      bitmap: 4/233 pages [16KB], 2048KB chunk

>Все-таки диски попались бракованные али ICH7 побил диски?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от zeiter (ok) on 18-Май-11, 10:36 
> наверно диски бракованные...

С трудом в это верится... Неужели 4 диска, по парно купленные в разных магазинах одинаково могли быть бракованными?

> Reallocated_Sector_Ct этим вроде бы сам диск занимается,
> а не контроллер?

Котроллер на мамке? Или контроллер диска? В любом случае S.M.A.R.T — Self-Monitoring, Analysis and Reporting Technology. А стало быть мониторинг осуществляет и сообщает электроника на диске (поправьте меня если ошибаюсь).

Ну а такой возможен вариант, что из-за неисправности мамки в целом или ICH7 в частности начали плодится reallocated сектора по причине того, что сам контроллер ICH7 выдавал некорректные директивы или как-то еще способствовал этому?

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

3. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от PavelR (??) on 18-Май-11, 10:42 
>> наверно диски бракованные...

А какая-нибудь повышенная вибрация в стойке ?

> С трудом в это верится... Неужели 4 диска, по парно купленные в
> разных магазинах одинаково могли быть бракованными?

Да, потому что фирма у них - одинаковая.



Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

6. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от zeiter (ok) on 18-Май-11, 12:45 
> А какая-нибудь повышенная вибрация в стойке ?

Ничего такого замечено не было. Кроме этого сервера стоит еще несколько похожих платформ с схожих или аналогичных корпусах. Такого как на этом ничего не замечали.

> Да, потому что фирма у них - одинаковая.

Опять же сигейтами пользуемся не первый год, но чтобы так сразу 4 диска меньше, чем за полгода — не было ни разу.

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

4. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от desenix (ok) on 18-Май-11, 11:38 
> С трудом в это верится... Неужели 4 диска, по парно купленные в
> разных магазинах одинаково могли быть бракованными?

Как-то давно купил два диска этой же фирмы, сделал RAID0 и через пол года оба умерли, один поменяли, другой отремонтировали (драйвер головы/мотора сдох), с тех пор обхожу их стороной.

Думаю они одинаково перегрелись и навернулись, бо ставят г...о чипы подешевле, а грузят их на максимум.

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

5. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от a2l email on 18-Май-11, 12:25 
>[оверквотинг удален]
>    -       0
> 198 Offline_Uncorrectable   0x0010   100   100  
>  000    Old_age   Offline  
>    -       0
> 199 UDMA_CRC_Error_Count    0x003e   200   200
>   000    Old_age   Always  
>      -      
>  0
> Сервер на платформе Intel SR1530AH со втроенным Intel ICH7 SATA 300 controller.
> Все-таки диски попались бракованные али ICH7 побил диски?

Может блок питания виноват?


Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

7. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от zeiter (ok) on 18-Май-11, 12:57 
К чему все-это я спрашиваю. Диски на гарантии — нужно решить ехать в СЦ и настаивать на замене или не ехать. Если проблема в дисках, то в СЦ обычно ссылаются на тесты производителя SeaTools, которые были успешно пройдены последними дисками #3 и #4. При этом диск #3 намертво отвалился с ошибкой:

end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879

Количество reallocated секторов с последного отчета по SMART увеличилось (в первом посте на недельку устаревшие данные по сравнению со временем демонтажа и ошибки I/O error).

Так вот по опыту могу сказать, что данные SMART (в частности Reallocated_Sector_Ct) в СЦ в качестве основания для гарантийного ремонта или замены дисков не принимают как правило.

Мне же нужно 100% уверенность, что проблема в дисках, чтобы гнуть свою линию и потребовать замену.

> Может блок питания виноват?

Версия с блоком питания, как и версия с материнкой требуют дополнительной проверки. И в домашних условиях или на коленке в офисе сложно подтвердить или опровергнуть. Руководство же вряд ли выделит средства для проверки железа в СЦ. Вот и хочу понять природу и причины возникновения этих reallocated секторов. Кто же виноват?

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

8. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от zeiter (ok) on 18-Май-11, 13:04 
Забыл сказать, что эта ошибка возникла все-таки под нагрузкой. Но нагрузка была тестовая, запустили тесты bonniee++. Где-то с недельку гонялись они без перерыва до самого момента возникновения ошибки:

end_request: I/O error, dev sda, sector 757879 
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879

Когда сервер наглухо встал и только горячий ребут мог привести его в чувства.

Остается только опытным путем проверять? Диски или железо? Воткнуть диски и запустить на выходные bonnie++ еще разок)))

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

9. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от lavr email on 18-Май-11, 21:21 
> Забыл сказать, что эта ошибка возникла все-таки под нагрузкой. Но нагрузка была
> тестовая, запустили тесты bonniee++. Где-то с недельку гонялись они без перерыва
> до самого момента возникновения ошибки:
>
end_request: I/O error, dev sda, sector 757879 
> end_request: I/O error, dev sda, sector 757879
> end_request: I/O error, dev sda, sector 757879

> Когда сервер наглухо встал и только горячий ребут мог привести его в
> чувства.
> Остается только опытным путем проверять? Диски или железо? Воткнуть диски и запустить
> на выходные bonnie++ еще разок)))

1) посмотрите реально ли у вас SATA контроллер поддерживает SATA-300
2) диски Seagate ES.2 как впрочем и ES ненадежные и вероятно это зависит от партии

если контроллер в SR1530 - SATA150, переводите диски в SATA150, если SATA300,
то переводите FreeBSD на ahci и тестируйте под нагрузкой.

Совет, под рейды используйте либо Hitachi Ultrastar линейку, либо WD RE3, в крайнем
случае WD RE4. (первая линейка лучшая из перечисленных, затем вторая)

прим: Seagate ES.2 в RAID5 приходится менять по диску раз в неделю-две, суммарно
в рейдах 5'ого уровня ~750 дисков, выводы из этой статистики можете сделать сами
Возможно проблема со связкой: контроллер <-> firmware Seagate'ов

И последнее, попробуйте диски на самом обычном desktop'е но с ICH9, лучше с ICH10,
если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое бывает,
вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
переходников и backplane'ов.

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

10. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от zeiter (ok) on 19-Май-11, 11:40 
> 1) посмотрите реально ли у вас SATA контроллер поддерживает SATA-300

Судя по спецификации — поддерживает

http://www.intel.com/cd/channel/reseller/asmo-na/eng/product...

http://www.nix.ru/autocatalog/server_systems_intel/Intel_1U_...

> 2) диски Seagate ES.2 как впрочем и ES ненадежные и вероятно это
> зависит от партии
> если контроллер в SR1530 - SATA150, переводите диски в SATA150, если SATA300,
> то переводите FreeBSD на ahci и тестируйте под нагрузкой.

Перед миграцией на CentOS оба режима проверяли. Изначально на FreeBSD использовался Lecacy режим (IDE). Были проблемы с обнаружением дисков в режиме AHCI когда-то давно, когда устанавливалась ОС. CentOS уже ставился на AHCI. Непосредственно перед миграцией на CentOS был ре-сетап FreeBSD 7 на диски с контроллером в режиме AHCI. Т.е. можно сказать, что перепробовали все доступные варианты режимов.

> Совет, под рейды используйте либо Hitachi Ultrastar линейку, либо WD RE3, в
> крайнем
> случае WD RE4. (первая линейка лучшая из перечисленных, затем вторая)

Благодарю за рекомендацию.

>  Возможно проблема со связкой: контроллер <-> firmware Seagate'ов

Подобная мысль меня посещала. Думаю, что эта версия имеет основания быть заявленной.

> И последнее, попробуйте диски на самом обычном desktop'е но с ICH9, лучше
> с ICH10,

Эти мероприятий запланированы. Только под рукой пока имеется только контроллер Promise SATA.

> если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое
> бывает,
> вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
> переходников и backplane'ов.

Печально или нет то, что данная модель платформы не имеет никаких backplane'ов. И диски были подключены напрямую через шлейфы. SATA шлейф менял, порты тоже менял.

Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

11. "Умерло 4 диска: Constellation ES + Barracuda ES.2 "  +/
Сообщение от lavr email on 19-Май-11, 17:00 
>> если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое
>> бывает,
>> вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
>> переходников и backplane'ов.
> Печально или нет то, что данная модель платформы не имеет никаких backplane'ов.
> И диски были подключены напрямую через шлейфы. SATA шлейф менял, порты
> тоже менял.

замечательно, одно исключение уже есть.

Еще одно примечание, опыт использования показал что временной предел использования
дисков в рейд массивах 3года, после этого срока как правило начинаются проблемы с дисками
любых производителей. Те при условии что у нас в рейде надежные диски, можно с уверенностью
сказать что проблемы начнутся по истечении 3лет работы, далее обычно все сыпется.
Да, бывают исключения - 4года, иногда больше, но в целом, ждать проблем после 3лет.


Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру