Памяти киевских трамваев:: Форумы::

ТРАМВАЙНЫЙ САЛОН
Светские беседы на околотрамвайные темы
Правила | ЧаВо | Новости ]

Список тем | Создать тему ]

0‒19 | 20‒39 | 40‒289 | 290‒309 ] [ Все сообщения ]

СтефанГлюк[Ответить
[0] 2006-02-02 18:21Утром (своим) обнаружил, что машина умерла. Что крайне неприятно, абсолютно не понимаю, почему. В соответствующих логах нет ни малейших указаний на какие-л. проблемы.

Кто и когда, хотя бы примерно, последний раз до падения успешно заходил на форум?

Прошу прощения за перерыв в работе...
 
ДарницькийRe: Глюк[Ответить
[1] 2006-02-02 18:39Десь об 11.30.
 
СтефанRe: Глюк[Ответить
[2] 2006-02-02 18:49(Эквивалентный вопрос: кто когда, самое раннее, заметил, что форум уже лежит?)
 
АлексRe: Глюк[Ответить
[3] 2006-02-02 18:50~11-50
 
АлексRe: Глюк[Ответить
[4] 2006-02-02 18:51хотя нет... чуть позже... может 12 с чем то...
 
ДарницькийRe: Глюк[Ответить
[5] 2006-02-02 18:57А мені здається, що об 11.30. Треба просто подивитися, хто востаннє написав на форум... ;)
 
MishaRe: Глюк[Ответить
[6] 2006-02-02 23:04Так может пора апрегрйдиться :)
 
СтефанRe: Глюк [6][Ответить
[7] 2006-02-03 06:52> Так может пора апрегрйдиться :)

Угу — через чуть больше чем полгода после сборки абсолютно новой машины...

Пока все, кроме меня, спали, глюк повторился. Машина умирает напрочь. Покопавшись, увидел в логе ошибки жесткого диска. Остается надеяться, что "дрожит" кабель... в противном случае буду знакомиться с тем, как в этой стране работает гарантия.

Соответственно, если форум опять будет лежать, просьба не волноваться: пока жив я сам, подниму! :-)
Если не смогу быстро справиться с проблемой, напишу watchdog'а, который будет автоматически слать мне СМС в случае падения...
 
Ночной_ДозорRe: Глюк [6][Ответить
[8] 2006-02-03 14:01Сегодня в 5:00 по Киеву не смог зайти.

С винтом у меня была интересная история. С полгода назад. Свежекупленый WD 120G JB SATA. Вроде работает но что-то не то. Детальная проверка показала, что периодически происходит икажение информации при записи. Никаких вторичных признаков (шум, перегрев) не было.
 
СтефанRe: Глюк [8][Ответить
[9] 2006-02-03 18:43> Сегодня в 5:00 по Киеву не смог зайти.

Это оно и было :-/

> С винтом у меня была интересная история. С полгода назад.
> Свежекупленый WD 120G JB SATA. Вроде работает но что-то не
> то. Детальная проверка показала, что периодически
> происходит икажение информации при записи. Никаких
> вторичных признаков (шум, перегрев) не было.

Однако :-(
У меня посыпался (правда, после ~ 5 лет безупречной работы) WD, после чего я перешел на Seagate. Хотя всё это, конечно, от лукавого... для самоуспокоения. Теперь вот Seagate заглючил, через полгода... Хотя пока еще (с подачи лучших умов Интернета) надеюсь на то, что это кабель. Вынул-вставил. Будем посмотреть...
 
Александр ИльченкоRe: Глюк [8][Ответить
[10] 2006-02-03 19:41Посмотрите какой-нибуть программой состояние SMART-параметров винта. Если параметр Reallocated Sector Count не равен нулю, то очень вероятно, что винт скоро умрет.
Еще стоит глянуть, не попухли ли конденсаторы возле процессора на материнке. Тоже довольно популярный дефект в последнее время.
 
СтефанRe: Глюк [10][Ответить
[11] 2006-02-03 20:46> Посмотрите какой-нибуть программой состояние
> SMART-параметров винта.


Vendor Specific SMART Attributes with Thresholds:
Revision Number: 10
Attribute Flag Value Worst Threshold Raw Value
( 1)Raw Read Error Rate 0x000f 068 052 006 124833339
( 3)Spin Up Time 0x0003 098 098 000 0
( 4)Start Stop Count 0x0032 100 100 020 5
( 5)Reallocated Sector Ct 0x0033 100 100 036 0
( 7)Seek Error Rate 0x000f 077 061 030 56989900
( 9)Power On Hours 0x0032 100 100 000 141
( 10)Spin Retry Count 0x0013 100 100 097 0
( 12)Power Cycle Count 0x0032 100 100 020 5
(194)Temperature 0x0022 032 040 000 32
(195)Hardware ECC Recovered 0x001a 068 052 000 124833339
(197)Current Pending Sector 0x0012 100 100 000 0
(198)Offline Uncorrectable 0x0010 100 100 000 0
(199)UDMA CRC Error Count 0x003e 200 191 000 16
(200)Unknown Attribute 0x0000 100 253 000 0
(202)Unknown Attribute 0x0032 100 253 000 0
SMART Error Log:
SMART Error Logging Version: 1
Error Log Data Structure Pointer: 01
ATA Error Count: 16
Non-Fatal Count: 0

Error Log Structure 1:
DCR FR SC SN CL SH D/H CR Timestamp
00 00 08 2f c2 ac e0 25 17891
00 00 08 2f c2 ac e0 25 17891
00 00 3f 00 00 00 e0 10 17892
00 00 08 2f c2 ac e0 25 17892
00 00 08 2f c2 ac e0 25 17893
00 84 01 36 c2 ac e0 51 131
Error condition: 32 Error State: 3
Number of Hours in Drive Life: 125 (life of the drive in hours)

Error Log Structure 2:
DCR FR SC SN CL SH D/H CR Timestamp
00 00 08 45 2a 97 e0 35 17682
00 00 08 5d 2a 37 e0 35 17682
00 00 08 45 3e 5b e0 35 17682
00 00 08 dd 1e 5c e0 35 17683
00 00 38 e7 d9 88 e0 25 17683
00 84 01 1e da 88 e0 51 131
Error condition: 161 Error State: 3
Number of Hours in Drive Life: 125 (life of the drive in hours)


И еще три похожих Error Log Structure, все с Error condition: 32 и Number of Hours in Drive Life: 125. Т.е. с секторами вроде всё ОК, но ошибки бывали. Не знаете случайно, что означают эти Error Log-и? В частности, "Number of Hours" — ошибки случились на 125-м часу жизни диска?

> Еще стоит глянуть, не попухли ли конденсаторы возле
> процессора на материнке. Тоже довольно популярный дефект в
> последнее время.

Спасибо. Пока все-таки подозреваю диск/кабель: ошибки в логе


Feb 1 11:52:16 kgb kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
Feb 1 11:52:16 kgb kernel: hda: dma_intr: error=0x84 { DriveStatusError BadCRC }
Feb 1 11:52:16 kgb kernel: ide: failed opcode was: unknown


впервые за последние 10 недель появились 1 февраля, а в ночь с 1-го на 2-е февраля оно и зависло. (Предположительно, ошибка привела к невозможности прочитать что-то ну очень критическое?.. хотя и странно, чтобы это было так фатально.)
 
Александр ИльченкоRe: Глюк [11][Ответить
[12] 2006-02-04 01:31
> ( 5)Reallocated Sector Ct 0x0033 100 100 036 0

0 Reallocated Sectors - пластины в норме

> (199)UDMA CRC Error Count 0x003e 200 191 000 16
> ATA Error Count: 16

UDMA CRC Error Count=16 - по-видимому, это и есть ошибки винта - т.е. что-то таки с передачей данных.
>
> И еще три похожих Error Log Structure, все с Error
> condition: 32 и Number of Hours in Drive Life: 125. Т.е. с
> секторами вроде всё ОК, но ошибки бывали. Не знаете
> случайно, что означают эти Error Log-и?

Первоисточник http://t13.org/docs2006/D1699r2b-ATA8-ACS.pdf , (стр. 191 и далее) говорит, что журнал ошибок хранит 5 последних структур, описывающих ошибку, а в каждой из этих структур - 5 последних команд, после которых была выявлена ошибка и структуру, которая описывает ошибку.

Error Log Structure 1:

DCR FR SC SN CL SH D/H CR Timestamp
00 00 08 2f c2 ac e0 25 17891
00 00 08 2f c2 ac e0 25 17891
00 00 3f 00 00 00 e0 10 17892
00 00 08 2f c2 ac e0 25 17892
00 00 08 2f c2 ac e0 25 17893

^^^^ Это 5 последних команд (см. табл. 49, стр. 194)

00 84 01 36 c2 ac e0 51 131

^^^^ Это структура ошибки (см. табл. 50, стр. 194)

Если линукс не перетасовал байты, то код команды, которая привела к ошибке - 25h (в колонке CR) - READ DMA EXT - т.е. считывание данных в режиме DMA (стр. 130). Т.е. предположение по поводу кабеля или интерфейса ATA материнки или диска может быть верно.

В частности,
> "Number of Hours" — ошибки случились на 125-м часу жизни
> диска?
Да. У команд время (17891 и.т.д) - в миллисекундах с момента включения диска, а в стуктуре ошибки - в часах времени жизни диска. Только вот меня смущает, что в табличке - 131, а ниже - Number of Hours in Drive Life: 125.
Параметр Power On Hours =141, т.е. ошибка произошла за 16(или 10, если 131 верно) часов работы диска до момента считывания SMART-параметров.
Кстати, диск новый у Вас новый? 141 час работы для сервера - это 5 дней.


 
DimRe: Глюк [11][Ответить
[13] 2006-02-04 12:05>UDMA CRC Error Count=16

Ошибка протокола / интерфейса, чаще всего - штекера кабеля (сам намучился, пока кабель подобрал и контактной смазкой прочистил, а до этого пришлось в BIOSе скорость уменьшать), да и длина кабеля играет роль.
 
DimRe: Глюк [11][Ответить
[14] 2006-02-04 12:35Плоский неэкранированый кабель должен быть не длиннее 45 см.
 
СтефанRe: Глюк [11][Ответить
[15] 2006-02-08 09:54Большое спасибо за консультацию!
После того, как подергал кабель, тьфу-тьфу-тьфу, пятеро суток всё спокойно (а до того ошибки были 1–2 раза в сутки). Так что смею надеяться, что диагноз верный.
Диск работает с июня прошлого года, естественно, непрерывно, т.е. никак не 141 час...
 
СтефанRe: Глюк [15][Ответить
[16] 2006-02-10 23:25> После того, как подергал кабель, тьфу-тьфу-тьфу, пятеро
> суток всё спокойно

... а на седьмые началось опять. И не верь после этого в сглаз.

Feb 9 11:17:24 kgb kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
Feb 9 11:17:24 kgb kernel: hda: dma_intr: error=0x84 { DriveStatusError BadCRC }
Feb 9 11:17:24 kgb kernel: ide: failed opcode was: unknown
(и так еще два раза в течение минуты)

(199)UDMA CRC Error Count 0x003e 200 191 000 19
ATA Error Count: 17

После следующего зависания полезу мерять кабель....

 
ЗигфридRe: Глюк [15][Ответить
[17] 2006-02-11 01:11А мож его вырубить на полчасика просто, м? Да разъемчики подергать?
 
СтефанRe: Глюк [15][Ответить
[18] 2006-02-11 01:34Дык это и делалось. Вроде помогло было. Теперь вот опять, *@#!@$%...
 
MishaRe: Глюк [15][Ответить
[19] 2006-02-11 01:48Да поменяй ты этот винт.
 
0‒19 | 20‒39 | 40‒289 | 290‒309 ] [ Все сообщения ]

Список тем | Создать тему ]


Новое сообщение   [Поддерживаются: <a><b><u><i><tt><pre><s><small><sub><sup>]

Автор:
Электронный адрес:
Тема сообщения:
 Отправлять ответы на указанный электронный адрес

SMForum v1.30 2011-11-16 © Stefan Mashkevich 2002‒2011