[ Список тем | Создать тему ]
[ 0‒19 | 20‒39 | 40‒289 | 290‒309 ] [ Все сообщения ]
Стефан | Глюк | [Ответить] |
Утром (своим) обнаружил, что машина умерла. Что крайне неприятно, абсолютно не понимаю, почему. В соответствующих логах нет ни малейших указаний на какие-л. проблемы.
Кто и когда, хотя бы примерно, последний раз до падения успешно заходил на форум? Прошу прощения за перерыв в работе... | ||
Дарницький | Re: Глюк | [Ответить] |
Десь об 11.30. | ||
Стефан | Re: Глюк | [Ответить] |
(Эквивалентный вопрос: кто когда, самое раннее, заметил, что форум уже лежит?) | ||
Алекс | Re: Глюк | [Ответить] |
~11-50 | ||
Алекс | Re: Глюк | [Ответить] |
хотя нет... чуть позже... может 12 с чем то... | ||
Дарницький | Re: Глюк | [Ответить] |
А мені здається, що об 11.30. Треба просто подивитися, хто востаннє написав на форум... ;) | ||
Misha | Re: Глюк | [Ответить] |
Так может пора апрегрйдиться :) | ||
Стефан | Re: Глюк [6] | [Ответить] |
> Так может пора апрегрйдиться :)
Угу — через чуть больше чем полгода после сборки абсолютно новой машины... Пока все, кроме меня, спали, глюк повторился. Машина умирает напрочь. Покопавшись, увидел в логе ошибки жесткого диска. Остается надеяться, что "дрожит" кабель... в противном случае буду знакомиться с тем, как в этой стране работает гарантия. Соответственно, если форум опять будет лежать, просьба не волноваться: пока жив я сам, подниму! :-) Если не смогу быстро справиться с проблемой, напишу watchdog'а, который будет автоматически слать мне СМС в случае падения... | ||
Ночной_Дозор | Re: Глюк [6] | [Ответить] |
Сегодня в 5:00 по Киеву не смог зайти.
С винтом у меня была интересная история. С полгода назад. Свежекупленый WD 120G JB SATA. Вроде работает но что-то не то. Детальная проверка показала, что периодически происходит икажение информации при записи. Никаких вторичных признаков (шум, перегрев) не было. | ||
Стефан | Re: Глюк [8] | [Ответить] |
> Сегодня в 5:00 по Киеву не смог зайти.
Это оно и было :-/ > С винтом у меня была интересная история. С полгода назад. > Свежекупленый WD 120G JB SATA. Вроде работает но что-то не > то. Детальная проверка показала, что периодически > происходит икажение информации при записи. Никаких > вторичных признаков (шум, перегрев) не было. Однако :-( У меня посыпался (правда, после ~ 5 лет безупречной работы) WD, после чего я перешел на Seagate. Хотя всё это, конечно, от лукавого... для самоуспокоения. Теперь вот Seagate заглючил, через полгода... Хотя пока еще (с подачи лучших умов Интернета) надеюсь на то, что это кабель. Вынул-вставил. Будем посмотреть... | ||
Александр Ильченко | Re: Глюк [8] | [Ответить] |
Посмотрите какой-нибуть программой состояние SMART-параметров винта. Если параметр Reallocated Sector Count не равен нулю, то очень вероятно, что винт скоро умрет.
Еще стоит глянуть, не попухли ли конденсаторы возле процессора на материнке. Тоже довольно популярный дефект в последнее время. | ||
Стефан | Re: Глюк [10] | [Ответить] |
> Посмотрите какой-нибуть программой состояние
> SMART-параметров винта.
И еще три похожих Error Log Structure, все с Error condition: 32 и Number of Hours in Drive Life: 125. Т.е. с секторами вроде всё ОК, но ошибки бывали. Не знаете случайно, что означают эти Error Log-и? В частности, "Number of Hours" — ошибки случились на 125-м часу жизни диска? > Еще стоит глянуть, не попухли ли конденсаторы возле > процессора на материнке. Тоже довольно популярный дефект в > последнее время. Спасибо. Пока все-таки подозреваю диск/кабель: ошибки в логе
впервые за последние 10 недель появились 1 февраля, а в ночь с 1-го на 2-е февраля оно и зависло. (Предположительно, ошибка привела к невозможности прочитать что-то ну очень критическое?.. хотя и странно, чтобы это было так фатально.) | ||
Александр Ильченко | Re: Глюк [11] | [Ответить] |
> ( 5)Reallocated Sector Ct 0x0033 100 100 036 0 0 Reallocated Sectors - пластины в норме > (199)UDMA CRC Error Count 0x003e 200 191 000 16 > ATA Error Count: 16 UDMA CRC Error Count=16 - по-видимому, это и есть ошибки винта - т.е. что-то таки с передачей данных. > > И еще три похожих Error Log Structure, все с Error > condition: 32 и Number of Hours in Drive Life: 125. Т.е. с > секторами вроде всё ОК, но ошибки бывали. Не знаете > случайно, что означают эти Error Log-и? Первоисточник http://t13.org/docs2006/D1699r2b-ATA8-ACS.pdf , (стр. 191 и далее) говорит, что журнал ошибок хранит 5 последних структур, описывающих ошибку, а в каждой из этих структур - 5 последних команд, после которых была выявлена ошибка и структуру, которая описывает ошибку. Error Log Structure 1: DCR FR SC SN CL SH D/H CR Timestamp 00 00 08 2f c2 ac e0 25 17891 00 00 08 2f c2 ac e0 25 17891 00 00 3f 00 00 00 e0 10 17892 00 00 08 2f c2 ac e0 25 17892 00 00 08 2f c2 ac e0 25 17893 ^^^^ Это 5 последних команд (см. табл. 49, стр. 194) 00 84 01 36 c2 ac e0 51 131 ^^^^ Это структура ошибки (см. табл. 50, стр. 194) Если линукс не перетасовал байты, то код команды, которая привела к ошибке - 25h (в колонке CR) - READ DMA EXT - т.е. считывание данных в режиме DMA (стр. 130). Т.е. предположение по поводу кабеля или интерфейса ATA материнки или диска может быть верно. В частности, > "Number of Hours" — ошибки случились на 125-м часу жизни > диска? Да. У команд время (17891 и.т.д) - в миллисекундах с момента включения диска, а в стуктуре ошибки - в часах времени жизни диска. Только вот меня смущает, что в табличке - 131, а ниже - Number of Hours in Drive Life: 125. Параметр Power On Hours =141, т.е. ошибка произошла за 16(или 10, если 131 верно) часов работы диска до момента считывания SMART-параметров. Кстати, диск новый у Вас новый? 141 час работы для сервера - это 5 дней. | ||
Dim | Re: Глюк [11] | [Ответить] |
>UDMA CRC Error Count=16
Ошибка протокола / интерфейса, чаще всего - штекера кабеля (сам намучился, пока кабель подобрал и контактной смазкой прочистил, а до этого пришлось в BIOSе скорость уменьшать), да и длина кабеля играет роль. | ||
Dim | Re: Глюк [11] | [Ответить] |
Плоский неэкранированый кабель должен быть не длиннее 45 см. | ||
Стефан | Re: Глюк [11] | [Ответить] |
Большое спасибо за консультацию!
После того, как подергал кабель, тьфу-тьфу-тьфу, пятеро суток всё спокойно (а до того ошибки были 1–2 раза в сутки). Так что смею надеяться, что диагноз верный. Диск работает с июня прошлого года, естественно, непрерывно, т.е. никак не 141 час... | ||
Стефан | Re: Глюк [15] | [Ответить] |
> После того, как подергал кабель, тьфу-тьфу-тьфу, пятеро
> суток всё спокойно ... а на седьмые началось опять. И не верь после этого в сглаз. Feb 9 11:17:24 kgb kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error } Feb 9 11:17:24 kgb kernel: hda: dma_intr: error=0x84 { DriveStatusError BadCRC } Feb 9 11:17:24 kgb kernel: ide: failed opcode was: unknown (и так еще два раза в течение минуты) (199)UDMA CRC Error Count 0x003e 200 191 000 19 ATA Error Count: 17 После следующего зависания полезу мерять кабель.... | ||
Зигфрид | Re: Глюк [15] | [Ответить] |
А мож его вырубить на полчасика просто, м? Да разъемчики подергать? | ||
Стефан | Re: Глюк [15] | [Ответить] |
Дык это и делалось. Вроде помогло было. Теперь вот опять, *@#!@$%... | ||
Misha | Re: Глюк [15] | [Ответить] |
Да поменяй ты этот винт. |
[ Список тем | Создать тему ]