Проблемы накопителей Seagate F3 архитектуры и методики восстановления данных

Наиболее популярные проблемы можно разделить на следующие виды: повреждения микропрограммы, дефекты поверхности, неисправности платы контроллера, неисправности блока магнитных головок или коммутатора, механические повреждения.

Повреждения микропрограммы

В лаборатории компаний по восстановлению информации нередко поступают накопители от Seagate с проблемами в микропрограмме, особенно это касается накопителей Seagate Barracuda 7200.11/ ES.2, когда, казалось бы, без видимых причин они перестают выходить в готовность. Причем, что характерно, при подаче питания отчетливо слышно, как накопитель раскручивает вал, выполняет рекалибровку и далее отсутствует реакция на интерфейс, вернее там постоянно установлен флаг BUSY. С давних времен работа с накопителями Seagate ведется не только посредством АТА, но и через терминальное подключение. Если подключиться посредством RS232-TTL конвертера и в терминальном приложении выбрать скорость передачи данных 38 400 бод, то можно будет видеть сообщения, выдаваемые накопителем в процессе инициализации, а также подавать терминальные команды (схемы конвертера при желании несложно найти, воспользовавшись поиском). Наиболее популярная проблема порчи содержимого SMART логов – разрушение alt-list, когда через короткий промежуток времени после старта накопителя в терминале можно было увидеть сообщение «LED:000000CC Addr:0024A051». Данная проблема даже получила в народе название «муха це-це», но, к сожалению, LED ошибки не особо информативны. Они лишь указывают на номер обработчика исключения и адрес его возникновения. Возникновение данного исключения может означать как проблемы в некоторых модулях микропрограммы, так и проблемы блока магнитных головок, а также некоторые неисправности платы контроллера. Адрес по которому произошло исключение (указывается после номера исключения) также ни о чем не информирует, кроме места, где оно возникло. Для полного понимания проблемы необходимо либо дизассемблировать микропрограмму и выяснить в какой процедуре и по каким причинам произошло исключение, либо анализировать модули микропрограммы на предмет повреждений.

«Народный универсальный метод» решения проблемы (собственно без выяснения, в чем проблема) заключается в нижеследующем.

Устанавливается изолятор между контактами электродвигателя и платой контроллера; подается питание. По истечении короткого времени накопитель, ничего не прочитавший из служебной зоны, выходит в готовность по АТА (во многих версиях микропрограмм, этот метод не будет работать по причине того, что для работы с терминалом необходима загрузка оверлея).

Далее в терминале подается Ctrl+Z На приглашение F3 T> вводится команда /2 для перехода на второй уровень. После этого подается команда Z, которая выполняет остановку вала. Учитывая, что он и так не вращался, сразу же получаем сообщение, что он остановлен. Затем извлекается изолятор и подается команда раскрутки вала U. После появления сообщения о том, что вал успешно раскручен, можно считать, что подготовка накопителя к основным операциям завершена.

После всех подготовительных операций подаются команды, влияющие на состояние микропрограммы: /1 – переход на первый уровень (работа со SMART), где подается команда N1, не совсем безболезненная в случае незагруженной микропрограммы, но в большинстве случаев отрабатывает инициализацию SMART (сброс всех логов) и затрагивает транслятор. Затем подается команда /T для перехода на уровень T и выполняется команда i4,1,22, которая производит очистку alt list и в случае наличия в нем корректно переназначенных в процессе работы секторов затрагивает уже пользовательские данные. И последняя команда m0,2,2,,,,,22 выполняет пересчет транслятора на основании slip list (заводской дефект-лист (P-list)), правда никто из опубликовавших данную команду не пишет о ее последствиях, что кроме прямого пересчета транслятора и замещения им оригинального, может иметь место затирание данных в некоторых местах, либо при некоторых проблемах с БМГ можно получить полную невозможность чтения данных, так как не запрещена сертификация пользовательской зоны. Также после уничтожения оригинального транслятора не будут учтены дефекты постпроцесса, которые при производстве накопителей не были внесены в slip лист, а напрямую помещались в транслятор. После первого неучтенного дефекта пользовательская зона будет нечитабельна, по причине появившегося сдвига в трансляторе. Обращение к сдвинутым секторам будет заканчиваться ошибкой чтения (UNC).

Если еще к первым накопителям F3 архитектуры малой емкости данный народный метод с массой оговорок был применим по причине редкого присутствия дефектов, внесенных постпроцессом, то для более современных подобная методика – серьезное усугубление проблем накопителя.

При профессиональном подходе после вывода накопителя в готовность, выполняется полное резервирование служебных данных. Читаются ПЗУ, DT и все модули микропрограммы. При невозможности вывода накопителя в готовность по АТА производится вычитывание данных посредством терминального чтения sys files и сопоставление их с идентификаторами, получаемыми по АТА, и далее анализ целостности модулей микропрограммы и решение непосредственно проблем.

Стоит отметить, что повреждение микропрограммы не происходит само по себе. Причиной во многих случаях являются определенные проблемы на поверхности, которые пытается обслужить микропрограмма. По этой причине после восстановления целостности микропрограммы нельзя заявлять о полной исправности накопителя. Для извлечения данных необходимо принять меры, описанные в следующем разделе статьи.

Дефекты поверхности

Нередки случаи, когда в данных накопителях при очень интенсивной эксплуатации, особенно в условиях повышенной температуры, начинается образование нестабильных зон и впоследствии просто нечитаемых данных. Причем, если поначалу этот процесс замечается только в некоторой замедленной работе накопителя при обращении к нему, то при дальнейшем развитии проблемы появляются нечитаемые секторы и даже области, при обращении к которым ОС будет сообщать об ошибке чтения/записи или еще хуже, когда подпрограмма обслуживания дефектов в накопителе завершается с ошибкой и аварийно завершается работа основной микропрограммы. В этих случаях на любые команды со стороны интерфейса накопитель отвечает отбоем (ABR) и исчезает из окружения ОС.

Также причиной возникновения дефектов поверхности может послужить внешнее воздействие на накопитель. Иногда достаточно совсем незначительного толчка во время работы жесткого диска, чтобы произошел контакт головок с поверхностью дисков и образовалась дефектная зона. Симптомы проявления дефектов – аналогичные, как и в случае перегрева.

При обнаружении подобных проблем немедленно копируйте данные на другой накопитель. В первую очередь копируйте то, что Вам наиболее важно. При возникновении ошибок чтения не пытайтесь читать накопитель многократно, иначе есть риски роста дефектной зоны. Не пытайтесь использовать различные программы автоматического восстановления, которые не рассчитаны на работу с поврежденными накопителями. Их использование может усугубить проблему и привести к еще большему повреждению данных в связи с ростом дефектной зоны.

Если данные с проблемного накопителя уже не могут быть скопированы из ОС, то необходимо накопитель переконфигурировать, а именно отключить процедуру автоматического замещения дефектов при чтении/записи, процедуру отложенного скрытия дефектов, оффлайн сканирование. Данное действие выполняется посредством модификации модуля микропрограммы под идентификатором 0х2А. После этого выполнить создание посекторной копии на другой исправный накопитель. В случае обнаружения дефекта в процессе создания копии лучше выполнить пропуск некой зоны (например: около 1 000 000 секторов) и читать далее; после первого прохода оценить количество пропущенных зон. Затем читать пропущенные участки без обращения к секторам, которые не были прочитаны, но с шагом 100 000 секторов в случае обнаружения дефекта. На следующем проходе уменьшить шаг до 1 000 секторов. При четвертом проходе выполнить чтение с шагом 100 секторов и включить уточняющее чтение в обратную сторону после выполнения прыжка для локализации дефекта. Далее (работая с копией!), опираясь на карту прочитанных секторов, необходимо выполнить анализ файловой системы и разобрать на какие файлы и элементы файловой системы попадают дефекты. Для нужных файлов построить карту цепочек и затем выполнять многопроходное чтение с увеличением количества попыток чтения одного сектора с каждым проходом до тех пор, пока будет присутствовать положительная динамика чтения.

Неисправности платы контроллера

Понятно, что повреждения могут быть различными. Наиболее популярные – это выгорание питающих цепей с повреждением микросхемы управления двигателем, естественное окисление мест пайки и контактных площадок (катализаторами этой химической реакции являются не до конца смытый флюс и повышенная температура). Также встречаются случаи, когда повреждается содержимое ПЗУ либо имеют место повреждения микросхемы буферного ОЗУ.

Во всех случаях для извлечения данных пользователя рекомендуется использовать заведомо исправную плату, с переносом содержимого ПЗУ от неисправной платы (разумеется, кроме случая повреждения ПЗУ), и далее анализировать состояние накопителя на предмет повреждения микропрограммы и дефектов поверхности, которые нередко образуются в последние секунды работы неисправной платы контроллера. При выгорании цепей питания и повреждения микросхемы управления двигателем возможно повреждение коммутатора, залипание головок вне парковочной зоны. В этих случаях только заменой платы с адаптационными мероприятиями не обойтись.

В случае повреждения ПЗУ необходим анализ повреждений. Если затронута только часть с исполняемым кодом, то возможен перенос поврежденного куска кода в считанный дамп от ПЗУ аналогичной версии. После записи нового дампа в заведомо исправную микросхему ПЗУ получим исправный накопитель. В случае повреждения SAP, CAP адаптивных параметров и прочих конфигурационных уникальных данных, процесс восстановления данных на момент написании статьи весьма проблематичен.

Неисправности блока магнитных головок (БМГ) или коммутатора

При неисправности коммутатора накопитель после подачи питания, как правило, издает стучащие звуки (обычно 11 стуков при ударе об ограничитель в актюаторе), производит остановку вала, паркует головки и в зависимости от версии микропрограммы либо дает готовность по регистрам, либо нет.

При неисправности головок, по которым должна быть прочитана микропрограмма, накопитель, как правило, ведет себя аналогично, как и при неисправном коммутаторе.

При некоторых неисправностях головок, по которым не проводится чтение микропрограммы, в зависимости от версии микропрограммы и ее требований при калибровке возможен выход накопителя в готовность, но, как правило, произойдет аварийное завершение микропрограммы с дальнейшим отказом реагировать на команды после обращения к участку, который должен быть прочитан проблемной головкой.

Если накопитель выходит в готовность, то строится карта зонного распределения и производится вычитывание данных из накопителя по зонам (размер зоны около 50-150Мб), которые читаются исправными головками. Далее проводится анализ структур файловой системы и анализ регулярных выражений и структуры найденных файлов для установления целостности необходимых пользователю данных.

Если накопитель не выходит в готовность, то посредством программатора снимается дамп ПЗУ, производится модификация карты головок (спаривание головок) и посредством такой методики устанавливается неисправная головка. Далее производится вычитывание зон по исправным головкам, как описано выше.

Если частичное вычитывание данных дало неудовлетворительные результаты, то так же, как и в случае неисправного коммутатора, необходима пересадка донорского блока магнитных головок. При пересадке донорского БМГ необходима модификация ПЗУ накопителя, а именно перенос SAP, CAP адаптивных параметров от донора к пациенту. Процедуру по пересадке блока магнитных головок необходимо проводить в условиях ламинарного бокса с классом чистоты 100, чтобы избежать попадания пыли. Монтаж и демонтаж БМГ крайне рекомендовано производить посредством профессиональных средств во избежание повреждения пластин и самих магнитно-резистивных головок.

Механические повреждения

Достаточно часто жесткие диски подвергаются механическим воздействиям, причем их последствия существенно отличаются в зависимости от силы удара, направления действия сил при ударе и того, был накопитель в момент удара во включенном или выключенном состоянии. Наиболее тяжкие последствия удара как правило случаются при включенном накопителе. Если направление ударной нагрузки было в плоскости пластин, то это может вызвать образование металлической стружки в подшипнике и заклинивание вала, либо привести к деформации вала и вследствие перекоса пакета дисков произойдет контакт головок с поверхностью пластин с образованием запилов и выходом головок из строя. При ударе по работающему накопителю в плоскости, перпендикулярной плоскости пластин, произойдет контакт головок с поверхностью и образованием дефектов в месте контакта. При сильных ударах возможен отрыв магнитно-резистивных головок. При дальнейших включениях процесс образования дефектов, как правило, будет идти лавинообразно, в связи с чем недопустим запуск накопителей, подвергшихся ударам без анализа проблемы. Удары по накопителю в выключенном состоянии не имеют таких тяжких последствий, но все равно необходимо диагностировать накопитель на предмет повреждений прежде, чем попытаться его запустить. При не очень сильных ударах в плоскости пластин возможно перемещение БМГ из парковочной зоны (рампы) на другое место и как следствие происходит залипание БМГ, либо деформация MR-элементов (задир). При ударах по выключенному накопителю в плоскости, перпендикулярной плоскости пластин, возможна деформация крышки, которая вследствие деформаций может помешать раскручиванию вала, либо перемещению БМГ.

В случаях деформации вала при отсутствии запилов показана пересадка пакета дисков на другой вал (в другой гермоблок) вместе с БМГ, если он не был поврежден в результате удара.

В случаях повреждения блока магнитных головок необходимы процедуры по его замене, описанные в предыдущем разделе.

В случае залипания головок, необходим их вывод и анализ под микроскопом на предмет повреждения. И лишь при отсутствии повреждений устанавливать их на место и производить вычитывание данных.

Монтаж и демонтаж БМГ, как и пересадку пакета дисков, крайне рекомендовано производить посредством профессиональных средств во избежание повреждения пластин и самих магнитно-резистивных головок. Также все работы должны выполняться в условиях ламинарного бокса с классом чистоты 100.

При образовании на поверхности пластин серьезных повреждений, видимых невооруженным глазом (царапин, запилов), мероприятия по пересадке БМГ, как правило, бессмысленны ввиду того, что при старте накопителя с подобными повреждениями пластин выход из строя донорского БМГ произойдет в считанные секунды.

Павел Янчарский

Перепечатка материалов разрешена только с указанием активной ссылки на оригинал статьи

Поделиться
|