Как бы вы поступили?

Есть узел на Windows. Ему 2 года. Для узла используется HDD 20 Тб

Вчера, в течении 4 часов, состояние здоровья диска резко ухудшилось. Из прекрасного состояния он превратился в диск с 60 плохими секторами.
Проверку диска (chkdsk /f) выполнить не удается. Даже на первой стадии проверки (проверка базовой структуры файловой системы) есть ошибки - “Не удается прочесть сегмент записи о файле”. Похоже есть поврежденные сектора в области таблиц файловой системы. Узел остановлен.

Как бы вы поступили?

  1. Считать узел потерянным. Горький опыт

  2. Попытаться восстановить файлы узла (есть возможность). На миллионы файлов потребуется несколько дней. В 12 дневное окно “не в сети” можно успеть. Однако неизвестно сколько и каких файлов будет не восстановлено (утеряно)

Ваше мнение?

in English (sorry, google translate)

There is a node on Windows. He’s 2 years old. Node uses 20 TB HDD

Yesterday, within 4 hours, the disk’s health deteriorated sharply. From a great state, it turned into a disk with 60 bad sectors.
Check disk (chkdsk /f) fails. Even at the first stage of the check (checking the basic structure of the file system) there are errors - “Unable to read the record segment about the file”. It looks like there are bad sectors in the table area of the file system. The node is stopped.

What would you do?

Treat the node as lost. Bitter experience

Attempt to restore host files (possible). Millions of files will take several days. In the 12-day “offline” window, you can make it. However, it is not known how many and which files will not be restored (lost)

Your opinion?

Привет.
Оххх… мои соболезнования.
Если есть возможность, то конечно пытаться восстановить:
robocopy /MIR /mt:8 D:\storagenode E:\storagenode
Но, чтобы Вы не сильно расстраивались, скоро все равно выплаты сильно упадут:
https://forum.storj.io/t/update-proposal-for-storage-node-operators
рано или поздно возникнет вопрос целесообразности содержания ноды/нод.

1 Like

А как robocopy /MIR реагирует на файл, который невозможно прочитать? Стопорится?

К сожалению, не было возможности проверить на практике.
В описании есть:
/R:0 - number of retries - 0. (Skips corrupted files instead of constantly retrying).
запускай:
robocopy /MIR /mt:8 /R:0 D:\storagenode E:\storagenode

2 Likes

poprobuite zamenit, sata kabel, proverte kabelja pitanija, ne dobavljali diski ili esjo chego, u menja byl opyt kogda linija byla peregruzhena i disk padal i daval oshibki prosto s potolka.
Peredelal pitanije i vsjo ok. zapustite ispravlenije oshibok neskolko raz, eto pomogaet.

а сколько реально занятый объём и объём треша?
и главное- а не стоит ли у тебя версия 1.75 или выше?

Сейчас HDD установлен на другой рабочей станции. Естественно с другими кабелями и питанием. Никаких изменений. Битые сектора уже отображаются в SMART. И количество их увеличивается, хотя HDD сейчас работает только не чтение. т.е. он просто сыпется
Проверку диска с исправлением уже боюсь делать. Не хочу рисковать, чтобы при исправлении случайно не запороло таблицу размещения файлов (поскольку похоже в этой области повреждения)
Сначала постараюсь вытянуть что получится, потом можно эксперементировать

Точно не помню объем. В районе 12 тб. Около 28 млн файлов. Треш не помню. Узел уже отключен, не посмотрю.
Версия была 1.75.2
В целом я просто в шоке, ни разу не было проблем по узлу

если диск виден- копируешь
robocopy z:\ (откуда например) d:(куда например) /MIR /w:1 /r:1
а какой диск кстати? модель и чем смотришь битые?

1 Like

Мониторинг - Hard Disk Sentinel. Она в реальном времени отслеживает состояние дисков. Она же первая и показала проблемы. HDD за 4 часа с отличного состояния набрал 65 бэдов. В смарте соответственно зарегистрировано. Узел был отключен после этого.
Seagate Exos X20
robocopy восстановление не делает. Он просто пропускает.
Попробую robocopy для переноса на здоровом узле

togda popytatsa skopirovat i disk v garantiju.

1 Like

восстановить можно запустить после копирования но нет смысла, ну просядет на 0.1% аудит…

ja tolko kopiroval nodu na 3 tb, izza bityh sektorov ne smog skopirovat 600mb, DQ na vseh krome EU za paru dnei.

Я вижу что повреждения затронули базовую структуру файловой системы. Как раз там записано какие и где находятся файлы.
Перед запуском восстановления софт проводит сканирование и собирает информацию сколько файлов. Каждый раз пытаясь прочитать поврежденные зоны (структуру файловой системы). Я запускал процесс заново несколько раз (специально). Каждый раз было разное количество существующих файлов (± 300 файлов). Выбрал вариант с большим количеством. Потом попробую добить синхронизацией. Возможно еще что то найдется

Может мне повезет больше, так как остановил узел через 4 часа как начал сыпаться HDD. А так да, это рулетка. Морально я готов к DQ, но все мы рано или поздно там будем :laughing:
Стоит попытаться выжить

Вот как выглядит повреждение структуры файловой системы

C:\Windows\system32>chkdsk q: /f
Тип файловой системы: NTFS.
Метка тома: XXX

Этап 1. Проверка базовой структуры файловой системы…
Не удается прочесть сегмент записи о файле 4F572C.
Не удается прочесть сегмент записи о файле 4F572D.
Не удается прочесть сегмент записи о файле 4F572E.
Не удается прочесть сегмент записи о файле 4F572F.
Не удается прочесть сегмент записи о файле 4F57BC.
Не удается прочесть сегмент записи о файле 4F57BD.
Не удается прочесть сегмент записи о файле 4F57BE.
Не удается прочесть сегмент записи о файле 4F57BF.
Не удается прочесть сегмент записи о файле 4F9248.
Не удается прочесть сегмент записи о файле 4F9249.
Не удается прочесть сегмент записи о файле 4F924A.
Не удается прочесть сегмент записи о файле 4F924B.
Не удается прочесть сегмент записи о файле 4F99E8.
Не удается прочесть сегмент записи о файле 4F99E9.
Не удается прочесть сегмент записи о файле 4F99EA.
Не удается прочесть сегмент записи о файле 4F99EB.
Не удается прочесть сегмент записи о файле 4FAFFC.
Не удается прочесть сегмент записи о файле 4FAFFD.
Не удается прочесть сегмент записи о файле 4FAFFE.
Не удается прочесть сегмент записи о файле 4FAFFF.
Не удается прочесть сегмент записи о файле 503B0C.
Не удается прочесть сегмент записи о файле 503B0D.
Не удается прочесть сегмент записи о файле 503B0E.
Не удается прочесть сегмент записи о файле 503B0F.
Не удается прочесть сегмент записи о файле 503BB4.
Не удается прочесть сегмент записи о файле 503BB5.
Не удается прочесть сегмент записи о файле 503BB6.
Не удается прочесть сегмент записи о файле 503BB7.
Не удается прочесть сегмент записи о файле 509344.
Не удается прочесть сегмент записи о файле 509345.
Не удается прочесть сегмент записи о файле 509346.
Не удается прочесть сегмент записи о файле 509347.
Не удается прочесть сегмент записи о файле 50B090.
Не удается прочесть сегмент записи о файле 50B091.
Не удается прочесть сегмент записи о файле 50B092.
Не удается прочесть сегмент записи о файле 50B093.
Не удается прочесть сегмент записи о файле 5C777C.
Не удается прочесть сегмент записи о файле 5C777D.
Не удается прочесть сегмент записи о файле 5C777E.
Не удается прочесть сегмент записи о файле 5C777F.
Не удается прочесть сегмент записи о файле 5E5A90.
Не удается прочесть сегмент записи о файле 5E5A91.
Не удается прочесть сегмент записи о файле 5E5A92.
Не удается прочесть сегмент записи о файле 5E5A93.
Не удается прочесть сегмент записи о файле 5E60D8.
Не удается прочесть сегмент записи о файле 5E60D9.
Не удается прочесть сегмент записи о файле 5E60DA.
Не удается прочесть сегмент записи о файле 5E60DB.
Не удается прочесть сегмент записи о файле 5E6130.
Не удается прочесть сегмент записи о файле 5E6131.
Не удается прочесть сегмент записи о файле 5E6132.
Не удается прочесть сегмент записи о файле 5E6133.
Не удается прочесть сегмент записи о файле 5E6844.
Не удается прочесть сегмент записи о файле 5E6845.
Не удается прочесть сегмент записи о файле 5E6846.
Не удается прочесть сегмент записи о файле 5E6847.
Не удается прочесть сегмент записи о файле 5E6888.
Не удается прочесть сегмент записи о файле 5E6889.
Не удается прочесть сегмент записи о файле 5E688A.
Не удается прочесть сегмент записи о файле 5E688B.
Не удается прочесть сегмент записи о файле 5E68BC.
Не удается прочесть сегмент записи о файле 5E68BD.
Не удается прочесть сегмент записи о файле 5E68BE.
Не удается прочесть сегмент записи о файле 5E68BF.
Не удается прочесть сегмент записи о файле 6368D0.
Не удается прочесть сегмент записи о файле 6368D1.
Не удается прочесть сегмент записи о файле 6368D2.
Не удается прочесть сегмент записи о файле 6368D3.
Не удается прочесть сегмент записи о файле 63700C.
Не удается прочесть сегмент записи о файле 63700D.
Не удается прочесть сегмент записи о файле 63700E.
Не удается прочесть сегмент записи о файле 63700F.
Не удается прочесть сегмент записи о файле 63705C.
Не удается прочесть сегмент записи о файле 6ACF58.
Не удается прочесть сегмент записи о файле 6ACF59.
Не удается прочесть сегмент записи о файле 6ACF5A.
Не удается прочесть сегмент записи о файле 6ACF5B.
Не удается прочесть сегмент записи о файле 6ACF88.
Не удается прочесть сегмент записи о файле 6AD9FC.
Не удается прочесть сегмент записи о файле 6AD9FD.
Не удается прочесть сегмент записи о файле 6AD9FE.
Не удается прочесть сегмент записи о файле 6AD9FF.
Не удается прочесть сегмент записи о файле 6ADA1C.
Не удается прочесть сегмент записи о файле 6ADA1D.
Не удается прочесть сегмент записи о файле 6ADA1E.
Не удается прочесть сегмент записи о файле 6ADA1F.
Не удается прочесть сегмент записи о файле 6ADA34.
Не удается прочесть сегмент записи о файле 6ADA35.
Не удается прочесть сегмент записи о файле 6ADA36.
Не удается прочесть сегмент записи о файле 6ADA37.
Не удается прочесть сегмент записи о файле 6F0AA8.
Не удается прочесть сегмент записи о файле 6F0AA9.
Не удается прочесть сегмент записи о файле 6F0AAA.
Не удается прочесть сегмент записи о файле 6F0AAB.
Не удается прочесть сегмент записи о файле 6F0ABC.
Не удается прочесть сегмент записи о файле 6F0ABD.
Не удается прочесть сегмент записи о файле 6F0ABE.
Не удается прочесть сегмент записи о файле 6F0ABF.
Не удается прочесть сегмент записи о файле 6F0AC4.
Не удается прочесть сегмент записи о файле 6F0AC5.
Не удается прочесть сегмент записи о файле 6F0AC6.
Не удается прочесть сегмент записи о файле 6F0AC7.
Не удается прочесть сегмент записи о файле 6F0AD4.
Не удается прочесть сегмент записи о файле 6F0AD5.
Не удается прочесть сегмент записи о файле 6F0AD6.
Не удается прочесть сегмент записи о файле 6F0AD7.
Не удается прочесть сегмент записи о файле 6F0AD8.
Не удается прочесть сегмент записи о файле 6F0AD9.
Не удается прочесть сегмент записи о файле 6F0ADA.
Не удается прочесть сегмент записи о файле 6F0ADB.
Не удается прочесть сегмент записи о файле 6F0AF0.
Не удается прочесть сегмент записи о файле 6F0AF1.
Не удается прочесть сегмент записи о файле 6F0AF2.
Не удается прочесть сегмент записи о файле 6F0AF3.
Не удается прочесть сегмент записи о файле 6F0AF4.
Не удается прочесть сегмент записи о файле 6F0AF5.
Не удается прочесть сегмент записи о файле 6F0AF6.
Не удается прочесть сегмент записи о файле 6F0AF7.
Не удается прочесть сегмент записи о файле 6F0AF8.
Не удается прочесть сегмент записи о файле 6F0AF9.
Не удается прочесть сегмент записи о файле 6F0AFA.
Не удается прочесть сегмент записи о файле 6F0AFB.
Не удается прочесть сегмент записи о файле 6F0AFC.
Не удается прочесть сегмент записи о файле 6F0AFD.
Не удается прочесть сегмент записи о файле 6F0AFE.
Не удается прочесть сегмент записи о файле 6F0AFF.
Не удается прочесть сегмент записи о файле 6F0B0C.
Не удается прочесть сегмент записи о файле 6F0B0D.
Не удается прочесть сегмент записи о файле 6F0B0E.
Не удается прочесть сегмент записи о файле 6F0B0F.
Не удается прочесть сегмент записи о файле 6F0B10.
Не удается прочесть сегмент записи о файле 6F0B11.
Не удается прочесть сегмент записи о файле 6F0B12.
Не удается прочесть сегмент записи о файле 6F0B13.
Не удается прочесть сегмент записи о файле 6F0B1C.
Не удается прочесть сегмент записи о файле 6F0B1D.
Не удается прочесть сегмент записи о файле 6F0B1E.
Не удается прочесть сегмент записи о файле 6F0B1F.
Не удается прочесть сегмент записи о файле 6F0B20.
Не удается прочесть сегмент записи о файле 6F0B21.
Не удается прочесть сегмент записи о файле 6F0B22.
Не удается прочесть сегмент записи о файле 6F0B23.
Не удается прочесть сегмент записи о файле 6F0B4C.
Не удается прочесть сегмент записи о файле 6F0B4D.
Не удается прочесть сегмент записи о файле 6F0B4E.
Не удается прочесть сегмент записи о файле 6F0B4F.
Не удается прочесть сегмент записи о файле 6F0B74.
Не удается прочесть сегмент записи о файле 6F0B75.
Не удается прочесть сегмент записи о файле 6F0B76.
Не удается прочесть сегмент записи о файле 6F0B77.


Не получается даже собрать информацию о файлах

Сочувствую, это реально неприятно. Я как раз из-за частых проблем именно с Seagate перестал использовать их диски много лет назад, все диски кроме одного - WD, работают довольно долго. Самый старый с 2009. Таких у меня три, сдох только один вместе с внешним китайским боксом после 6 лет работы, остальные работают до сих пор внутри домашнего сервера. Один из них - с узлом.

Как уже советовали - сначала скопировать данные на новый диск, потом попробовать запускать chkdsk несколько раз, возможно ему удастся исправить что-то.
После этого скопировать пропущенное, только не используйте /MIR! Она не только копирует файлы, но и удаляет, если они исчезли в источнике, а также обновляет скопированные, если они изменились, поэтому используйте опции /E /XC вместо /MIR.

4 Likes

К сожалению стал замечать подобные проблемы с HDD Seagate. В узлах есть и WD и Seagate. Но что то опыт использования не в пользу Seagate…Качество дисков очень низкое, к сожалению
Спасибо за подсказки по robocopy. Буду стараться максимально всё достать

@pdeline06
Я бы:

  • подключил диск к линуху (любой лайф образ пойдет)
  • проверил бы поддержку erc SCT Error Recovery Control / Хабр
  • если есть на изменение установил бы вразумительный таймаут, скажем секунд 5
  • ддшнул весь диск или нужный раздел в файл или на новый винт с игнором ошибок ввода вывода
  • потом уже, отключив падучего, делать чек диск в винде

Почему нельзя делать файловый синк:
С мильярдом 4к-2м лабсовских файлов этот синк будет идти месяц, в судорогах от дрыганьнья головами. И винт с гарантией накроется от запилов или ещё чего. Если это не софт бэды конечно

Если речь про десктопный сигейт, то там часто стоит таймаут минут в 20 без возможности изменения, что с проблемами деградации поверхности скорее всего сделает вытаскивание нереальным.

Если ддшить раздел будете, делайте это правильно, клонировав на таргет mbr/gpt и юзая смещения

PS Seagate это Притча во языцех конечно. Я последний шанс им давал во времена st3000dm001. 5 из 5 тогда потерял за месяц опосля окончания годовой гарантиии. Так что теперь эти ребята на 2м месте личного блэклиста, сразу после ас?са
Хотя вот конкретно эхосы многие хвалят даже среди держателей петовых ферм.

1 Like

спасибо за развернутый ответ.
Каким софтом можно снять образ раздела в файл с игнорированием ошибок?