Приостановка ноды

pdeline06 · March 1, 2023, 12:36pm

Добрый день уважаемое сообщество!
Я знаю, что возможно, этот вопрос задавался 1000 раз. Извините. Я просто столкнулся с этим впервые. Хочу убедиться что нет ничего страшного

Суть вопроса:
Нода простояла без интернет чуть больше чуток. Были проблемы у оператора.
После возобновления связи, обвалились показатели ноды

До этого все показатели были 100%
Я так понимаю это не страшно? Просто подождать? Или я ошибаюсь?
PS. Раньше тоже бывали прерывания связи, но таких обвалов показателей не было

В логах появилось множество таких строк

2023-03-01T12:34:46.292+0200 INFO collector deleted expired piece {“Satellite ID”: “12L9ZFwhzVpuEKMUNUqkaTLGzwY9G24tbiigLiXpmZWKwmcNDDs”, “Piece ID”: “WVOMR3AYRYQ6TJXF4EMYTGA3SZTRS2CLDKVCHU3VCAA7Y6AYWL3Q”}

и таких

2023-03-01T12:35:02.763+0200 ERROR collector unable to delete piece {“Satellite ID”: “12L9ZFwhzVpuEKMUNUqkaTLGzwY9G24tbiigLiXpmZWKwmcNDDs”, “Piece ID”: “UYQ3E3TOYJHUSICBRIISCX7IO2GKCZUR3666BNN6HYFXNALBQMKQ”, “error”: “pieces error: context canceled; v0pieceinfodb: context canceled”, “errorVerbose”: “pieces error: context canceled; v0pieceinfodb: context canceled\n\tstorj.io/storj/storagenode/pieces.(*Store).DeleteExpired:330\n\tstorj.io/storj/storagenode/pieces.(*Store).Delete:309\n\tstorj.io/storj/storagenode/collector.(*Service).Collect:97\n\tstorj.io/storj/storagenode/collector.(*Service).Run.func1:57\n\tstorj.io/common/sync2.(*Cycle).Run:99\n\tstorj.io/storj/storagenode/collector.(*Service).Run:53\n\tstorj.io/storj/private/lifecycle.(*Group).Run.func2.1:87\n\truntime/pprof.Do:40\n\tstorj.io/storj/private/lifecycle.(*Group).Run.func2:86\n\tgolang.org/x/sync/errgroup.(*Group).Go.func1:75”}

и таких

2023-03-01T12:35:03.870+0200 ERROR collector unable to update piece info {“Satellite ID”: “12L9ZFwhzVpuEKMUNUqkaTLGzwY9G24tbiigLiXpmZWKwmcNDDs”, “Piece ID”: “7YOH7IVCZ3XE3EM2UORR4B6P5MIBCXBDBFIGDS2MDRUCAS6FKTPA”, “error”: “pieceexpirationdb: context canceled”, “errorVerbose”: “pieceexpirationdb: context canceled\n\tstorj.io/storj/storagenode/storagenodedb.(*pieceExpirationDB).DeleteFailed:99\n\tstorj.io/storj/storagenode/pieces.(*Store).DeleteFailed:563\n\tstorj.io/storj/storagenode/collector.(*Service).Collect:109\n\tstorj.io/storj/storagenode/collector.(*Service).Run.func1:57\n\tstorj.io/common/sync2.(*Cycle).Run:99\n\tstorj.io/storj/storagenode/collector.(*Service).Run:53\n\tstorj.io/storj/private/lifecycle.(*Group).Run.func2.1:87\n\truntime/pprof.Do:40\n\tstorj.io/storj/private/lifecycle.(*Group).Run.func2:86\n\tgolang.org/x/sync/errgroup.(*Group).Go.func1:75”}

и таких

2023-03-01T12:35:27.644+0200	WARN	collector	file does not exist	{Satellite ID: 12EayRS2V1kEsWESU9QMRseFhdxYxKicsiFmxrsLZHeLUtdps3S, Piece ID: BCQEM65QFJNLLR2CVJVVUA7NR4R6XZQCUL6HXDTJBAM6M6BS3THQ}
2023-03-01T12:35:27.652+0200	INFO	collector	deleted expired piece info from DB	{Satellite ID: 12EayRS2V1kEsWESU9QMRseFhdxYxKicsiFmxrsLZHeLUtdps3S, Piece ID: BCQEM65QFJNLLR2CVJVVUA7NR4R6XZQCUL6HXDTJBAM6M6BS3THQ}

Что происходит?

padso · March 1, 2023, 1:05pm

Just wait, it should resolve after a few days.

aleksandr.k · March 1, 2023, 9:35pm

да, особо переживать не стоит, главное что аудит не снизился

Igor · March 1, 2023, 10:56pm

было похожее на одном спутнике, когда остановил ноду на несколько часов для обслуживания компьютера, затем все пришло в норму

Alexey · March 2, 2023, 5:11am

Вы ошибаетесь, и это очень опасно - следующий шаг - дисквалификация. Это не связано с downtime, а связано с проваленными аудитами по неизвестной причине.
Известными являются:

“file not found”,
кусочек повреждён,
узел ответил на аудит, но не смог предоставить кусочек за 3 скачивания с 5 минут таймаутом

в этих случаях падает Audit score, в остальных - Suspension score.
Если узел не ответил на аудит - падает Online score.
Искать надо ошибки для GET_AUDIT и GET_REPAIR, остальные к аудитам не относятся.

Падение online score менее опасное - оно восстановится в течение 30 дней online.
Suspension score восстанавливается, если узел начинает проходить аудиты. Судя по очень низкому проценту - надо не ждать, а исправлять причину провала аудитов.

pdeline06 · March 2, 2023, 7:08am

Alexey, спасибо за развернутый ответ
Должен сказать что когда нода потеряла связь на ней была версия 1.72.5, а после возобновления связи она самостоятельно обновилась до 1.73.4.
Не мог ли такой “перескок” создать ошибки?

Я проверил диск chkdsk /f - всё ок, ошибок нет
Проверка ошибок GET_AUDIT.
использовал команду -
sls “GET_AUDIT” “x:.…\storagenode.log” | sls “failed” | sls -NotMatch usedserialdb
В результате выдало 2 ошибки (полный текст не выкладываю)

storagenode.log:732788:2022-10-21T05:21:37.671+0300 ERROR piecestore download failed {“Piece ID”: “JZCZBIPQWDBTHNHIZNATREYZTMIB7ZAX2BUOT6775JMCW2HD3EPA”, “Satellite ID”:

и

storagenode.log:8751187:2023-01-04T18:47:54.165+0200 ERROR piecestore download failed {“Piece ID”: “FPYX3FGTCFO2ZDTQ3Q2P6W3YAQE4NCHTYEQ2E6SKJXQGSI2M3ZNA”, “Satellite ID”:

Как видно - это старые ошибки от 21 октября и 4 января. Нового ничего нет

Проверка ошибок GET_REPAIR. Я использовал по аналогии ту же команду, только с аргументом GET_REPAIR. Можно так?

sls “GET_REPAIR” “x:.…\storagenode.log” | sls “failed” | sls -NotMatch usedserialdb

В результате выдало 3 ошибки

storagenode.log:21187542:2023-02-28T08:27:09.219+0200 ERROR piecestore download failed {“Piece ID”: “BYRCYBDPOZP6EA7GKHMMPRTB5BOS3K2RRR5BPLEZW32ANTX5YKHQ”, “Satellite ID”:

storagenode.log:21188170:2023-02-28T08:32:32.653+0200 ERROR piecestore download failed {“Piece ID”: “G2YF7TAMB6VQBKBGY6TCMVCRYNCGTCXZOGIQVRROPFXG6VBQZYFA”, “Satellite ID”:

storagenode.log:21192232:2023-02-28T08:46:29.230+0200 ERROR piecestore download failed {“Piece ID”: “UAY56OGY4DF4BR22UXEC5UKREEZHYX33HOEO5LRLPFVYMWHYRF6Q”, “Satellite ID”:

Кстати все 3 в день пропадания связи, 28 февраля

На текущий момент состояние такое:

Alexey, что еще можно проверить? Напишите пожалуйста команды

пс. Можете ли Вы “посмотреть” информацию по узлу со своей стороны?

12D7m8RzUKANQYafMqBkHcnrqkiYziH4HBPGm84Cbk7i4RG3er6

Alexey · March 2, 2023, 8:33am

Вы удалили из ошибки самое интересное - причину. Результат известен, что download failed (иначе suspension score бы не падал), нужна как раз причина (именно то, что вы удалили из ошибки).

нет. На стороне сателлита видно только репутацию, но не причину. До логов доступа нет, тем более - до логов вашего узла (они доступны только вам).

pdeline06 · March 2, 2023, 5:15pm

Исправляюсь

Вот полные ошибки 3 ошибки

storagenode.log:21187542:2023-02-28T08:27:09.219+0200 ERROR piecestore download failed {“Piece ID”: “BYRCYBDPOZP6EA7GKHMMPRTB5BOS3K2RRR5BPLEZW32ANTX5YKHQ”, “Satellite ID”:
“12L9ZFwhzVpuEKMUNUqkaTLGzwY9G24tbiigLiXpmZWKwmcNDDs”, “Action”: “GET_REPAIR”, “Offset”: 0, “Size”: 2174464, “Remote Address”: “116.203.59.22:49304”, “error”: “write tcp
192.168.140.176:28982->116.203.59.22:49304: wsasend: An established connection was aborted by the software in your host machine.”, “errorVerbose”: “write tcp
192.168.140.176:28982->116.203.59.22:49304: wsasend: An established connection was aborted by the software in your host machine.\n\tstorj.io/drpc/drpcstream.(*Stream).rawFlushLocked:356\n\tstorj.io
/drpc/drpcstream.(*Stream).MsgSend:408\n\tstorj.io/common/pb.(*drpcPiecestore_DownloadStream).Send:341\n\tstorj.io/storj/storagenode/piecestore.(*Endpoint).Download.func4:665\n\tstorj.io/common/rpc
/rpctimeout.Run.func1:22”}

storagenode.log:21188170:2023-02-28T08:32:32.653+0200 ERROR piecestore download failed {“Piece ID”: “G2YF7TAMB6VQBKBGY6TCMVCRYNCGTCXZOGIQVRROPFXG6VBQZYFA”, “Satellite ID”:
“121RTSDpyNZVcEU84Ticf2L1ntiuUimbWgfATz21tuvgk3vzoA6”, “Action”: “GET_REPAIR”, “Offset”: 0, “Size”: 181504, “Remote Address”: “94.130.111.189:54156”, “error”: “write tcp
192.168.140.176:28982->94.130.111.189:54156: wsasend: An established connection was aborted by the software in your host machine.”, “errorVerbose”: “write tcp
192.168.140.176:28982->94.130.111.189:54156: wsasend: An established connection was aborted by the software in your host machine.\n\tstorj.io/drpc/drpcstream.(*Stream).rawWriteLocked:326\n\tstorj.i
o/drpc/drpcstream.(*Stream).MsgSend:404\n\tstorj.io/common/pb.(*drpcPiecestore_DownloadStream).Send:341\n\tstorj.io/storj/storagenode/piecestore.(*Endpoint).Download.func5.1:714\n\tstorj.io/common/
rpc/rpctimeout.Run.func1:22”}

storagenode.log:21192232:2023-02-28T08:46:29.230+0200 ERROR piecestore download failed {“Piece ID”: “UAY56OGY4DF4BR22UXEC5UKREEZHYX33HOEO5LRLPFVYMWHYRF6Q”, “Satellite ID”:
“121RTSDpyNZVcEU84Ticf2L1ntiuUimbWgfATz21tuvgk3vzoA6”, “Action”: “GET_REPAIR”, “Offset”: 0, “Size”: 4864, “Remote Address”: “167.235.19.43:39616”, “error”: “use of closed network connection”,
“errorVerbose”: “use of closed network connection\n\tstorj.io/drpc/drpcstream.(*Stream).rawWriteLocked:326\n\tstorj.io/drpc/drpcstream.(*Stream).MsgSend:404\n\tstorj.io/common/pb.(*drpcPiecestore_D
ownloadStream).Send:341\n\tstorj.io/storj/storagenode/piecestore.(*Endpoint).Download.func5.1:714\n\tstorj.io/common/rpc/rpctimeout.Run.func1:22”}

Ну, насколько я вижу, здесь сетевые ошибки

ПС. Текущее состояние ноды

Alexey, что думаете в целом?

Alexey · March 3, 2023, 4:54am

Что-то на вашем ПК прибивает подключения, возможно антивирус или какой-то “защитник” на роутере (особенно характерно для ASUS, они имеют “интеллектуальные” блокировщики трафика в разных местах).
Подозрение на роутер усиливается из-за этой ошибки:

это значит, что ваш узел неспособен передать 4864 байт за 5 минут и запрашивающая сторона закрыла подключение, как мёртвое, а потом ваш узел “проснулся” и попытался отправить пакет, когда подключение уже было закрыто. Обычно такое происходит, если что-то устраивает throttling, это может быть [про]двинутый антивирус, файревол, роутер или ваш ПК (или диск) настолько перегружен, что ему некогда отправить эти 4кб.

Не исключено, что throttling может производить и сам ISP, может быть даже не намеренно (ошибки в настройке маршрутизации).

Можете попробовать использовать команду mtr 167.235.19.43 (Linux), Windows: https://xneelo.co.za/help-centre/website/how-to-run-an-mtr/

pdeline06 · March 3, 2023, 7:54pm

Хорошо, установлю MTR. Только вопрос - для каких целей и что это даёт в нашем случае? Какую “цель” трейсить и пинговать? 167.235.19.43?

Alexey · March 4, 2023, 1:36am

Это IP одного из аудиторов, судя по вашему логу. Если есть проблема с маршрутизацией, вы увидите, что пакеты теряются. И тогда можно спросить ISP исправить это, особенно если спотыкается на их сегменте.

Но сначала убедитесь, что никакой антивирус или брандмауэр в вашей сети не занимается фильтрацией трафика узла.

Ещё может быть, что ваш ПК нужно перезагрузить, если ОС обновилась и ожидает перезагрузки.

pdeline06 · March 5, 2023, 4:03pm

Исследуя тему “тротлинга” я наткнулся на интересные данные журнала работы роутера. Как раз 28 числа (и еще в последующие дни) была аномальная загрузка роутера, и его процессор был загружен на 100% в течении нескольких часов. Теперь понятно откуда взялись проблемы с закрытыми подключением и всем вытекающим из этого.
Вчера роутер был заменен. Думаю двухядерный ARM Cortex-A53 1,35 ГГц (MT7622B) не даст себя в обиду
@Alexey спасибо. Дали отличную информацию по логам ошибок

vladro · March 5, 2023, 6:05pm

простите, а нет ли ссылки на кейс, тк в нескольких местах стоят асусы

Alexey · March 6, 2023, 4:19am

К сожалению, под рукой нет ни одного ASUS, но они добавляют эти функции в нескольких местах и зависит от модели и прошивки.
Можно поискать по их документации или проверить все ожидаемые места (настройка WAN, firewall, security, и т.д.).