Странное поведение ноды

drew · August 10, 2024, 11:02pm

Очень странное поведение ноды. Такое проявилось на нескольких нодах первый раз.
Появились пилы и занятое пространство пошло вниз.
Треш не растет, в логах нечего криминального нет. Раз в час попадаются варнинги но они есть на всех нодах.
Че делать? или это нормально? если нормально, то что нода делает в этот момент?

Alexey · August 11, 2024, 4:45am

Эти WARN о том, что TTL collector не сумел удалить кусочек по истечению срока действия, потому что его уже Garbage Collector собрал и отправил в trash. Такое может быть, если клиент удалил данные, у которых был срок действия, до его истечения. Так что вроде как “нормально”.

Откуда вы берёте данные для графика использования?
Если те же, что и Average Disk Space Used This Month, то это данные об использовании которые отправляют сателлиты. Только они могут их отправлять не каждый день или отправлять неполные отчёты. Вам необходимо не учитывать такие дни в расчёте среднего занятого места.

drew · August 11, 2024, 3:06pm

экспортер GitHub - anclrii/Storj-Exporter: Prometheus exporter for monitoring Storj storage nodes
Метрика storj_total_diskspace{type=“used”}

Сейчас Уже два дня лихорадит ноды. По данным ощущение, что моя нода является неким буфером, и сейчас данные переливаются кудато в другое место.

Причем входящий трафик есть. Я так понимаю, если бы его не было, граффик занятости диска падал бы вниз…

Alexey · August 12, 2024, 4:37am

Сеть работает не так. Узел не может быть буфером - они не контактируют друг с другом больше. Все действия либо от клиентов, либо от частей сателлитов (аудиторы, ремонтники, проверки online).
Поведение клиентов не предсказуемо, могут загружать данные, могут их скачивать или удалять.
Удаление реализовано отложено, чтобы не блокировать клиента. Сателлиты вычисляют Фильтр Блюма, в котором закодированы кусочки, которые узел должен иметь на специфичную дату, всё остальное узел будет перемещать в trash. Эти фильтры вычисляются с 10% погрешностью, то есть 10% удалённых кусочков может остаться. Но каждый последующий перемещает в trash и эту разницу (но, правда, опять с той же погрешностью, чтобы не удалить лишнего). Такие обнаруженные кусочки перемещаются в папку trash и затем удаляются окончательно через 7 дней.
Так что да, когда идёт множество операций, узел может иметь непрерывно 100% нагрузку на диск.

Вы не должны самостоятельно очищать trash, кусочки там могут подвергаться аудиту и могут быть запрошены на восстановление с сателлита. Это необходимо, чтобы не потерять данные клиентов из-за бага. Например, сателлит может неправильно посчитать Bloom Filter и узел переместит в корзину что-то лишнее. Если мы обнаружим баг до истечения 7 дней и запросим восстановление, то данные клиентов останутся в безопасности даже в случае нашей ошибки.

drew · August 12, 2024, 11:32am

Ок. Хорошо. А что делать с данной ситуацией? Нода работает не корректно? Почему одна нода нормально Другая с пилами?

Одно нормальная с просадкой(что-то улетело в треш), Другая с странными пилами. Размер занятого уменьшается в треше не прибавляется. Куда уходят данные

Alexey · August 13, 2024, 7:19am

Простите пожалуйста, но эти графики мне абсолютно ничего не говорят. Покажите графики на доске узла и спросите о графике, который вас интересует.

Удаляются по истечению срока годности. Клиенты могут указать, до какой даты эти данные должны храниться, после этой даты они автоматически удаляются узлами без использования сборщика мусора и корзины.