Заметил на нескольких нодах снижение отзывчивости в консоли на некоторых командах. Не буду утомлять расследованием но вот промежуточные выводы к которым я пришел.
Проверьте свои ноды двумя командами
# lsof | grep TCP | grep datapacket.com | wc -l
367285
# netstat -n | wc -l
1447
на проблемных нодах кол-во якобы ESTABLISHED соединений у меня доходило до 700 тысяч! При этом netstat показывал единицы тысяч
при перезапуске storagenode кол-во приходит в норму, но на каких-то нодах быстро набирается к сотням тысяч, на каких-то нет
Почему баг?
У меня не получилось отфильтровать lsof параметром -i сохраняя в выводе эти сотни тысяч якобы ESTABLISHED конектов. Это намекает на то что процесс storagenode закрывая соединение оставляет где-то у себя висеть открытый дескриптор сокета, не давая тем самым ОС освободить системный ресурс
Примерный аналог как удалить файл при том что в какой-то программе он остается открытым. В листингах перестанет отображаться, но место в ФС не освободится.
Почему провокация?
Ну например трафик на одной из нод от соленого сателита 28ТБ за этот неполный месяц при оплате с этого сателита 3$
Это явно указывает на необходимость выхода с этого сателита. Но если даже эти 3 бакса убрать то стоит и задуматься вообще об отключении сторжа.
Да, и в треше у меня более 10ТБ суммарно