Verwirrende Online Prozentzahlen

FreeU · May 13, 2021, 6:45pm

Hallo, ich hatte ca. eine Woche eine Node auf meinem Laptop laufen.
Dieser lief dann am Wochenende und unter der Woche über Nacht (Also immer wenn ich zuhause war). In dieser Zeit waren die Suspension, Audit und Online Werte der Node immer auf konstanten 100 Prozent.

Diese wurde nun auf mein Raspberry Pi 3 übersiedelt und läuft durchgehend (Seit ca. 7 Tagen)
Nur hab ich das Problem das die Werte nach unten gehen:

Auch die Bandbreite ist sehr sehr deutlich gefallen

Ist das normal? Vielleicht weil die Node neu ist oder weil sie Anfangs am Laptop unregelmässig online war? Die Werte fallen aber erst seit ich die Node auf dem RPi3 am laufen hab.

Die Werte sind auch nicht wirklich Nachvollziehbar. ap1.storj.io:7777 ist z.B. direkt von 100% auf 0% gesprungen. europe-north-1.tardigrade.io:7777 war gestern schon auf 60%.

Die letzten Fehler in den Logs:

2021-05-13T15:38:02.761Z ERROR nodestats:cache Get stats query failed {"error": "node stats service error: unable to connect to the satellite 1wFTAgs9DP5RSnCqKV1eLf6N9wtk4EAtmN5DpSxcs8EjT69tGE: rpc: context deadline exceeded", "errorVerbose": "node stats service error: unable to connect to the satellite 1wFTAgs9DP5RSnCqKV1eLf6N9wtk4EAtmN5DpSxcs8EjT69tGE: rpc: context deadline exceeded\n\tstorj.io/storj/storagenode/nodestats.(*Service).dial:155\n\tstorj.io/storj/storagenode/nodestats.(*Service).GetReputationStats:66\n\tstorj.io/storj/storagenode/nodestats.(*Cache).CacheReputationStats.func1:154\n\tstorj.io/storj/storagenode/nodestats.(*Cache).satelliteLoop:261\n\tstorj.io/storj/storagenode/nodestats.(*Cache).CacheReputationStats:153\n\tstorj.io/storj/storagenode/nodestats.(*Cache).Run.func2:120\n\tstorj.io/common/sync2.(*Cycle).Run:152\n\tstorj.io/common/sync2.(*Cycle).Start.func1:71\n\tgolang.org/x/sync/errgroup.(*Group).Go.func1:57"}

2021-05-13T12:35:07.744Z ERROR orders.12EayRS2V1kEsWESU9QMRseFhdxYxKicsiFmxrsLZHeLUtdps3S failed to settle orders for satellite {"satellite ID": "12EayRS2V1kEsWESU9QMRseFhdxYxKicsiFmxrsLZHeLUtdps3S", "error": "order: unable to connect to the satellite: rpc: context deadline exceeded", "errorVerbose": "order: unable to connect to the satellite: rpc: context deadline exceeded\n\tstorj.io/storj/storagenode/orders.(*Service).settleWindow:248\n\tstorj.io/storj/storagenode/orders.(*Service).SendOrders.func1:205\n\tgolang.org/x/sync/errgroup.(*Group).Go.func1:57"}

2021-05-13T11:34:03.225Z ERROR contact:service ping satellite failed {"Satellite ID": "12tRQrMTWUWwzwGh18i7Fqs67kmdhH9t6aToeiwbo5mfS2rUmo", "attempts": 1, "error": "ping satellite error: context canceled", "errorVerbose": "ping satellite error: context canceled\n\tstorj.io/storj/storagenode/contact.(*Service).pingSatelliteOnce:138\n\tstorj.io/storj/storagenode/contact.(*Service).pingSatellite:95\n\tstorj.io/storj/storagenode/contact.(*Chore).updateCycles.func1:87\n\tstorj.io/common/sync2.(*Cycle).Run:152\n\tstorj.io/common/sync2.(*Cycle).Start.func1:71\n\tgolang.org/x/sync/errgroup.(*Group).Go.func1:57"}

2021-05-13T07:38:15.174Z ERROR nodestats:cache Get stats query failed {"error": "node stats service error: context canceled", "errorVerbose": "node stats service error: context canceled\n\tstorj.io/storj/storagenode/nodestats.(*Service).GetReputationStats:74\n\tstorj.io/storj/storagenode/nodestats.(*Cache).CacheReputationStats.func1:154\n\tstorj.io/storj/storagenode/nodestats.(*Cache).satelliteLoop:261\n\tstorj.io/storj/storagenode/nodestats.(*Cache).CacheReputationStats:153\n\tstorj.io/storj/storagenode/nodestats.(*Cache).Run.func2:120\n\tstorj.io/common/sync2.(*Cycle).Run:152\n\tstorj.io/common/sync2.(*Cycle).Start.func1:71\n\tgolang.org/x/sync/errgroup.(*Group).Go.func1:57"}

2021-05-13T06:34:22.207Z ERROR contact:service ping satellite failed {"Satellite ID": "1wFTAgs9DP5RSnCqKV1eLf6N9wtk4EAtmN5DpSxcs8EjT69tGE", "attempts": 1, "error": "ping satellite error: rpc: context deadline exceeded", "errorVerbose": "ping satellite error: rpc: context deadline exceeded\n\tstorj.io/common/rpc.TCPConnector.DialContext:92\n\tstorj.io/common/rpc.Dialer.dialEncryptedConn:180\n\tstorj.io/common/rpc.Dialer.DialNodeURL.func1:101\n\tstorj.io/common/rpc/rpcpool.(*Pool).Get:87\n\tstorj.io/common/rpc.Dialer.dialPool:146\n\tstorj.io/common/rpc.Dialer.DialNodeURL:100\n\tstorj.io/storj/storagenode/contact.(*Service).pingSatelliteOnce:124\n\tstorj.io/storj/storagenode/contact.(*Service).pingSatellite:95\n\tstorj.io/storj/storagenode/contact.(*Chore).updateCycles.func1:87\n\tstorj.io/common/sync2.(*Cycle).Run:152\n\tstorj.io/common/sync2.(*Cycle).Start.func1:71\n\tgolang.org/x/sync/errgroup.(*Group).Go.func1:57"}

Stob · May 13, 2021, 9:04pm

Hi @FreeU
I’m not completely sure but to the best of my knowledge the error (rpc: context deadline exceeded) means your node isn’t replying quickly enough, so is effectively timing out. To the satellites this time out looks like your node is offline.

Please check resource utilisation on the node now you’ve moved it from the laptop.

Alexey · May 14, 2021, 8:16am

Hallo
Es sieht so aus, als würde etwas den Verkehr von Satelliten zu Ihrem Knoten blockieren.
Darüber hinaus kann Ihr Knoten keine abgeschlossenen Bestellungen an Satelliten senden.
Alles deutet auf ein Netzwerkproblem hin.
Überprüfen Sie Ihre Firewall - sie sollte Verbindungen von jedem zu Ihrem Knoten über TCP + UDP-Port 28967 ermöglichen. Es sollten keine ausgehenden Regeln vorhanden sein, dh ausgehender Datenverkehr sollte überhaupt nicht blockiert werden.
Stellen Sie sicher, dass Sie die Portweiterleitungsregel Ihres Routers so aktualisiert haben, dass sie auf den Pi und nicht auf Ihren Laptop verweist.

FreeU · May 14, 2021, 3:14pm

@Stob What do you mean by resource utilisation? CPU/RAM of the device? (RPi3)

@Alexey Die Portweiterleitungsregel des Routers ist richtig konfiguriert, ich habe es eben nochmal überprüft.
Die Node wird auch als Online angezeigt und hatte auch Datenübertragungen (Auch wenn diese mittlerweile auf ~2mb/Tag gefallen sind).
In den Logs sieht man auch erfolgreiche Uploads, es gibt nicht nur Fehler sondern die Fehler treten nur hin und wieder auf
Firewall ist auf dem RPi3 keine aktiv.

Aktuell ist us1.storj.io:7777 wenigstens wieder von 50% auf 66,67% gestiegen

Stob · May 14, 2021, 3:23pm

Yes, CPU/RAM/Disk i/o with max usage, possibly creating a system bottleneck.

FreeU · May 14, 2021, 3:31pm

CPU is between 10%-20% (sometime it goes up to 50% for a short time)
RAM arround 50% (around 450 MB used)
Available disk space is 17,5GB (For the system, not the node)

Its a old RPi3 (i think the B+ version) but it looks okay, right?

Stob · May 14, 2021, 3:43pm

How is the disk connected? USB to SATA? Do you have another one to test with?

Also it could be @Alexey’s suggestion of some intermittent block on the port. Are you using a no-ip type service?

FreeU · May 14, 2021, 3:50pm

Yes, its a old external drive connected over USB. No, its the only one available atm.

Yes, i use ngrok because i am behind a CGNAT

Wie hoch ist eigentlich die Gefahr das die Node Disqualifiziert wird? Ich dachte wenn man zu lange unter 60% ist wird man schnell disqualifiziert?

Stob · May 14, 2021, 4:14pm

Are you on the free ngrok tier? 40 connections per minutes is not a lot for a storage node.

If you are running under 60% online for 30 days then you’ll start to have problems.

FreeU · May 14, 2021, 5:32pm

Yes, i am on the free ngrok tier.

On the laptop it was over portmap.io and worked fine, but on the RPi3 i never got it working, i got a connection with OpenVPN but never got the node online

Alexey · May 14, 2021, 7:07pm

portmap.io perhaps would be better than ngrok.
But good news that online score is recovering

FreeU · May 18, 2021, 5:45pm

Ja, die letzten Tage sind immer ein paar Prozent dazu gekommen, so sieht es jetzt aus:

Sieht das normal aus? 1x-2x pro Tag erhöht sich ein wert.

Nur ist auch das Problem, ich bekomme seit Tagen kaum Bandbreite. Ich war am Laptop schon auf über 100MB/Tag, die letzten Tage waren es nicht mal 5MB ist das wegen der schlechten Werte? Wenn ja sollte es ja eigentlich langsam wieder steigen oder?

Wegen der 40 verbindungen in der Minute: So sieht Ngrok bei mir aus:

Die Node und Ngrok laufen jetzt über 95 Stunden. Wenn ich das richtig verstehe gab es in der zeit 734 Verbindungen. Das wäre sehr sehr weit entfernt von 40 Verbindungen die Minute

EDIT: Ich habe es nun auch geschafft die Node über portmap.io online zu bekommen. Vielleicht wird es dadurch jetzt besser

Alexey · May 18, 2021, 7:07pm

Kann sein.
Online-Score erholt sich langsam. Er sollte sich in vollen 30 Tagen erholen.
Ich mache mir ein wenig Sorgen, dass ap1 Sie noch 0% haben.
Mal sehen, was mit portmap.io passiert.
Die Version von Storagenode muss übrigens mindestens 1.29.3 sein.

FreeU · May 18, 2021, 7:38pm

Ja, bezüglich portmap.io bin ich am beobachten, aktuell gibt es keinen Fehler aber auch keine Aktivität. Die node wird aber als online angezeigt.

OH! Ich habe v1.26.3! Aber warum sagt das Dashboard “Running the minimal allowed version: v1.24.0”?

Alexey · May 18, 2021, 7:45pm

Unterhalb dieser Version wird der Knoten disqualifiziert (genauer gesagt - er startet überhaupt nicht und beschwert sich über eine zu alte Version, wenn er sich länger als einen Monat in diesem Zustand befindet - er wird disqualifiziert, weil er offline ist).
Und oberhalb dieser Version, jedoch um 2 niedriger als die aktuelle Version, funktioniert der Knoten, empfängt jedoch keinen Datenverkehr.
Aktualisieren Sie den Knoten: Software Updates - Node Operator
Richten Sie dann automatische Updates ein: Software Updates - Node Operator

FreeU · May 18, 2021, 8:05pm

Danke! Ich bin nun auf 1.29.3. Ich bekomme auch wieder Uploads soweit ich sehe.

FreeU · May 19, 2021, 7:34pm

Soweit funktioniert alles wieder, nur ap1.storj.io:7777 ist immer noch auf 0% und saltlake.tardigrade.io:7777 auf 33.33 %.

In den Logs gab es nur folgende Fehler zu finden:
2021-05-19T18:54:50.424Z WARN contact:service Your node is still considered to be online but encountered an error. {"Satellite ID": "12EayRS2V1kEsWESU9QMRseFhdxYxKicsiFmxrsLZHeLUtdps3S", "Error": "contact: failed to dial storage node (ID: 1rVwmH97PZ24kaBdj7VdT4ieaHscdENHwJ4dEkNyVQmpK3DcCQ) at address XXXXX-48XXX.portmap.io:48XXX using QUIC: rpc: quic error: Timeout: No recent network activity"}

Diesen Fehler gab es mehrmals bezogen auf unterschiedliche Satelliten (Andere Satelliten ID)

Alexey · May 19, 2021, 9:58pm

Bitte überprüfen Sie Ihre Protokolle auf Fehler im Zusammenhang mit diesem Satelliten.

Schauen Sie sich diesen Thread an: Experimenting with UDP based protocols
Ich bin nicht sicher, ob portmap.io udp unterstützt

FreeU · May 22, 2021, 10:02am

Danke, ich habe jetzt wieder zu ngrok gewechselt, die satelliten erholen sich wieder langsam, es funktioniert alles.

Mir ist auch aufgefallen dass ich bei portmap.io keine Bandbreite bei audit bekomme (Ich vermute das sind eben die Überprüfungen durch die Satelliten). Ansonsten hat portmap.io aber funktioniert.

Wegen der 40 Verbindungen/Minute bei Ngrok könnte es interessant werden.
Hatte gestern aber ca. 5,5GB Bandbreite und die Verbindungen waren bei maximal 0,1 Verbindungen pro Sekunde.
Hochgerechnet also maximal um die 6 Verbindungen pro Minute.
Und das waren nur die Höchstwerte, meist ist es um die 0,03 Verbindungen/Sekunde.

Nochmals vielen Dank für die großartige Hilfe!