Problème
Vous disposez d'un appareil qui collecte parfois les données attendues, mais il existe des écarts incohérents dans les graphiques.
Cela se produit généralement lorsqu'un périphérique ne peut pas répondre de manière fiable aux requests SNMP dans le délai d'expiration, car le réseau entre le conteneur ktranslate
et le périphérique interrogé subit une contention de bande passante, perd des paquets ou présente une latence élevée.
Un autre scénario pourrait être que l’appareil est surchargé et ne peut pas répondre rapidement aux requests SNMP. Cela se produit généralement lorsque vous essayez de collecter des OID à partir de très grandes tables avec un poll_time_sec
trop rapide pour que l'appareil puisse suivre.
Solution
En règle générale, placez votre conteneur d'interrogation aussi près que possible des périphériques de monitoring afin de réduire le risque qu'une charge UDP SNMP ne parvienne pas à effectuer le trajet.
Dans les cas où vous devez interroger des liaisons WAN avec plus de latence, vous devrez peut-être modifier le fichier snmp-base.yaml
pour augmenter le timeout_ms
de la valeur par défaut de 5 000 ms à un intervalle plus long.
Si vous pensez que votre connexion au site distant n'est pas fiable, envisagez d'augmenter la valeur par défaut de retries
. Un nombre élevé de tentatives, mais un délai d'attente trop court, n'améliorera probablement pas votre situation et peut potentiellement augmenter les charges sur le périphérique de monitoring car il essaie de répondre à davantage requests et aucune d'entre elles ne revient avant l'expiration du délai d'attente.
Si vous interrogez de grandes tables de données à partir de périphériques, tels qu'un équilibreur de charge occupé, le périphérique de monitoring peut prendre un certain temps supplémentaire pour collecter les données requises pour la réponse. Cela peut nécessiter de définir une période timeout_ms
plus longue et un délai plus long pour poll_time_sec
.