Tous les systèmes sont opérationnels

Incidents antérieurs

lundi 1st août 2022

nitter.fdn.fr Instance indisponible : rate limited

L'instance nitter.fdn.fr est indisponible, elle est « rate limited » par Twitter. Aucune solution pour le moment.

L'équipe adminsys FDN.

  • Incident résolu. La cause était un défaut de configuration sur ns0.fdn.fr ayant entraînant une surcharge CPU et donc des timeout dans les requêtes DNS.

    L'équipe adminsys FDN.

  • invidious.fdn.fr 504 Gateway Time-out

    L'instance invidious.fdn.fr n'est actuellement pas disponible, nous cherchons la cause. Vous tenant informé.

    L'équipe adminsys FDN.

  • Incident résolu. La cause était un défaut de configuration sur ns0.fdn.fr ayant entraînant une surcharge CPU et donc des timeout dans les requêtes DNS.

    L'équipe adminsys FDN.

  • lundi 18th juillet 2022

    bibliogram.fdn.fr Bibliogram : erreur 502 Bad Gateway lors de consultation des profils

    Bonsoir,

    Un bug touche actuellement la visualisation des profiles, à savoir les URL du type : https://bibliogram.fdn/fr/u/. Leur consultation est donc impossible, résultant d'une erreur nginx "502 Bad Gateway". Le bug en question est consultable ici : https://todo.sr.ht/~cadence/bibliogram-issues/63 Pas de résolution prévue pour le moment. Toutes les instances sont visiblement concernées.

    Vous tenant informé.

    Bonne soirée, Votre équipe adminsys.

  • Un patch est sorti le 24/07 à 16h48. Instagram a restructuré la page web, ce qui rendait la consultation des profils impossible avec l'ancienne méthode. Une nouvellement méthode, IWeb a été mise en place, commit https://git.sr.ht/~cadence/bibliogram/commit/c2d7aca1cb9e0ebba2de3e1ef7c2327f3e118be4 pour plus d'infos. Nous avons appliqué ce patch à 1h36 le 25/07. C'est désormais fonctionnel :).

    Bonne semaine, L'équipe adminsys FDN.

  • jeudi 5th mai 2022

    80.67.169.12 Timeout des requêtes DNS TCP

    Les requêtes DNS TCP en IPv4 sur ns0.fdn.fr (80.67.169.12) finissent en timeout à cause d'un bug de la version d'unbound utilisée. L'IPv6 n'est pas impacté, ni l'UDP.

    Une tâche côté adminsys est ouverte pour mettre à jour prochainement. Le résolveur ns1.fdn.fr (80.67.169.40) n'est pas impacté.

  • Incident résolu. L'équipe adminsys.

  • La machine a été mise à jour vers Debian Bullseye, la version d'Unbound n'a donc plus le bug gênant sur TCP. La prochaine étape sera le déploiement de la nouvelle configuration logicielle (dnsdist) sur les deux résolveurs, une fois qu'on aura testé et valider l'intégration dans notre gestionnaire de configurations.

    L'équipe adminsys.

  • Quelques infos, on a pas oublié ce bug promis ;-). C'est est le moment de pousser le projet DNS Over TLS et DNS Over HTTPS qui est en phase de test sur resolver.test.fdn.fr depuis bien (trop) longtemps. Nous allons donc le déployer sur les résolveurs DNS bien connus : ns0.fdn.fr et ns1.fdn.fr. C'est en cours de finalisation et de tests afin d'intégrer le tout dans nos outils (gestion des nouvelles configurations et des nouveaux paquets notamment) avant déploiement en production.

    Vous pouvez tester le resolver de test pour vous faire un idée : DoT TCP 853 : https://resolver.test.fdn.fr/ DoH TCP 443 : https://resolver.test.fdn.fr/doh TCP/UDP 53 : 80.67.169.76

  • L'IPv6 est finalement aussi concerné depuis 18h11. Seuls l'UDP en IPv4 et IPv6 sont donc fonctionnels sur ns0.fdn.fr. Toujours RAS sur ns1.fdn.fr.

  • lundi 25th avril 2022

    Requêtes DNS en timeout

    Bonsoir,

    Nous avons constaté que de trop nombreuses requêtes DNS étaient en timeout vers resolver1. Ceci impactait l'IPv4 et l'IPv6 (80.67.169.40 et 2001:910:800::40) en TCP et UDP. Un crash dans la nuit du service a eue lieu. Après redémarrage du service, la situation semble stabilisée depuis 23h48 mais reste sous surveillance.

    Bonne soirée, Votre équipe Adminsys FDN.

  • RAS depuis une semaine. L'incident est donc clos.

  • mardi 8th mars 2022

    Coupure réseau inter-DC Parisiens

    Nous avons rencontré un incident entre les deux DC Parisiens entraînant une indisponibilité sur certains services (certains VPN, Nitter, webmail, ackbar, nsa, lns11, talk, matrix...) jusqu'à 23h58. La cause n'est pas encore identifiée.

  • Fermeture de l'incident.

  • Il s'agissait d'une coupure réseau entre le commutateur FDN et celui de Gitoyen. L'interface d'interconnexion a coupé quelques minutes.

  • samedi 16th octobre 2021

    problème sur l'infra de virtu

    le stockage de l'infra de virtu a visiblement des problèmes et beaucoup de services sont impactés.

    Les services critiques (ADSL, VPN) devraient fonctionner mais nous n'avons plus de mail pour remonter les incidents ni de serveur matrix, vous pouvez venir dire bonjour sur irc (irc.geeknode.org chan #fdn) en attendant

  • La plateforme est stabilisée et évoluera d'ici quelques mois.

  • Incident résolu.

  • à priori tous les services visibles sont remontés OK Si vous constatez des problèmes n'hésitez pas à remonter!

  • les instabilités ont été résolues dans la matinée et les services sont doucement en train de remonter en évitant d'utiliser glusterfs en attendant de comprendre le problème