Cloudflare fait amende honorable

Le fournisseur de services Cloud et de cyber sécurité s’est engagé à apporter plusieurs changements clés afin d’éviter de perturber à nouveau une grande partie d’Internet lors des dernières semaines.

Un incident important est provenu d’une mauvaise configuration, un bug dans la logique de génération de leur fichier de gestion des bots. Une partie du problème provient de la différence entre la manière dont Cloudflare déploie différents types de mises à jour. Par exemple, lorsque l’entreprise publie des mises à jour de version logicielle, elle le fait de manière contrôlée et surveillée. Pour chaque nouvelle version binaire, le déploiement doit franchir avec succès plusieurs étapes avant de pouvoir servir le trafic mondial (par exemple, déploiement d’abord sur le trafic interne, puis déploiement progressif). Cloudflare n’applique pas la même méthodologie aux changements de configuration, qui sont déployés instantanément.

Désormais tout changement sera appliqué de la façon dont est servi le trafic sur le réseau avec le même niveau de prudence testée appliqués aux changements logiciels eux-mêmes. Ces changements ont été formalisés dans un plan du nom de Code Orange : Fall Small.

Celui-ci développe différents axes :

  • Exiger des déploiements contrôlés pour tout changement de configuration propagé sur le réseau pour les versions logicielles.
  • Revoir, améliorer et tester les modes de défaillance de tous les systèmes gérant le trafic réseau afin de garantir qu’ils présentent un comportement bien défini dans toutes les conditions, y compris en cas d’erreurs inattendues
  • Modifier les procédures internes d’« urgence » et supprimer toute dépendance circulaire afin que Cloudflare ou ses clients puissent agir rapidement et accéder à tous les systèmes sans problème lors d’un incident.

D’ici la fin du premier trimestre 2026, Cloudflare prévoit d’être en mesure de garantir que tous les systèmes de production sont couverts pour la gestion des configurations. L’entreprise aura également mis à jour ses systèmes, d’ici la même échéance, pour qu’ils respectent les modes de défaillance appropriés à chaque gamme de produits et pour s’assurer que les bons processus sont en place, afin que les bonnes personnes aient le bon accès pour assurer une remédiation adéquate en cas d’urgence.

Nos derniers livres blancs