|
Mars 2006 : l'incident Redbus
Le 28/03/2006 à 11h35 : Succès du basculement
Le 28/03/2006 à 18h42 : Intervention reportée à 4h du matin
Le 28/03/2006 à 04h54 : Bilan et prévisions pour la journée de mardi
Le 28/03/2006 à 00h08 : Remise en ligne des serveurs
Le 28/03/2006 à 23h12 : Arrêt des serveurs et remplacement du disjoncteur principal
Le 27/03/2006 à 17h30 : Nouvelle coupure prévue à 20h
Le 27/03/2006 à 12h15 : Situation toujours instable
Le 26/03/2006 à 21h58 : Série de coupures électriques à Redbus
Autres articles sur l'incident
Le 29/03/2006 à 11:35 : Succès du basculement
Notre équipe technique est arrivée à Redbus à 3h45 du matin. Les tests ont débuté à 4h30. Vers 6h20, il s’est produit une courte coupure de l’éclairage mais sans arrêt machines, et à 6h40, le directeur de Redbus a annoncé que le datacenter était repassé sur courant EDF et que la situation était revenue à la normale. Des tests sont prévus pendant la journée mais il ne devrait plus y avoir de nouveaux problèmes.
Le 28/03/2006 à 18:42 : Intervention reportée à 4h du matin
Redbus vient de nous avertir que l’opération de restauration qui avait initialement été prévue ce soir va être reportée à 4 heures du matin. Notre équipe technique sera sur place pour surveiller les équipements du réseau pendant la procédure de basculement sur le courant principal. Comme nous l’avons déjà indiqué, cela ne devrait pas entraîner de coupure. Cependant, nous resterons présents sur le datacenter jusqu’au moment où nous aurons la certitude qu’il n’y a plus aucun risque.
Le 28/03/2006 à 04:54 : Bilan temporaire et prévisions pour la journée de mardi
Le redémarrage des machines s’est déroulé comme prévu et le réseau Azuria a été rétabli vers 01h27 du matin. Nous ne déplorons aucun matériel endommagé.
A l’heure actuelle, le datacenter continue à fonctionner en étant alimenté par des générateurs diesels, qui permettent, par le biais des onduleurs, de fournir un courant régulier, ce qui élimine déjà le problème des variations électriques qui se posait jusqu’ici.
Par ce biais, les UPS vont se charger pendant toute la journée de mardi, ce qui permettra de réaliser la bascule vers le disjoncteur principal, qui est enfin réparé.
En principe, cette opération ne devrait pas poser de problèmes particuliers, et il n’y a donc pas de coupure prévue pour mardi. Toutefois, compte tenu des événements récents, nous serons à nouveau sur place pour surveiller les choses de près.
Le 28/03/2006 à 00:08 : Remise en ligne des serveurs
Nous venons de recevoir la confirmation des responsables de Redbus que le nouveau disjoncteur fonctionnait normalement et que désormais, les risques de coupure étaient fortement réduits. Par conséquent, nous sommes en train de procéder à la remise en ligne de tous les équipements.
La dernière phase de la restauration électrique aura lieu demain soir (mardi 28 mars). Celle-ci présente également un risque d'interruption de la fourniture électrique, mais Redbus n'est pas en mesure de donner plus de détails pour l'instant. Nous vous tenons informés de la situation au fur et à mesure que informations seront rendues disponibles. Comme d'habitude, nous ferons de notre mieux pour limiter au maximum les préjudices.
Le 27/03/2006 à 23:12 : Arrêt des machines & remplacement du disjoncteur pincipal
Nous avons, comme prévu, procédé à l'arrêt des machines à partir de 19h30 afin de permettre à Redbus d'effectuer le remplacement du disjoncteur principal du datacenter.
Toutefois, cette phase a pris beaucoup plus de temps que prévu et ce n'est qu'à présent que l'équipe technique de Redbus nous a confirmé qu'elle touchait à sa fin.
L'étape suivante consistera à recharger les batteries des onduleurs, ce qui va prendre entre 10 à 12 heures pendant lesquelles le datacentrer continuera à fonctionner en mode dégradé, mais avec des risques de coupures nettement moindres.
Nous allons redémarrer tous les serveurs aussitôt que les responsables de Redbus nous aurons donné la confirmation définitive que la fin de la phase 1. Celle-ci devrait nous arriver avant minuit. Nous vous enverrons
un nouveau message aussitôt que les serveurs seront repartis.
Le 27/03/2006 à 17:30 : coupure confirmée pour 20h
Sauf changement de dernière minute, Redbus a confirmé la coupure de 20h. Nous allons procéder à un arrêt préventif des machines pour 19h45. La durée de la coupure n'a pas été annoncée et nous diffuserons un nouveau communiqué aussitôt que possible.
Nous allons procéder à une extinction "propre" des serveurs en les connectant à des onduleurs, afin d'assurer une remise en service aussi rapide que possible après la coupure.
Le 27/03/2006 à 12:50 : la situation toujours instable et migration en cours
Actuellement, Redbus fonctionne encore uniquement sur 3 générateurs Diesel. Ces derniers sont stables mais il n'y a plus aucune redondance : le disjoncteur principal, en effet, est hors circuit et le datacenter ne reçoit pas d'arrivée EDF. Par ailleurs, les batteries UPS ne sont pas rechargées et même si le courant était rétabli, il serait impossible de procéder au basculement sans qu'il se produise une nouvelle interruption.
Plusieurs équipes d'experts techniques sont sur place pour traiter le problème, mais Redbus annonce néanmoins qu'il se produira probablement une nouvelle coupure à 20h afin de réaliser le basculement. Si cette dernière est confirmée, et compte tenu du risque que cela présente pour les machines, nous allons procéder à l'arrêt d'un certain nombre d'entre elles. Nous vous avertirons bien sûr par avance de la situation.
Par ailleurs, compte tenu de l'incapacité dont Redbus à jusqu'à présent fait preuve à tenir ses engagements, Azuria a décidé de migrer une partie des serveurs vers un autre datacenter afin de rétablir un service réellement stable.
Le 26/03/2006 à 21:58 : série de coupures électriques à Redbus
Il s'est produit un incident dans le datacenter Redbus Interhouse, sous la forme de trois micro-coupures EDF qui ont abouti à une coupure majeure entre 10h55 à 11h54.
Notre équipe s’est immédiatement rendue sur place et dans la mesure où Rebdus n’a pas été capable de nous assurer que la stabilité électrique avait été rétablie, nous avons entrepris d’éteindre tous les serveurs sensibles afin d’éviter des dégâts matériels en cas de nouvelle interruption. Cette mesure de précaution a retardé la remise en ligne de sites, mais c’était la seule façon d’éviter le risque d’une indisponibilité à beaucoup plus long terme, ce qui s’est révélé une politique payante puisqu’il s’est effectivement produit une deuxième coupure entre 14h32 et 15h16 et une troisième entre 17h01 et 17h05.
A présent, la situation s’est stabilisée et nous avons rallumé une partie des serveurs, mais nous n’avons toujours pas de garantie qu’il ne se produira par une nouvelle coupure, car le disjoncteur principal de Redbus est endommagé et le datacenter fonctionne sur 3 groupes d’alimentation sans arrivée EDF.
Il s’était déjà produit une double coupure électrique à Rebdus le 27 février 2006, provoquant des perturbations sur tout le réseau Internet français. Cet incident était une première historique compte tenu du niveau de sécurité électrique théoriquement garanti dans un tel environnement.
Il est inutile de vous dire que nous nous excusons des préjudices que cet incident a pu vous faire subir. Nous avons toujours fait de notre mieux pour vous offrir la meilleure qualité de service et nous traduisons aujourd’hui notre engagement auprès de vous en assurant une présence sur place et en étant prêts à intervenir à tout moment.
Liens sur des articles concernant l'incident :
01Net
PCImpact
Le Monde
Journal du Net
Silicon.fr
Generation-nt
Net-actuality.org
Vnunet
Interview du D.G. de Redbus (JDNet)
retour
|