PCA PRA Des technologies au secours de l’entreprise

Pictogramme Hyperdisponibilité PCA PRA

 

Comment améliorer les ressources face aux exigences du PCA ?

Comment réduire la complexité et le coût d’un PRA ?

C’est par le choix des technologies que l’on pourra atteindre la meilleure optimisation du PCA / PRA.

 

La résilience optimale d’un data center

Elle peut être obtenue en mariant trois approches déjà largement adoptées par le marché :

  • Le serveur lame :

Il permet de réduire le nombre d’occurrences de panne des éléments communs à tous les serveurs en les mutualisant.

Le châssis serveur lame va donc prendre en charge, avec redondance, les missions :

  • d’alimentation électrique,
  • des ventilateurs,
  • de l’accès au réseau,
  • de l’accès au SAN
  • La mutualisation de serveurs avec un hyperviseur :

Cette approche permet de réduire les investissements matériels. Plus important : certaines fonctions de l’hyperviseur vont permettre d’assurer le fonctionnement de toutes les machines virtuelles même en cas de perte de l’une d’entre elles.

 

  • La mutualisation des volumes disques avec le SAN :

Elle permet de mettre en œuvre une protection de disque de haut niveau. Le contrôleur disque disposera de deux canisters distincts (en actif actif) avec chacun de 2 à 4 liens possibles vers les serveurs.

Les alimentations électriques seront redondées.

Les principes de protection disque seront pratiquement tous disponibles au choix de l’entreprise (stratégies RAID – 1, 5, 6, 10).

 

 

Apport de l’arithmétique :

 

apport arithmétique

Sur un serveur lame contenant 3 serveurs, le nombre d’alimentations électriques est réduit de moitié voire de 2/3 en fonction de la stratégie de protection. Alors, le taux de panne diminue pour le même nombre de serveurs.

Cette approche sera la même pour les ventilateurs, les adaptateurs réseaux et les disques.

Soit statistiquement, 3 fois moins de pannes.

 

Exemple d’améliorations de la disponibilité apportées par les technologies :

 

Gains de la mutualisation dans un chassis serveur lame

 

Apport des différentes technologies

 

Apport des différentes technologies

 

Serveur lame et disques mutualisés

Une fois ce triptyque réalisé, le data center pourra être schématisé de la manière suivante :

 

serveur lame disques mutualisés

 

serveur lame

 

Le PCA se résume alors à sa plus simple expression :

c’est la solution matérielle qui prend intégralement en compte les missions de protection contre les pannes.
Cette approche permet d’équiper les entreprises qui requièrent un haut niveau de résilience du data center ; hors considération du PRA.

 

En général, l’architecture classique d’un PRA est la suivante :

 

PRA architecture classique ou croisée

 

Le mode croisé étant le plus optimisé. Il est basé sur une approche de convergence et de SAN.

En hyperconvergence, avec ou sans SDD, ce schéma est modifié. Il prend alors en compte la répartition des volumes et des VMs au niveau des serveurs.

Les principes de réplication et de bascule étant plus complexes, nous ne les schématisons pas dans ce billet.

 

Nous avons bâti une architecture fonctionnelle qui permet de mettre en œuvre à la fois un PCA de haut niveau et un PRA instantané tout en respectant les contraintes budgétaires de l’entreprise.

Ce schéma permet de mettre en avant les principes que nous proposons de mettre en œuvre au mieux et en fonction du budget.

 

Budget d’un PRA en rapport avec les objectifs à atteindre

 

Comme nous l’avons vu précédemment, aujourd’hui un redémarrage du data center peut être réalisé selon les objectifs d’entreprise de plusieurs manières :

 

Organisation PRA

 

C’est par l’organisation des ressources du data center et par la recherche d’une architecture fonctionnelle la mieux adaptée à l’entreprise et aux objectifs de RTO / RPO que le budget du PCA / PRA sera optimisé.

 

 

Architecture fonctionnelle optimisée pour un PCA / PRA

 

cluster VM et disques

 

PCA

  • Si un ESX tombe en panne, l’hyperviseur se charge de transférer les VM de celui-ci vers les autres ESX, qu’ils soient dans la même salle ou non.
  • Une baie de disques tombe en panne. L’écriture auxiliaire passe instantanément en primaire.

 

PRA

  • Si la salle 1 cesse de fonctionner ou n’est plus accessible via le réseau, alors la salle 2 prend en charge la totalité des activités.

 

Au cas où une seconde salle n’aurait pas encore été créée, les investissements minimums à réaliser sont les suivants :

  • Un boitier (de chaque côté) permettant de gérer les disques existants de l’entreprise et prenant en charge les fonctionnalités nécessaires à la gestion des différents scénarii (panne de serveur, panne de disque, perte totale d’une des deux salles et retour à la normale),
  • Le switch FC s’il n’était pas déjà présent dans le cœur de réseau,
  • Un lien entre les deux salles : en fonction de la distance, la mise en œuvre de ce lien sera plus ou moins compliquée :
    • Dans le même bâtiment = PCA sur deux salles,
    • Dans deux bâtiments différents implantés sur le même site,
    • Dans deux salles séparées géographiquement dans la même agglomération,
    • Dans deux salles séparées géographiquement par plusieurs dizaines de kilomètres et deux agglomérations différentes = PRA
  • Les prestations de mise en œuvre de la solution.

 

Sur le même sujet, découvrez sur nos blogs :

Le data center face aux risques

PCA / PRA Quelques réflexions

PCA / PRA Organisation

PCA / PRA Optimiser les solutions et les investissements

L’hyperdisponibilité

Hyperdisponibilité une solution testée et éprouvée

Hyperdisponibilité : exemples de fonctionnement

Hyperdisponibilité : exemples de transformation

PCA / PRA Organisation

Pictogramme Hyperdisponibilité PCA PRA

 

En phase d’élaboration d’un PCA / PRA, l’organisation des ressources du data center est une des approches qui va permettre de définir les processus à mettre en œuvre en cas de panne ou de sinistre.

Dans la perspective de mise en place d’un PCA / PRA, deux objectifs doivent être définis par la direction générale de l’entreprise :

  • RTO : la durée maximale d’interruption admissible ou temps maximal pour reprendre l’activité
  • RPO : la perte de données maximale acceptable (ou delta de temps entre la perte maximale de données tolérée lors du sinistre et au moment de reprise de l’activité, point de redémarrage)

 

RPO RTO

 

Le PCA

La continuité de service du data center en cas de panne permet de s’assurer de la poursuite de l’activité de l’entreprise.

 

Comment peut-on assurer un niveau élevé de continuité de service d’un data center ?

S’appuyer sur ses ressources prévues pour un PRA n’est pas toujours la bonne solution.

 

Quels sont les paramètres qui vont permettre d’augmenter la résilience d’un data center ?

  • Les défaillances d’alimentation électrique représentent la majeure partie des pannes.
  • Les autres pannes dans un serveur se répartissent entre la mémoire (en 2ème) et les cartes adaptateurs de connexion réseau et SAN.
  • Les défauts de processeur et de carte mère représentent un niveau très faible de pannes.

La solution idéale consiste à prévoir la redondance des éléments les plus fréquemment soumis aux pannes. Il est conseillé de compléter cette solution par un contrat de maintenance dont le niveau de service peut être adapté au profil de l’entreprise (temps de prise en charge, temps d’intervention, etc.).

Aujourd’hui, les pannes ne se cantonnent plus aux simples ressources matérielles. Il faut désormais considérer les OS et les hyperviseurs. En ce qui les concerne, un abonnement au support des constructeurs et éditeurs est essentiel.

En assurant régulièrement un bon niveau de maintenance de tous ses composants (mise à jour des micro-codes, mise à jour des versions les plus récentes des OS et hyperviseurs, etc.), la disponibilité du data center sera naturellement à son niveau le plus élevé.

Toutefois, cela ne garantit aucunement une continuité permanente du service. Pour assurer la continuité de service, il va falloir investir plus.

 

Comment optimiser ces investissements ?

En premier lieu, il faut s’assurer que les objectifs fixés soient atteignables.

Habituellement, on se fixe pour objectif de respecter un niveau de perte de données proche de 0 soit un RPO = 0.

Le temps de reprise de l’activité de l’entreprise est variable. Il dépend de la gravité de la panne.

Un SAN sur lequel sont gérées toutes les données de l’entreprise, doit permettre d’optimiser la résilience de l’ensemble de la chaîne en mutualisant les disques et en offrant un niveau de protection des données plus élevé qu’une répartition des disques dans les serveurs.

Les principes arithmétiques peuvent également voler au secours de l’entreprise. En effet les taux de panne étant constants pour les mêmes éléments, il n’est pas judicieux de multiplier la quantité d’éléments identiques.

La bonne stratégie consiste donc (comme en SAN) à mutualiser ce qui peut l’être :

  • alimentation électrique,
  • ventilateur,
  • accès au réseau,

C’est à ce niveau que les technologies peuvent venir au secours du PCA.

 

Le PRA

La reprise d’activité après un sinistre reste un sujet plus difficile à cerner. Pour en juger, il suffit de noter sur le marché le nombre important de solutions pour traiter ce sujet.

Du redémarrage à froid (sur du matériel dédié au secours) à la solution dans le Cloud, les solutions sont multiples.

 

Quelles solutions seraient les mieux adaptées à votre entreprise ? Comment faire un choix ?

En ce qui concerne le PCA, l’atteinte des objectifs dépend des contrats de maintenance, des principes de redondance et de mutualisation de certains dispositifs.

Au niveau du PRA, l’architecture de la solution doit être le premier élément pris en considération.

 

Redémarrage à froid ou à chaud

 

 

 

Et si une seule solution permettait de répondre aux deux objectifs :

  • se protéger des pannes,

  • reprendre l’activité après un sinistre avec un RPO et un RTO = 0 ?

 

La mise en œuvre d’une telle solution dépend des ressources dont l’entreprise a besoin.

Pour y parvenir, l’architecture serait la suivante :

Data center VM et data

 

 

En ne voyant dans cette architecture qu’une seule exploitation, et grâce à l’apport de certaines fonctionnalités des hyperviseurs et du SAN, il est possible d’atteindre un RTO et un RPO = 0. Cette méthode est efficace pour faire face à des pannes comme à des sinistres.

Bien sûr, il faut prendre en compte les paramètres de faisabilité :

  • type de lien entre les deux sites,
  • distance entre les deux sites
  • ressources réparties et mode de fonctionnement en PRA

Tout comme pour le PCA, les technologies du marché peuvent également venir au secours du PRA.

 

Lexique

PCA : Dans nos articles nous entendons par PCA, plan de continuité d’activité ne s’appliquant qu’au service informatique. Le PCA protège des pannes.

PRA : Dans nos articles nous entendons par PRA, plan de reprise d’activité (Disaster Recovery en anglais) ne s’appliquant qu’au service informatique informatique. Le PRA permet la reprise d’activité après un sinistre (feu, inondation, etc.).

RTO : Recovery Time Objective, durée maximale d’interruption admissible

RPO : Recovery Point Objective, perte de données maximale acceptable

 

Sur le même sujet, découvrez sur nos blogs :

Le data center face aux risques

PCA / PRA Quelques réflexions

PCA / PRA Optimiser les solutions et les investissements

Des technologies au secours de l’entreprise

L’hyperdisponibilité

Hyperdisponibilité une solution testée et éprouvée

Hyperdisponiblité : exemples de fonctionnement

Hyperdisponiblité : exemples de transformation