PCA / PRA Organisation




  1. Pictogramme Hyperdisponibilité PCA PRA

     

    En phase d’élaboration d’un PCA / PRA, l’organisation des ressources du data center est une des approches qui va permettre de définir les processus à mettre en œuvre en cas de panne ou de sinistre.

    Dans la perspective de mise en place d’un PCA / PRA, deux objectifs doivent être définis par la direction générale de l’entreprise :

    • RTO : la durée maximale d’interruption admissible ou temps maximal pour reprendre l’activité
    • RPO : la perte de données maximale acceptable (ou delta de temps entre la perte maximale de données tolérée lors du sinistre et au moment de reprise de l’activité, point de redémarrage)

     

    RPO RTO

     

    Le PCA

    La continuité de service du data center en cas de panne permet de s’assurer de la poursuite de l’activité de l’entreprise.

     

    Comment peut-on assurer un niveau élevé de continuité de service d’un data center ?

    S’appuyer sur ses ressources prévues pour un PRA n’est pas toujours la bonne solution.

     

    Quels sont les paramètres qui vont permettre d’augmenter la résilience d’un data center ?

    • Les défaillances d’alimentation électrique représentent la majeure partie des pannes.
    • Les autres pannes dans un serveur se répartissent entre la mémoire (en 2ème) et les cartes adaptateurs de connexion réseau et SAN.
    • Les défauts de processeur et de carte mère représentent un niveau très faible de pannes.

    La solution idéale consiste à prévoir la redondance des éléments les plus fréquemment soumis aux pannes. Il est conseillé de compléter cette solution par un contrat de maintenance dont le niveau de service peut être adapté au profil de l’entreprise (temps de prise en charge, temps d’intervention, etc.).

    Aujourd’hui, les pannes ne se cantonnent plus aux simples ressources matérielles. Il faut désormais considérer les OS et les hyperviseurs. En ce qui les concerne, un abonnement au support des constructeurs et éditeurs est essentiel.

    En assurant régulièrement un bon niveau de maintenance de tous ses composants (mise à jour des micro-codes, mise à jour des versions les plus récentes des OS et hyperviseurs, etc.), la disponibilité du data center sera naturellement à son niveau le plus élevé.

    Toutefois, cela ne garantit aucunement une continuité permanente du service. Pour assurer la continuité de service, il va falloir investir plus.

     

    Comment optimiser ces investissements ?

    En premier lieu, il faut s’assurer que les objectifs fixés soient atteignables.

    Habituellement, on se fixe pour objectif de respecter un niveau de perte de données proche de 0 soit un RPO = 0.

    Le temps de reprise de l’activité de l’entreprise est variable. Il dépend de la gravité de la panne.

    Un SAN sur lequel sont gérées toutes les données de l’entreprise, doit permettre d’optimiser la résilience de l’ensemble de la chaîne en mutualisant les disques et en offrant un niveau de protection des données plus élevé qu’une répartition des disques dans les serveurs.

    Les principes arithmétiques peuvent également voler au secours de l’entreprise. En effet les taux de panne étant constants pour les mêmes éléments, il n’est pas judicieux de multiplier la quantité d’éléments identiques.

    La bonne stratégie consiste donc (comme en SAN) à mutualiser ce qui peut l’être :

    • alimentation électrique,
    • ventilateur,
    • accès au réseau,

    C’est à ce niveau que les technologies peuvent venir au secours du PCA.

     

    Le PRA

    La reprise d’activité après un sinistre reste un sujet plus difficile à cerner. Pour en juger, il suffit de noter sur le marché le nombre important de solutions pour traiter ce sujet.

    Du redémarrage à froid (sur du matériel dédié au secours) à la solution dans le Cloud, les solutions sont multiples.

     

    Quelles solutions seraient les mieux adaptées à votre entreprise ? Comment faire un choix ?

    En ce qui concerne le PCA, l’atteinte des objectifs dépend des contrats de maintenance, des principes de redondance et de mutualisation de certains dispositifs.

    Au niveau du PRA, l’architecture de la solution doit être le premier élément pris en considération.

     

    Redémarrage à froid ou à chaud

     

     

     

    Et si une seule solution permettait de répondre aux deux objectifs :

    • se protéger des pannes,

    • reprendre l’activité après un sinistre avec un RPO et un RTO = 0 ?

     

    La mise en œuvre d’une telle solution dépend des ressources dont l’entreprise a besoin.

    Pour y parvenir, l’architecture serait la suivante :

    Data center VM et data

     

     

    En ne voyant dans cette architecture qu’une seule exploitation, et grâce à l’apport de certaines fonctionnalités des hyperviseurs et du SAN, il est possible d’atteindre un RTO et un RPO = 0. Cette méthode est efficace pour faire face à des pannes comme à des sinistres.

    Bien sûr, il faut prendre en compte les paramètres de faisabilité :

    • type de lien entre les deux sites,
    • distance entre les deux sites
    • ressources réparties et mode de fonctionnement en PRA

    Tout comme pour le PCA, les technologies du marché peuvent également venir au secours du PRA.

     

    Lexique

    PCA : Dans nos articles nous entendons par PCA, plan de continuité d’activité ne s’appliquant qu’au service informatique. Le PCA protège des pannes.

    PRA : Dans nos articles nous entendons par PRA, plan de reprise d’activité (Disaster Recovery en anglais) ne s’appliquant qu’au service informatique informatique. Le PRA permet la reprise d’activité après un sinistre (feu, inondation, etc.).

    RTO : Recovery Time Objective, durée maximale d’interruption admissible

    RPO : Recovery Point Objective, perte de données maximale acceptable

     

    Sur le même sujet, découvrez sur nos blogs :

    Le data center face aux risques

    PCA / PRA Quelques réflexions

    PCA / PRA Optimiser les solutions et les investissements

    Des technologies au secours de l’entreprise

    L’hyperdisponibilité

    Hyperdisponibilité une solution testée et éprouvée

    Hyperdisponiblité : exemples de fonctionnement

    Hyperdisponiblité : exemples de transformation