Hyperdisponibilité : exemples de transformation

Pictogramme Hyperdisponibilité PCA PRA

 

Exemples de transformation

 

PRA transformation

 

Un grand nombre d’entreprises ont déjà abordé le sujet du PRA ; parfois depuis bien longtemps. Les solutions mises en place le plus souvent reposent sur une approche simple : une data center de production protégé par un data center de secours.

 

 

Hyperdisponibilité changer la donne principes

 

Avec l’HYPERDISPONIBILITÉ l’organisation des ressources change. Et, l’ensemble de celles-ci seront vues comme s’il n’y avait qu’une seule exploitation, qu’une seule administration d’un seul data Center.

Nous vous proposons d’étudier un exemple de transformation d’un Data Center unique, dans une PME, effectuée au moment du renouvellement du matériel.

 

 

Hyperdisponibilité transformer l'existant

 

L’existant est représenté ici par trois ESX avec une baie de disques et une solution de sauvegarde.

Jusqu’à maintenant, l’entreprise ne pouvait pas envisager de mettre en œuvre un PRA qui aurait représenté un investissement équivalent au Data Center de production.

Avec l’HYPERDISPONIBILITÉ, nous pouvons proposer un budget qui comprendrait la mise en œuvre d’une solution de PCA/PRA sur deux salles avec un minimum d’investissement.

 

 

Hyperdisponibilité les moyens

 

Dans la solution qui nous intéresse, les deux salles seront sur le même site géographique de l’entreprise, à une distance inférieure à 100 mètres.

La diminution du nombre de serveurs est rendue possible par une très faible consommation de CPU des ESX et un nombre réduit de machines virtuelles, environ une soixantaine.

Les processeurs de dernière génération vont permettre d’apporter plus de puissance sur deux ESX qu’avec la solution actuelle.

Le prix de la mémoire permet aussi de prévoir une grande capacité mémoire par serveur afin de s’assurer qu’un serveur seul pourra prendre en charge 100% des VMs.

Les liens entre les deux salles seront en 10 Gigabits Ethernet et en 16 Gigabits FC.

 

 

Hyperdisponibilité réorganisation

 

Supprimer un ESX = les processeurs retenus pour la nouvelle configuration doivent au total (pour deux serveurs Bi pro) dégager plus de performance que la somme des processeurs des trois ESX existants.

La capacité mémoire de chaque ESX doit permettre l’exploitation de 100% des VMs.

 

 

Hyperdisponibilité réorganisation

 

Par exemple, s’il y avait eu 3 ESX de chaque côté, dans un seul cluster. En cas de panne d’un des ESX, le vCenter et DRS auraient pris le relais pour répartir les VMs qui étaient hébergées sur cette ESX et les répartir en fonction de la charge, sur un ou plusieurs ESX dans la même salle ou sur les deux salles.

La fonction Hyperswap aurait quant à elle géré les modifications de liens.

 

 

Hyperdisponibilité mise en cluster

 

La mise en cluster des deux ESX et la mise en cluster des deux SAN vont permettre d’utiliser la fonctionnalité de la baie Storwize : l’Hyperswap.

La solution d’HYPERDISPONIBILITÉ peut alors être installée et paramétrée.

Le fonctionnement de l’HYPERDISPONIBILITÉ est simple :

Grâce aux liens entre les deux salles, les écritures sur les disques sont opérées de manière simultanée sur les DEUX salles. L’une est réalisée en primaire, la seconde en auxiliaire.

Les caches sont flashés afin d’assurer une situation identique de manière synchrone sur les deux baies de disques.

Ensuite, les fonctionnalités de VMWARE et de la fonction HYPERSWAP des baies Storwize vont permettre de gérer les différentes situations pour atteindre un RPO = 0 et un RTO = 0.

 

 

Hyperdisponibilité conclusions

 

 

Sur le même sujet, découvrez sur nos blogs :

Le data center face aux risques

PCA / PRA Quelques réflexions

PCA / PRA Organisation

PCA / PRA Optimiser les solutions et les investissements

Des technologies au secours de l’entreprise

L’hyperdisponibilité

Hyperdisponibilité une solution testée et éprouvée

Hyperdisponibilité : exemples de fonctionnement

Hyperdisponibilité : exemples de fonctionnement

Pictogramme Hyperdisponibilité PCA PRA

 

Exemples de fonctionnement de l’hyperdisponibilité

 

Hyperdisponibilité Fonctionnement exploitation croisée

 

L’exemple pris, d’une exploitation croisée, repose sur deux ESX seulement. L’objectif est double : mettre en évidence à la fois la capacité de cette solution à s’adapter à toutes tailles d’entreprise mais aussi d’aller assez finement dans le fonctionnement de l’HYPERDISPONIBILITÉ.

Le fonctionnement de l’HYPERDISPONIBILITÉ est simple :

Grâce aux liens entre les deux salles, les écritures sur les disques sont opérées de manière simultanée sur les DEUX salles. L’une est réalisée en primaire, la seconde en auxiliaire.

Les caches sont flashés afin d’assurer une situation identique de manière synchrone sur les deux baies de disques.

Ensuite, les fonctionnalités de VMWARE et de la fonction HYPERSWAP des baies de stockage Storwize vont permettre de gérer les différentes situations de panne ou de perte de ressources suite à un sinistre pour atteindre un RPO = 0 et un RTO = 0.

 

 

Hyperdisponibilité Fonctionnement exploitation croisée

 

 

La panne sur un des deux serveurs va enclencher une série de réactions de la part du vCenter et du SAN de la salle 2.

 

 

Hyperdisponibilité Fonctionnement exploitation croisée

 

 

L’ESX de la salle 1 tombe en panne. Les liens entre le SAN de la salle 1 et l’ESX de la salle 1 sont coupés. Les liens entre l’ESX 2 de la salle 2 et le SAN de la salle 1 restent actifs.

Le vCenter réagit et déplace les VMs de la salle 1 vers l’ESX de la salle 2. Les liens entre les VMs déplacées et les SAN sont les mêmes que ceux de l’ESX 2.

100% de la charge de travail sont pris en charge par l’ESX de la salle 2.

Aucune intervention humaine n’a été nécessaire.

Les utilisateurs qui travaillaient sur une application hébergée sur l’ESX 1 ont pu subir un très court temps de blocage de l’exploitation (inférieur à une minute), si l’application hébergée sur l’ESX 1 n’était pas exploitée en fault tolérance. La mise en oeuvre de la fonction fault tolérance de VMware pour une VM permet d’assurer un RTO = 0 pour cette VM seulement.

 

 

Hyperdisponibilité Fonctionnement exploitation croisée

 

La panne sur l’ESX de la salle 1 a été solutionnée par le service de maintenance du constructeur. Il est remis en fonction. La fonction HYPERSWAP de la baie de disques de la salle 2 détecte de nouveau le serveur de la salle 1.

Le vCenter retrouvant l’ESX 1, grâce à la fonction DRS de VMWARE, rebascule les VMs attribuées à la salle 1. En même temps, l’HYPERSWAP redéfinit les liens des VMs basculées vers la salle 1.

Le retour à la normale se fait sans intervention humaine.

 

 

Hyperdisponibilité Fonctionnement exploitation croisée

 

La baie de disques de la salle 1 devient indisponible suite à une panne bloquante. Toutefois, l’ESX 1 reste opérationnel.

 

 

Hyperdisponibilité Fonctionnement

 

Le lien primaire est perdu mais l’exploitation continue grâce au lien auxiliaire du SAN de la salle 2.

Le lien auxiliaire est passé primaire. L’hyperswap crée un lien auxiliaire sur le SAN de la salle 2.

Il n’y a eu aucune interruption perçue par les utilisateurs.

Il n’y a eu aucune intervention humaine.

 

 

 

Hyperdisponibilité Fonctionnement

 

Lorsque la baie de disques de la Salle 1 est remise en fonction, l’HYPERSWAP la détecte et lance un processus de réplication vers le SAN de la salle 1 afin de la mettre à niveau.

Un fois ce processus terminé, les liens primaire/auxiliaire sont rétablis afin d’assurer le retour à la normale.

Aucune intervention humaine n’est nécessaire.

 

 

Sur le même sujet, découvrez sur nos blogs :

Le data center face aux risques

PCA / PRA Quelques réflexions

PCA / PRA Organisation

PCA / PRA Optimiser les solutions et les investissements

PCA / PRA  Des technologies au service de l’entreprise

L’hyperdisponibilité

Hyperdisponibilité une solution testée et éprouvée

Hyperdisponiblité : exemples de transformation

PCA PRA Des technologies au secours de l’entreprise

Pictogramme Hyperdisponibilité PCA PRA

 

Comment améliorer les ressources face aux exigences du PCA ?

Comment réduire la complexité et le coût d’un PRA ?

C’est par le choix des technologies que l’on pourra atteindre la meilleure optimisation du PCA / PRA.

 

La résilience optimale d’un data center

Elle peut être obtenue en mariant trois approches déjà largement adoptées par le marché :

  • Le serveur lame :

Il permet de réduire le nombre d’occurrences de panne des éléments communs à tous les serveurs en les mutualisant.

Le châssis serveur lame va donc prendre en charge, avec redondance, les missions :

  • d’alimentation électrique,
  • des ventilateurs,
  • de l’accès au réseau,
  • de l’accès au SAN
  • La mutualisation de serveurs avec un hyperviseur :

Cette approche permet de réduire les investissements matériels. Plus important : certaines fonctions de l’hyperviseur vont permettre d’assurer le fonctionnement de toutes les machines virtuelles même en cas de perte de l’une d’entre elles.

 

  • La mutualisation des volumes disques avec le SAN :

Elle permet de mettre en œuvre une protection de disque de haut niveau. Le contrôleur disque disposera de deux canisters distincts (en actif actif) avec chacun de 2 à 4 liens possibles vers les serveurs.

Les alimentations électriques seront redondées.

Les principes de protection disque seront pratiquement tous disponibles au choix de l’entreprise (stratégies RAID – 1, 5, 6, 10).

 

 

Apport de l’arithmétique :

 

apport arithmétique

Sur un serveur lame contenant 3 serveurs, le nombre d’alimentations électriques est réduit de moitié voire de 2/3 en fonction de la stratégie de protection. Alors, le taux de panne diminue pour le même nombre de serveurs.

Cette approche sera la même pour les ventilateurs, les adaptateurs réseaux et les disques.

Soit statistiquement, 3 fois moins de pannes.

 

Exemple d’améliorations de la disponibilité apportées par les technologies :

 

Gains de la mutualisation dans un chassis serveur lame

 

Apport des différentes technologies

 

Apport des différentes technologies

 

Serveur lame et disques mutualisés

Une fois ce triptyque réalisé, le data center pourra être schématisé de la manière suivante :

 

serveur lame disques mutualisés

 

serveur lame

 

Le PCA se résume alors à sa plus simple expression :

c’est la solution matérielle qui prend intégralement en compte les missions de protection contre les pannes.
Cette approche permet d’équiper les entreprises qui requièrent un haut niveau de résilience du data center ; hors considération du PRA.

 

En général, l’architecture classique d’un PRA est la suivante :

 

PRA architecture classique ou croisée

 

Le mode croisé étant le plus optimisé. Il est basé sur une approche de convergence et de SAN.

En hyperconvergence, avec ou sans SDD, ce schéma est modifié. Il prend alors en compte la répartition des volumes et des VMs au niveau des serveurs.

Les principes de réplication et de bascule étant plus complexes, nous ne les schématisons pas dans ce billet.

 

Nous avons bâti une architecture fonctionnelle qui permet de mettre en œuvre à la fois un PCA de haut niveau et un PRA instantané tout en respectant les contraintes budgétaires de l’entreprise.

Ce schéma permet de mettre en avant les principes que nous proposons de mettre en œuvre au mieux et en fonction du budget.

 

Budget d’un PRA en rapport avec les objectifs à atteindre

 

Comme nous l’avons vu précédemment, aujourd’hui un redémarrage du data center peut être réalisé selon les objectifs d’entreprise de plusieurs manières :

 

Organisation PRA

 

C’est par l’organisation des ressources du data center et par la recherche d’une architecture fonctionnelle la mieux adaptée à l’entreprise et aux objectifs de RTO / RPO que le budget du PCA / PRA sera optimisé.

 

 

Architecture fonctionnelle optimisée pour un PCA / PRA

 

cluster VM et disques

 

PCA

  • Si un ESX tombe en panne, l’hyperviseur se charge de transférer les VM de celui-ci vers les autres ESX, qu’ils soient dans la même salle ou non.
  • Une baie de disques tombe en panne. L’écriture auxiliaire passe instantanément en primaire.

 

PRA

  • Si la salle 1 cesse de fonctionner ou n’est plus accessible via le réseau, alors la salle 2 prend en charge la totalité des activités.

 

Au cas où une seconde salle n’aurait pas encore été créée, les investissements minimums à réaliser sont les suivants :

  • Un boitier (de chaque côté) permettant de gérer les disques existants de l’entreprise et prenant en charge les fonctionnalités nécessaires à la gestion des différents scénarii (panne de serveur, panne de disque, perte totale d’une des deux salles et retour à la normale),
  • Le switch FC s’il n’était pas déjà présent dans le cœur de réseau,
  • Un lien entre les deux salles : en fonction de la distance, la mise en œuvre de ce lien sera plus ou moins compliquée :
    • Dans le même bâtiment = PCA sur deux salles,
    • Dans deux bâtiments différents implantés sur le même site,
    • Dans deux salles séparées géographiquement dans la même agglomération,
    • Dans deux salles séparées géographiquement par plusieurs dizaines de kilomètres et deux agglomérations différentes = PRA
  • Les prestations de mise en œuvre de la solution.

 

Sur le même sujet, découvrez sur nos blogs :

Le data center face aux risques

PCA / PRA Quelques réflexions

PCA / PRA Organisation

PCA / PRA Optimiser les solutions et les investissements

L’hyperdisponibilité

Hyperdisponibilité une solution testée et éprouvée

Hyperdisponibilité : exemples de fonctionnement

Hyperdisponibilité : exemples de transformation

PCA / PRA Organisation

Pictogramme Hyperdisponibilité PCA PRA

 

En phase d’élaboration d’un PCA / PRA, l’organisation des ressources du data center est une des approches qui va permettre de définir les processus à mettre en œuvre en cas de panne ou de sinistre.

Dans la perspective de mise en place d’un PCA / PRA, deux objectifs doivent être définis par la direction générale de l’entreprise :

  • RTO : la durée maximale d’interruption admissible ou temps maximal pour reprendre l’activité
  • RPO : la perte de données maximale acceptable (ou delta de temps entre la perte maximale de données tolérée lors du sinistre et au moment de reprise de l’activité, point de redémarrage)

 

RPO RTO

 

Le PCA

La continuité de service du data center en cas de panne permet de s’assurer de la poursuite de l’activité de l’entreprise.

 

Comment peut-on assurer un niveau élevé de continuité de service d’un data center ?

S’appuyer sur ses ressources prévues pour un PRA n’est pas toujours la bonne solution.

 

Quels sont les paramètres qui vont permettre d’augmenter la résilience d’un data center ?

  • Les défaillances d’alimentation électrique représentent la majeure partie des pannes.
  • Les autres pannes dans un serveur se répartissent entre la mémoire (en 2ème) et les cartes adaptateurs de connexion réseau et SAN.
  • Les défauts de processeur et de carte mère représentent un niveau très faible de pannes.

La solution idéale consiste à prévoir la redondance des éléments les plus fréquemment soumis aux pannes. Il est conseillé de compléter cette solution par un contrat de maintenance dont le niveau de service peut être adapté au profil de l’entreprise (temps de prise en charge, temps d’intervention, etc.).

Aujourd’hui, les pannes ne se cantonnent plus aux simples ressources matérielles. Il faut désormais considérer les OS et les hyperviseurs. En ce qui les concerne, un abonnement au support des constructeurs et éditeurs est essentiel.

En assurant régulièrement un bon niveau de maintenance de tous ses composants (mise à jour des micro-codes, mise à jour des versions les plus récentes des OS et hyperviseurs, etc.), la disponibilité du data center sera naturellement à son niveau le plus élevé.

Toutefois, cela ne garantit aucunement une continuité permanente du service. Pour assurer la continuité de service, il va falloir investir plus.

 

Comment optimiser ces investissements ?

En premier lieu, il faut s’assurer que les objectifs fixés soient atteignables.

Habituellement, on se fixe pour objectif de respecter un niveau de perte de données proche de 0 soit un RPO = 0.

Le temps de reprise de l’activité de l’entreprise est variable. Il dépend de la gravité de la panne.

Un SAN sur lequel sont gérées toutes les données de l’entreprise, doit permettre d’optimiser la résilience de l’ensemble de la chaîne en mutualisant les disques et en offrant un niveau de protection des données plus élevé qu’une répartition des disques dans les serveurs.

Les principes arithmétiques peuvent également voler au secours de l’entreprise. En effet les taux de panne étant constants pour les mêmes éléments, il n’est pas judicieux de multiplier la quantité d’éléments identiques.

La bonne stratégie consiste donc (comme en SAN) à mutualiser ce qui peut l’être :

  • alimentation électrique,
  • ventilateur,
  • accès au réseau,

C’est à ce niveau que les technologies peuvent venir au secours du PCA.

 

Le PRA

La reprise d’activité après un sinistre reste un sujet plus difficile à cerner. Pour en juger, il suffit de noter sur le marché le nombre important de solutions pour traiter ce sujet.

Du redémarrage à froid (sur du matériel dédié au secours) à la solution dans le Cloud, les solutions sont multiples.

 

Quelles solutions seraient les mieux adaptées à votre entreprise ? Comment faire un choix ?

En ce qui concerne le PCA, l’atteinte des objectifs dépend des contrats de maintenance, des principes de redondance et de mutualisation de certains dispositifs.

Au niveau du PRA, l’architecture de la solution doit être le premier élément pris en considération.

 

Redémarrage à froid ou à chaud

 

 

 

Et si une seule solution permettait de répondre aux deux objectifs :

  • se protéger des pannes,

  • reprendre l’activité après un sinistre avec un RPO et un RTO = 0 ?

 

La mise en œuvre d’une telle solution dépend des ressources dont l’entreprise a besoin.

Pour y parvenir, l’architecture serait la suivante :

Data center VM et data

 

 

En ne voyant dans cette architecture qu’une seule exploitation, et grâce à l’apport de certaines fonctionnalités des hyperviseurs et du SAN, il est possible d’atteindre un RTO et un RPO = 0. Cette méthode est efficace pour faire face à des pannes comme à des sinistres.

Bien sûr, il faut prendre en compte les paramètres de faisabilité :

  • type de lien entre les deux sites,
  • distance entre les deux sites
  • ressources réparties et mode de fonctionnement en PRA

Tout comme pour le PCA, les technologies du marché peuvent également venir au secours du PRA.

 

Lexique

PCA : Dans nos articles nous entendons par PCA, plan de continuité d’activité ne s’appliquant qu’au service informatique. Le PCA protège des pannes.

PRA : Dans nos articles nous entendons par PRA, plan de reprise d’activité (Disaster Recovery en anglais) ne s’appliquant qu’au service informatique informatique. Le PRA permet la reprise d’activité après un sinistre (feu, inondation, etc.).

RTO : Recovery Time Objective, durée maximale d’interruption admissible

RPO : Recovery Point Objective, perte de données maximale acceptable

 

Sur le même sujet, découvrez sur nos blogs :

Le data center face aux risques

PCA / PRA Quelques réflexions

PCA / PRA Optimiser les solutions et les investissements

Des technologies au secours de l’entreprise

L’hyperdisponibilité

Hyperdisponibilité une solution testée et éprouvée

Hyperdisponiblité : exemples de fonctionnement

Hyperdisponiblité : exemples de transformation

Pour une Approche Globale de la Sécurité

 


Computer hacker with white laptop
 

Les entreprises et les organisations font actuellement face à des menaces qui, il y a quelques années passaient pour de la science-fiction ou, au mieux, étaient perçues comme ne ciblant que les « secrets défense » ou assimilés. Cette sophistication dans les attaques s’est banalisée  (Rapport de Sécurité 2015) et le hacking s’est réellement professionnalisé.

 

Peut-on continuer à utiliser les mêmes outils et peut-on toujours avoir la même approche ?

 

Il y a encore peu, une défense à base de firewall niveau IP et un anti-virus de postes était considérée comme  « suffisante » pour sécuriser la plupart des organisations.

 

Nous avons tous entendu depuis ces phrases qui avaient pour but de choquer, de la part de certains éditeurs : « L’anti-virus est mort » ainsi que le «  Firewall est mort » ! Est-ce bien vrai, pour autant ?

Non, bien entendu, mais le message derrière n’était-il pas : « Ces solutions ne sont plus  suffisantes » ?

 

Le contrôle d’accès reste un élément clé de la sécurité des systèmes d’informations avec sa philosophie qui consiste à interdire ce qui n’a pas été explicitement autorisé, mais bien entendu il faut le faire à plus haut-niveau : définir sa politique en fonction des utilisateurs, des applications mais aussi des données transférées.

Le cloisonnement  reste prépondérant, voire parfois une segmentation plus forte est nécessaire car chaque entreprise doit s’attendre à ce qu’une partie de son SI soit compromise (un poste utilisateur par exemple). Pour autant l’ensemble du système ne doit pas être menacé dans la foulée et cela sur le même principe que la sécurité physique de portes coupe-feu dans les bâtiments ou de compartimentation dans les navires ou les sous-marins.

 

La protection des menaces se focalise bien souvent sur la détection, que ce soit de manière préventive avec l’anti-virus ou l’IPS ou à posteriori avec la détection de machines infectées et pilotées de l’extérieur, les bots. Mais toutes ces solutions se peuvent détecter que ce que nous connaissons déjà, il est donc impératif d’y ajouter une solution de sandboxing capable de détecter des attaques jusqu’alors inconnues.

Une approche complémentaire de nettoyage des contenus actifs intégrés dans les documents sans chercher à détecter la partie malicieuse peut aussi être une solution extrêmement pragmatique et  efficace.

 

Comment faire dans ce cas ? Multiplier les boitiers, les logiciels et les solutions d’administrations ? 

 

Seule une approche globale permet aux sociétés de gérer cette sécurité  bien plus complexe au jour le jour, de contrôler les coûts et d’évoluer rapidement pour intégrer les protections face aux menaces de demain.

Cette approche globale doit intégrer ces différents éléments clés :

 

  • Intégration du contrôle d’accès et de la   protection des menaces
  • Les meilleures technologies mais unifiées
  • Un déploiement de ces technologies sur tous les points d’exécution du SI qui le nécessitent (réseau, poste, cloud, Smartphones etc…)
  • Une intelligence sécurité extrêmement pointue, dynamique et mondiale
  • Une administration réellement centralisée et efficace

 

Depuis sa création en 1993, Check Point se focalise à 100% sur la sécurité et applique dans sa stratégie cette vision globale et centralisée qui apparait encore plus maintenant comme une nécessité.

 

A lire également sur notre site Web : Bien protéger les données de l’entreprise