Hyperdisponibilité : exemples de transformation

Pictogramme Hyperdisponibilité PCA PRA

 

Exemples de transformation

 

PRA transformation

 

Un grand nombre d’entreprises ont déjà abordé le sujet du PRA ; parfois depuis bien longtemps. Les solutions mises en place le plus souvent reposent sur une approche simple : une data center de production protégé par un data center de secours.

 

 

Hyperdisponibilité changer la donne principes

 

Avec l’HYPERDISPONIBILITÉ l’organisation des ressources change. Et, l’ensemble de celles-ci seront vues comme s’il n’y avait qu’une seule exploitation, qu’une seule administration d’un seul data Center.

Nous vous proposons d’étudier un exemple de transformation d’un Data Center unique, dans une PME, effectuée au moment du renouvellement du matériel.

 

 

Hyperdisponibilité transformer l'existant

 

L’existant est représenté ici par trois ESX avec une baie de disques et une solution de sauvegarde.

Jusqu’à maintenant, l’entreprise ne pouvait pas envisager de mettre en œuvre un PRA qui aurait représenté un investissement équivalent au Data Center de production.

Avec l’HYPERDISPONIBILITÉ, nous pouvons proposer un budget qui comprendrait la mise en œuvre d’une solution de PCA/PRA sur deux salles avec un minimum d’investissement.

 

 

Hyperdisponibilité les moyens

 

Dans la solution qui nous intéresse, les deux salles seront sur le même site géographique de l’entreprise, à une distance inférieure à 100 mètres.

La diminution du nombre de serveurs est rendue possible par une très faible consommation de CPU des ESX et un nombre réduit de machines virtuelles, environ une soixantaine.

Les processeurs de dernière génération vont permettre d’apporter plus de puissance sur deux ESX qu’avec la solution actuelle.

Le prix de la mémoire permet aussi de prévoir une grande capacité mémoire par serveur afin de s’assurer qu’un serveur seul pourra prendre en charge 100% des VMs.

Les liens entre les deux salles seront en 10 Gigabits Ethernet et en 16 Gigabits FC.

 

 

Hyperdisponibilité réorganisation

 

Supprimer un ESX = les processeurs retenus pour la nouvelle configuration doivent au total (pour deux serveurs Bi pro) dégager plus de performance que la somme des processeurs des trois ESX existants.

La capacité mémoire de chaque ESX doit permettre l’exploitation de 100% des VMs.

 

 

Hyperdisponibilité réorganisation

 

Par exemple, s’il y avait eu 3 ESX de chaque côté, dans un seul cluster. En cas de panne d’un des ESX, le vCenter et DRS auraient pris le relais pour répartir les VMs qui étaient hébergées sur cette ESX et les répartir en fonction de la charge, sur un ou plusieurs ESX dans la même salle ou sur les deux salles.

La fonction Hyperswap aurait quant à elle géré les modifications de liens.

 

 

Hyperdisponibilité mise en cluster

 

La mise en cluster des deux ESX et la mise en cluster des deux SAN vont permettre d’utiliser la fonctionnalité de la baie Storwize : l’Hyperswap.

La solution d’HYPERDISPONIBILITÉ peut alors être installée et paramétrée.

Le fonctionnement de l’HYPERDISPONIBILITÉ est simple :

Grâce aux liens entre les deux salles, les écritures sur les disques sont opérées de manière simultanée sur les DEUX salles. L’une est réalisée en primaire, la seconde en auxiliaire.

Les caches sont flashés afin d’assurer une situation identique de manière synchrone sur les deux baies de disques.

Ensuite, les fonctionnalités de VMWARE et de la fonction HYPERSWAP des baies Storwize vont permettre de gérer les différentes situations pour atteindre un RPO = 0 et un RTO = 0.

 

 

Hyperdisponibilité conclusions

 

 

Sur le même sujet, découvrez sur nos blogs :

Le data center face aux risques

PCA / PRA Quelques réflexions

PCA / PRA Organisation

PCA / PRA Optimiser les solutions et les investissements

Des technologies au secours de l’entreprise

L’hyperdisponibilité

Hyperdisponibilité une solution testée et éprouvée

Hyperdisponibilité : exemples de fonctionnement

Hyperdisponibilité : exemples de fonctionnement

Pictogramme Hyperdisponibilité PCA PRA

 

Exemples de fonctionnement de l’hyperdisponibilité

 

Hyperdisponibilité Fonctionnement exploitation croisée

 

L’exemple pris, d’une exploitation croisée, repose sur deux ESX seulement. L’objectif est double : mettre en évidence à la fois la capacité de cette solution à s’adapter à toutes tailles d’entreprise mais aussi d’aller assez finement dans le fonctionnement de l’HYPERDISPONIBILITÉ.

Le fonctionnement de l’HYPERDISPONIBILITÉ est simple :

Grâce aux liens entre les deux salles, les écritures sur les disques sont opérées de manière simultanée sur les DEUX salles. L’une est réalisée en primaire, la seconde en auxiliaire.

Les caches sont flashés afin d’assurer une situation identique de manière synchrone sur les deux baies de disques.

Ensuite, les fonctionnalités de VMWARE et de la fonction HYPERSWAP des baies de stockage Storwize vont permettre de gérer les différentes situations de panne ou de perte de ressources suite à un sinistre pour atteindre un RPO = 0 et un RTO = 0.

 

 

Hyperdisponibilité Fonctionnement exploitation croisée

 

 

La panne sur un des deux serveurs va enclencher une série de réactions de la part du vCenter et du SAN de la salle 2.

 

 

Hyperdisponibilité Fonctionnement exploitation croisée

 

 

L’ESX de la salle 1 tombe en panne. Les liens entre le SAN de la salle 1 et l’ESX de la salle 1 sont coupés. Les liens entre l’ESX 2 de la salle 2 et le SAN de la salle 1 restent actifs.

Le vCenter réagit et déplace les VMs de la salle 1 vers l’ESX de la salle 2. Les liens entre les VMs déplacées et les SAN sont les mêmes que ceux de l’ESX 2.

100% de la charge de travail sont pris en charge par l’ESX de la salle 2.

Aucune intervention humaine n’a été nécessaire.

Les utilisateurs qui travaillaient sur une application hébergée sur l’ESX 1 ont pu subir un très court temps de blocage de l’exploitation (inférieur à une minute), si l’application hébergée sur l’ESX 1 n’était pas exploitée en fault tolérance. La mise en oeuvre de la fonction fault tolérance de VMware pour une VM permet d’assurer un RTO = 0 pour cette VM seulement.

 

 

Hyperdisponibilité Fonctionnement exploitation croisée

 

La panne sur l’ESX de la salle 1 a été solutionnée par le service de maintenance du constructeur. Il est remis en fonction. La fonction HYPERSWAP de la baie de disques de la salle 2 détecte de nouveau le serveur de la salle 1.

Le vCenter retrouvant l’ESX 1, grâce à la fonction DRS de VMWARE, rebascule les VMs attribuées à la salle 1. En même temps, l’HYPERSWAP redéfinit les liens des VMs basculées vers la salle 1.

Le retour à la normale se fait sans intervention humaine.

 

 

Hyperdisponibilité Fonctionnement exploitation croisée

 

La baie de disques de la salle 1 devient indisponible suite à une panne bloquante. Toutefois, l’ESX 1 reste opérationnel.

 

 

Hyperdisponibilité Fonctionnement

 

Le lien primaire est perdu mais l’exploitation continue grâce au lien auxiliaire du SAN de la salle 2.

Le lien auxiliaire est passé primaire. L’hyperswap crée un lien auxiliaire sur le SAN de la salle 2.

Il n’y a eu aucune interruption perçue par les utilisateurs.

Il n’y a eu aucune intervention humaine.

 

 

 

Hyperdisponibilité Fonctionnement

 

Lorsque la baie de disques de la Salle 1 est remise en fonction, l’HYPERSWAP la détecte et lance un processus de réplication vers le SAN de la salle 1 afin de la mettre à niveau.

Un fois ce processus terminé, les liens primaire/auxiliaire sont rétablis afin d’assurer le retour à la normale.

Aucune intervention humaine n’est nécessaire.

 

 

Sur le même sujet, découvrez sur nos blogs :

Le data center face aux risques

PCA / PRA Quelques réflexions

PCA / PRA Organisation

PCA / PRA Optimiser les solutions et les investissements

PCA / PRA  Des technologies au service de l’entreprise

L’hyperdisponibilité

Hyperdisponibilité une solution testée et éprouvée

Hyperdisponiblité : exemples de transformation

PCA PRA Des technologies au secours de l’entreprise

Pictogramme Hyperdisponibilité PCA PRA

 

Comment améliorer les ressources face aux exigences du PCA ?

Comment réduire la complexité et le coût d’un PRA ?

C’est par le choix des technologies que l’on pourra atteindre la meilleure optimisation du PCA / PRA.

 

La résilience optimale d’un data center

Elle peut être obtenue en mariant trois approches déjà largement adoptées par le marché :

  • Le serveur lame :

Il permet de réduire le nombre d’occurrences de panne des éléments communs à tous les serveurs en les mutualisant.

Le châssis serveur lame va donc prendre en charge, avec redondance, les missions :

  • d’alimentation électrique,
  • des ventilateurs,
  • de l’accès au réseau,
  • de l’accès au SAN
  • La mutualisation de serveurs avec un hyperviseur :

Cette approche permet de réduire les investissements matériels. Plus important : certaines fonctions de l’hyperviseur vont permettre d’assurer le fonctionnement de toutes les machines virtuelles même en cas de perte de l’une d’entre elles.

 

  • La mutualisation des volumes disques avec le SAN :

Elle permet de mettre en œuvre une protection de disque de haut niveau. Le contrôleur disque disposera de deux canisters distincts (en actif actif) avec chacun de 2 à 4 liens possibles vers les serveurs.

Les alimentations électriques seront redondées.

Les principes de protection disque seront pratiquement tous disponibles au choix de l’entreprise (stratégies RAID – 1, 5, 6, 10).

 

 

Apport de l’arithmétique :

 

apport arithmétique

Sur un serveur lame contenant 3 serveurs, le nombre d’alimentations électriques est réduit de moitié voire de 2/3 en fonction de la stratégie de protection. Alors, le taux de panne diminue pour le même nombre de serveurs.

Cette approche sera la même pour les ventilateurs, les adaptateurs réseaux et les disques.

Soit statistiquement, 3 fois moins de pannes.

 

Exemple d’améliorations de la disponibilité apportées par les technologies :

 

Gains de la mutualisation dans un chassis serveur lame

 

Apport des différentes technologies

 

Apport des différentes technologies

 

Serveur lame et disques mutualisés

Une fois ce triptyque réalisé, le data center pourra être schématisé de la manière suivante :

 

serveur lame disques mutualisés

 

serveur lame

 

Le PCA se résume alors à sa plus simple expression :

c’est la solution matérielle qui prend intégralement en compte les missions de protection contre les pannes.
Cette approche permet d’équiper les entreprises qui requièrent un haut niveau de résilience du data center ; hors considération du PRA.

 

En général, l’architecture classique d’un PRA est la suivante :

 

PRA architecture classique ou croisée

 

Le mode croisé étant le plus optimisé. Il est basé sur une approche de convergence et de SAN.

En hyperconvergence, avec ou sans SDD, ce schéma est modifié. Il prend alors en compte la répartition des volumes et des VMs au niveau des serveurs.

Les principes de réplication et de bascule étant plus complexes, nous ne les schématisons pas dans ce billet.

 

Nous avons bâti une architecture fonctionnelle qui permet de mettre en œuvre à la fois un PCA de haut niveau et un PRA instantané tout en respectant les contraintes budgétaires de l’entreprise.

Ce schéma permet de mettre en avant les principes que nous proposons de mettre en œuvre au mieux et en fonction du budget.

 

Budget d’un PRA en rapport avec les objectifs à atteindre

 

Comme nous l’avons vu précédemment, aujourd’hui un redémarrage du data center peut être réalisé selon les objectifs d’entreprise de plusieurs manières :

 

Organisation PRA

 

C’est par l’organisation des ressources du data center et par la recherche d’une architecture fonctionnelle la mieux adaptée à l’entreprise et aux objectifs de RTO / RPO que le budget du PCA / PRA sera optimisé.

 

 

Architecture fonctionnelle optimisée pour un PCA / PRA

 

cluster VM et disques

 

PCA

  • Si un ESX tombe en panne, l’hyperviseur se charge de transférer les VM de celui-ci vers les autres ESX, qu’ils soient dans la même salle ou non.
  • Une baie de disques tombe en panne. L’écriture auxiliaire passe instantanément en primaire.

 

PRA

  • Si la salle 1 cesse de fonctionner ou n’est plus accessible via le réseau, alors la salle 2 prend en charge la totalité des activités.

 

Au cas où une seconde salle n’aurait pas encore été créée, les investissements minimums à réaliser sont les suivants :

  • Un boitier (de chaque côté) permettant de gérer les disques existants de l’entreprise et prenant en charge les fonctionnalités nécessaires à la gestion des différents scénarii (panne de serveur, panne de disque, perte totale d’une des deux salles et retour à la normale),
  • Le switch FC s’il n’était pas déjà présent dans le cœur de réseau,
  • Un lien entre les deux salles : en fonction de la distance, la mise en œuvre de ce lien sera plus ou moins compliquée :
    • Dans le même bâtiment = PCA sur deux salles,
    • Dans deux bâtiments différents implantés sur le même site,
    • Dans deux salles séparées géographiquement dans la même agglomération,
    • Dans deux salles séparées géographiquement par plusieurs dizaines de kilomètres et deux agglomérations différentes = PRA
  • Les prestations de mise en œuvre de la solution.

 

Sur le même sujet, découvrez sur nos blogs :

Le data center face aux risques

PCA / PRA Quelques réflexions

PCA / PRA Organisation

PCA / PRA Optimiser les solutions et les investissements

L’hyperdisponibilité

Hyperdisponibilité une solution testée et éprouvée

Hyperdisponibilité : exemples de fonctionnement

Hyperdisponibilité : exemples de transformation

PCA / PRA Organisation

Pictogramme Hyperdisponibilité PCA PRA

 

En phase d’élaboration d’un PCA / PRA, l’organisation des ressources du data center est une des approches qui va permettre de définir les processus à mettre en œuvre en cas de panne ou de sinistre.

Dans la perspective de mise en place d’un PCA / PRA, deux objectifs doivent être définis par la direction générale de l’entreprise :

  • RTO : la durée maximale d’interruption admissible ou temps maximal pour reprendre l’activité
  • RPO : la perte de données maximale acceptable (ou delta de temps entre la perte maximale de données tolérée lors du sinistre et au moment de reprise de l’activité, point de redémarrage)

 

RPO RTO

 

Le PCA

La continuité de service du data center en cas de panne permet de s’assurer de la poursuite de l’activité de l’entreprise.

 

Comment peut-on assurer un niveau élevé de continuité de service d’un data center ?

S’appuyer sur ses ressources prévues pour un PRA n’est pas toujours la bonne solution.

 

Quels sont les paramètres qui vont permettre d’augmenter la résilience d’un data center ?

  • Les défaillances d’alimentation électrique représentent la majeure partie des pannes.
  • Les autres pannes dans un serveur se répartissent entre la mémoire (en 2ème) et les cartes adaptateurs de connexion réseau et SAN.
  • Les défauts de processeur et de carte mère représentent un niveau très faible de pannes.

La solution idéale consiste à prévoir la redondance des éléments les plus fréquemment soumis aux pannes. Il est conseillé de compléter cette solution par un contrat de maintenance dont le niveau de service peut être adapté au profil de l’entreprise (temps de prise en charge, temps d’intervention, etc.).

Aujourd’hui, les pannes ne se cantonnent plus aux simples ressources matérielles. Il faut désormais considérer les OS et les hyperviseurs. En ce qui les concerne, un abonnement au support des constructeurs et éditeurs est essentiel.

En assurant régulièrement un bon niveau de maintenance de tous ses composants (mise à jour des micro-codes, mise à jour des versions les plus récentes des OS et hyperviseurs, etc.), la disponibilité du data center sera naturellement à son niveau le plus élevé.

Toutefois, cela ne garantit aucunement une continuité permanente du service. Pour assurer la continuité de service, il va falloir investir plus.

 

Comment optimiser ces investissements ?

En premier lieu, il faut s’assurer que les objectifs fixés soient atteignables.

Habituellement, on se fixe pour objectif de respecter un niveau de perte de données proche de 0 soit un RPO = 0.

Le temps de reprise de l’activité de l’entreprise est variable. Il dépend de la gravité de la panne.

Un SAN sur lequel sont gérées toutes les données de l’entreprise, doit permettre d’optimiser la résilience de l’ensemble de la chaîne en mutualisant les disques et en offrant un niveau de protection des données plus élevé qu’une répartition des disques dans les serveurs.

Les principes arithmétiques peuvent également voler au secours de l’entreprise. En effet les taux de panne étant constants pour les mêmes éléments, il n’est pas judicieux de multiplier la quantité d’éléments identiques.

La bonne stratégie consiste donc (comme en SAN) à mutualiser ce qui peut l’être :

  • alimentation électrique,
  • ventilateur,
  • accès au réseau,

C’est à ce niveau que les technologies peuvent venir au secours du PCA.

 

Le PRA

La reprise d’activité après un sinistre reste un sujet plus difficile à cerner. Pour en juger, il suffit de noter sur le marché le nombre important de solutions pour traiter ce sujet.

Du redémarrage à froid (sur du matériel dédié au secours) à la solution dans le Cloud, les solutions sont multiples.

 

Quelles solutions seraient les mieux adaptées à votre entreprise ? Comment faire un choix ?

En ce qui concerne le PCA, l’atteinte des objectifs dépend des contrats de maintenance, des principes de redondance et de mutualisation de certains dispositifs.

Au niveau du PRA, l’architecture de la solution doit être le premier élément pris en considération.

 

Redémarrage à froid ou à chaud

 

 

 

Et si une seule solution permettait de répondre aux deux objectifs :

  • se protéger des pannes,

  • reprendre l’activité après un sinistre avec un RPO et un RTO = 0 ?

 

La mise en œuvre d’une telle solution dépend des ressources dont l’entreprise a besoin.

Pour y parvenir, l’architecture serait la suivante :

Data center VM et data

 

 

En ne voyant dans cette architecture qu’une seule exploitation, et grâce à l’apport de certaines fonctionnalités des hyperviseurs et du SAN, il est possible d’atteindre un RTO et un RPO = 0. Cette méthode est efficace pour faire face à des pannes comme à des sinistres.

Bien sûr, il faut prendre en compte les paramètres de faisabilité :

  • type de lien entre les deux sites,
  • distance entre les deux sites
  • ressources réparties et mode de fonctionnement en PRA

Tout comme pour le PCA, les technologies du marché peuvent également venir au secours du PRA.

 

Lexique

PCA : Dans nos articles nous entendons par PCA, plan de continuité d’activité ne s’appliquant qu’au service informatique. Le PCA protège des pannes.

PRA : Dans nos articles nous entendons par PRA, plan de reprise d’activité (Disaster Recovery en anglais) ne s’appliquant qu’au service informatique informatique. Le PRA permet la reprise d’activité après un sinistre (feu, inondation, etc.).

RTO : Recovery Time Objective, durée maximale d’interruption admissible

RPO : Recovery Point Objective, perte de données maximale acceptable

 

Sur le même sujet, découvrez sur nos blogs :

Le data center face aux risques

PCA / PRA Quelques réflexions

PCA / PRA Optimiser les solutions et les investissements

Des technologies au secours de l’entreprise

L’hyperdisponibilité

Hyperdisponibilité une solution testée et éprouvée

Hyperdisponiblité : exemples de fonctionnement

Hyperdisponiblité : exemples de transformation

IBM i Access for Windows v7.1 ne fonctionne plus sous Windows 10

IBM i

 

Que se passe-t-il ? Que doit-on faire si un utilisateur se retrouve sans émulation 5250 sur un poste de travail équipé de Windows 10 ?

Avec l’arrivée de la version V7R2 de l’OS i (AS/400), IBM a annoncé la fin du support de l’émulateur 5250 IBM i Access for Windows mais pas que… bien que celui-ci fonctionne normalement sur la V7R2 de OS i la mauvaise surprise est qu’il ne fonctionne plus sous Windows 10 ! (dans la plupart des cas)

Il en va de même des outils accompagnant l’émulateur (transfert de fichiers, ODBC, OP console, etc.) qui eux non plus ne se sont pas opérationnels sous Windows 10.
La solution de remplacement distribuée par IBM est IBM i Access Client Solutions.

Dès lors, deux cas possibles :
–    Vous n’utilisez que l’émulation 5250 de l’IBM i Access for Windows : la nouvelle solution peut-être facilement installée sur le poste de travail. Elle porte le code dispos dans la liste des logiciels IBM XWI – XJ2

–    Vous utilisez l’émulateur mais aussi les autres outils d’IBM i Access for Windows (un ou plusieurs d’entre eux) :
Il faut envisager un portage ou une adaptation des solutions en place pour fonctionner sous Windows 10.
Une rapide étude de notre expert AS/400 permettra de vous fournir un bilan des pré-requis au passage à Windows 10 de votre parc micro.

N’attendez pas car déjà certains utilisateurs prennent les choses en main, en prenant pour acquis, le fonctionnement immuable de l’AS/400.

ATTENTION : Même si vous parveniez à faire fonctionner une version 7.1 de l’IBM i Access for Windows sous Windows 10, nous vous recommandons vivement de migrer vers IBM i Access Client Solutions qui est supportée par IBM et compatible.

 

A lire également sur nos blogs et site Web :

Feuille de route de l’IBM i

Savoir-faire et services IBM i AS/400 et Power System proposés par Ceriel

Informations et liens utiles IBM i AS/400 et Power System

Feuille de route de l’IBM i

IBM i

 

Comme vous le savez probablement déjà, la version 6 de l’IBM i n’est plus commercialisée depuis longtemps et n’est plus supportée par IBM depuis le 30 septembre 2015.

Même si vous aviez souscrit un contrat de maintenance pour les logiciels de votre AS/400 (je devrais dire IBM i sur votre Power System…), celui-ci n’est plus suffisant pour obtenir du support de la part d’IBM ; à moins que vous ne souscriviez une extension du contrat de maintenance normale (SWMA) spécifique à la prolongation du support de la V6.

Même si la V7R3 n’est pas encore annoncée, il est bon de rappeler quelques pratiques courantes d’IBM dans la gestion de sa feuille de route (roadmap, illustrée ci-dessous) :
– IBM commercialise toujours deux niveaux de version en permanence (actuellement la V7R1 et la V7R2)
– A l’annonce d’une nouvelle release ou d’une nouvelle version, la solution la plus ancienne est annoncée en fin de commercialisation. Son support est alors assuré en général pendant 2 ans.

 

Feuille de route IBM i

 

Vous n’êtes pas sans savoir que les appels auprès d’IBM débouchent souvent sur des pré-requis qu’il faut alors mettre en œuvre dans l’urgence : dernière cumule de PTFs, changement de release, etc.
C’est pourquoi, nous vous proposons d’étudier avec vous la faisabilité de la migration de la V6 vers la V7. Quels sont les pré-requis ? Que doit faire votre éditeur de logiciels ? Comment peut-on évaluer si oui ou non le passage à la V7 peut être fait rapidement et sans encombre (comme dans la plupart des cas).

Une simple prestation de services par notre expert vous permettra de comprendre tous ces points et de décider s’il est opportun pour vous de prendre un contrat d’extension de support à la V6 ou si la V7 doit être mise en œuvre sur votre système.

Ces réflexions devraient vous permettre d’éviter des périodes d’indisponibilité de vos systèmes et de vos applications.


A lire également sur nos blogs et site Web :

IBM i Access for Windows v7.1 ne fonctionne plus sous Windows 10

Savoir-faire et services IBM i AS/400 et Power System proposés par Ceriel

Informations et liens utiles IBM i AS/400 et Power System