La tête dans le guidon, j’avais annulé le renouvellement de mon précèdent hébergeur pour repasser sur siteground, mais j’ai complètement loupé la date anniversaire. Résultat site supprimé, j’avais quelques sauvegardes mais rien de très récent, j’ai donc perdu quelques articles, même si je n’avais pas été très productif depuis le début 2021.

Quoiqu’il en soit le site est de nouveau disponible, et après ce petit coup de mou, je compte bien reprendre dès que j’aurai le temps, car malgré l’apparente inactivité du site, ça n’arrête pas de mon côté et les projets vont bon train.

D’ailleurs, je vous laisse, je suis passé à côté des dernières annonces sur nos éditeurs préférés, je vais essayer de rattraper tout ça…

J’ai récemment obtenu la certification Nutanix Certified Master – Multi Cloud Infrastructure, l’occasion pour moi de revenir sur mon parcours de certification Nutanix.

Ma première sur le sujet remonte en 2018 avec la Nutanix Platform Professional, à l’époque, l’examen se passait déjà en ligne, avec la possibilité d’utiliser internet et la documentation, ce qui se rapproche plus de notre travail quotidien avec google à porté de main. Finalement ce modèle a été abandonné, il posait aussi de vrais soucis, car l’identité de celui qui passait l’examen n’était pas vérifiée.

Ce point n’est aujourd’hui plus du tout un problème même si vous passez les examens à distances, car Nutanix s’appuie sur la plateforme PSI et vous allez voir qu’ils ne prennent pas ça à la légère, j’ai même le sentiment que c’est de plus en plus strict.

L’outil principal pour se former aujourd’hui est Nutanix University qui vient d’ailleurs de subir un petit lifting, le site est plus accessible et pratique à suivre, certaines sections sont traduites progressivement en français même si les examens se passent en anglais.

L’accès à la Nutanix University nécessite d’avoir un compte my.nutanix et la quasi-totalité du contenu est gratuit ! Il y a maintenant 4 niveaux d’expertises, dès 6 mois à 1 an d’expérience, jusqu’aux certifications les plus avancées. De nouveaux programmes ont fait leur apparition avec des parcours, orientés End User Computing, DevOps, Multicloud et Datacenter Services.

Lorsque vous aurez étudié tous les points d’un des plans de formations, essayez de parcourir l’ensemble des points des BluePrint de certifications: il s’agit de documents qui résument point par point ce qu’on attend de vous et ce que vous devez maîtriser pour la certification. C’est un outil indispensable, qui permet de savoir exactement ce qu’on attend de vous, ce que vous devrez réviser.

Ensuite, il est temps de s’inscrire et planifier votre certification (attention les horaires sont au format Anglais, si vous arrivez 30 minutes en retard, votre certif est fichue) . Pour passer l’examen à distance, vous devrez installer leur outil qui permet de surveiller votre machine afin d’éviter toute forme de tricherie ou d’enregistrement de la session.

N’hésitez pas à arriver 30 minutes avant le début de votre examen comme recommandé, car la procédure de sécurité peu être assez longue :

  • vérification de votre pièce d’identité.
  • Vérification de la salle, avec votre webcam, vous allez devoir montrer, les 4 murs, un bureau vide, avec un seul moniteur, pas d’enceintes.

Concernant les conditions, si quelqu’un rentre dans la pièce, l’examen est un échec, pensez à vous enfermer. Vous ne devez pas avoir de stylo, ni de téléphone, ni de smartwatch, ni d’écouteurs. Il est interdit de manger même un chewing-gum ou un bonbon, boire, parler, de chuchoter, il ne faut pas se masquer la bouche, j’ai par exemple l’habitude de me coiffer la barbe pendant que je réfléchis, et le surveillant m’a déjà mis l’examen en pause pour me demander d’arrêter de masquer ma bouche.

Avec plus d’une dizaine de certifications, j’ai exploré les différentes branches que ce soit celles orientées administration, architecture, mais aussi avant-vente ou service. Ayant participé à de nombreuses bêtas et c’est devenu pour moi un moyen de régulièrement mettre à jour mes connaissances, car les innovations apparaissent très régulièrement. Comme beaucoup d’éditeurs, l’obtention d’une certification débloque le badge associé sur Acclaim, ce service permet entre autres, la vérification d’authenticité et de la date d’obtention de la certification, voici ma page pour se faire une idée : https://www.youracclaim.com/users/matthieu-gioia/badges

Je ne peux qu’encourager les plus curieux d’entre vous à essayer le nouveau parcours Nutanix Certicied Associate, qui est le programme pour commencer à bâtir une carrière dans la technologie multicloud.

Suite à la consolidation de plusieurs clusters VMware, nous avons modifié en masse plusieurs dizaines de volumes afin de les présenter en respectant notre nouvelle organisation.

Après cette modification, 2 datastores (un par baie) sont passés inaccessibles, en lieu de place de ceux-ci, je me retrouvais avec un volume étrange de quelques Ko. L’administrateur du stockage m’assurait ne pas me présenter une autre volume.

Après plusieurs heures de recherches infructueuses : APD, hôte qui aurait verrouillé l’ancien volume, VMFS corrompu, mauvaise mapping SAN…

Il s’avère que le persona VMware HPE (VMware host persona 11), est compatible avec VMware vVols sans intervention particulière, mais il se réserve le LUN ID 256 pour faire fonctionner le “Protocol Endpoint” (PE), qui est un LUN technique qui permet de gérer les I/O :

Il faut savoir que sur ce type de baie 3PAR et j’imagine d’autres modèles du même vendeur, il ne faut en aucun cas utiliser le LUN ID 256. Sur d’autres modèles de SAN, compatible vVols il faudra se renseigner sur le LUN ID associé au PE.

Le support HPE a confirmé qu’il n’est pas possible de désactiver ce LUN.

Une fois l’ID de nos volumes en erreur modifié , un simple rescan pour monter les volumes VMFS et tout est rentré dans l’ordre.

Référence HPE : https://h20195.www2.hpe.com/v2/getpdf.aspx/4AA5-6907ENW.pdf

Référence VMware sur vVOls : https://kb.vmware.com/s/article/2113013

Si vous rencontrez ce message d’erreur sur vos ESXi, vous utilisez sûrement vSphere Replication. Habituellement, les journaux d’événements des ESXi sont remplis d’événements “User [email protected] logged in as hbr-agent” ou en français “L’utilisateur [email protected] est connecté en tant que hbr-agent”.

J’ai récemment été contraint d’activer le lockdown mode. C’est une fonctionnalité de verrouillage qui permet d’éviter les interactions directes avec l’ESXi et ne permet son administration qu’au travers du vCenter.

Cet article de VMware détaille bien mieux que moi le fonctionnement des deux modes de verrouillage.

Mais vous l’aurez compris, vSphere Replication ne semble pas vouloir utiliser le vCenter et se connecter directement en root sur les ESXi.

Ajouter le root en exception, comme on me l’a proposé, équivaut pour moi à l’annulation du lockdown mode.

Après des semaines de bataille avec le Global Support Services, où ils m’étaient en cause des vibs HPe présentent sur les builds, le ticket est maintenant escaladé auprès des développeurs.

Je suis pour ma part assez surpris d’en arriver là. L’utilisation conjointe de vSphere Replication et Lockdown mode doit vraiment être exceptionnelle pour que le “bug” ne remonte que maintenant au dev. D’autant plus que j’utilise vSphere Replication depuis des années et l’utilisation du compte root me semble présent dans son ADN depuis un moment.

N’étant pas particulièrement fan du lockdown mode, j’ai prévenu le support qu’une simple déclaration officielle incompatibilité avec vSphere Replication m’irait très bien. Je mettrais à jour cet article lorsque j’aurais du nouveau. En attendant, j’ai temporairement une exception pour la désactivation de cette fonctionnalité.

Update 1er Septembre du GSS : “There is no impact to replication jobs with lockdown mode enabled. It will cause extra logging in vCenter. No workaround at present for the extra logging. Recommendation is to disable Lockdown mode”.

J’ai fait le tour de tout ce qui concernait le DR dans la part I. Ici, je vais maintenant détailler les autres “petites nouveautés”.

Plus de détail sera apporté à la vue “Data Resiliency Status”. Je trouve que c’est pratique de retrouver l’information ici, rapidement, plutôt que d’aller chercher en ligne de commande. En image voici concrètement ce que cela donne pour un nœud en panne sur un cluster de 3 :

À savoir, le statut sera toujours noté “Computing” pendant un upgrade. J’avais déjà proposé une amélioration à ce sujet, pour mettre en sourdine les évènements liés à l’opération ce qui nous laisserait les logs plus lisibles, mais c’est en attente.

Ensuite, il y a un nouveau mécanisme d’optimisation concernant les snapshots, appelé Merge vBlock Metadata. Il permettra de limiter la perte d’IOPS avec les snapshots cumulatifs lorsque les metadatas ne proviennent pas du cache, ce qui arrive avec un changement de working set ou le reboot de stargate.

Dans le détail, lorsque nous avons une chaîne de snapshot, la donnée lue doit parfois traverser 6 entrées de vblock dans Cassandra contre 2 seulement avec les Merge vBlock. Concrètement, les gains sont de 30% sur de la lecture aléatoire au dixième snapshots et plus encore sur la relance d’un stargate.

Par contre, cette fonctionnalité est volontairement limitée aux clusters qui disposent de nœud d’une capacité de stockage entre 60 et 70TB. Cette limitation baissera avec le temps. Autre limitation, mais qui ne changera pas, Merged vblock est automatiquement désactivé s’il y a la de-duplication activée sur le conteneur. Bonne nouvelle cette technologie n’est pas soumise à un licensing particulier et tous les hyperviseurs pourront en bénéficier.

La fonctionnalité Rack Awareness est également disponible sur Hyper-V, donc tous les hyperviseurs sont maintenant supportés.

En 5.17, Nutanix Volumes supporte officiellement Windows Server 2019, idéal pour les serveurs bare metal et le Windows Failover Cluster.

Enfin la simplification du clustering avec Volumes qui supporte les réservations persistantes SCSI-3, qui évitera d’aller dans la VM pour réaliser la connexion iSCSI.

L’Erasure Coding est maintenant pleinement opérationnel avec Autonomous Extent Store (AES). Pour rappel AES introduit en 5.11 permet l’amélioration des performances en conservant une partie des metadatas sur le nœud qui exécute le worload. Nutanix Bible parle de METAdata locality, je trouve ça très explicite.

Pour terminer, le licensing pour Object est maintenant géré depuis Prism Central. Mercury sera la nouvelle passerelle API développé en C++ pour diverses optimisations et Prism Central pourra supporter jusqu’à 300 clusters (avec un noeud chacun) et 25 000 VMs. Uniquement pour les nouveaux déploiements de Prism Central, il y aura la possibilité d’améliorer les performances en répartissant la charge sur plusieurs vDisks.

N’hésitez pas à donner votre avis en commentaire, mais je trouve cette mise à jour impressionnante. Elle apporte une réponse à ce que pas mal de clients demandent depuis quelque temps. Même si tout n’est pas encore implémenté, les briques sont là et les prochaines versions viendront améliorer tout ça !