Si vous rencontrez ce message d’erreur sur vos ESXi, vous utilisez sûrement vSphere Replication. Habituellement, les journaux d’événements des ESXi sont remplis d’événements “User [email protected] logged in as hbr-agent” ou en français “L’utilisateur [email protected] est connecté en tant que hbr-agent”.

J’ai récemment été contraint d’activer le lockdown mode. C’est une fonctionnalité de verrouillage qui permet d’éviter les interactions directes avec l’ESXi et ne permet son administration qu’au travers du vCenter.

Cet article de VMware détaille bien mieux que moi le fonctionnement des deux modes de verrouillage.

Mais vous l’aurez compris, vSphere Replication ne semble pas vouloir utiliser le vCenter et se connecter directement en root sur les ESXi.

Ajouter le root en exception, comme on me l’a proposé, équivaut pour moi à l’annulation du lockdown mode.

Après des semaines de bataille avec le Global Support Services, où ils m’étaient en cause des vibs HPe présentent sur les builds, le ticket est maintenant escaladé auprès des développeurs.

Je suis pour ma part assez surpris d’en arriver là. L’utilisation conjointe de vSphere Replication et Lockdown mode doit vraiment être exceptionnelle pour que le “bug” ne remonte que maintenant au dev. D’autant plus que j’utilise vSphere Replication depuis des années et l’utilisation du compte root me semble présent dans son ADN depuis un moment.

N’étant pas particulièrement fan du lockdown mode, j’ai prévenu le support qu’une simple déclaration officielle incompatibilité avec vSphere Replication m’irait très bien. Je mettrais à jour cet article lorsque j’aurais du nouveau. En attendant, j’ai temporairement une exception pour la désactivation de cette fonctionnalité.

Update 1er Septembre du GSS : “There is no impact to replication jobs with lockdown mode enabled. It will cause extra logging in vCenter. No workaround at present for the extra logging. Recommendation is to disable Lockdown mode”.

Nous n’arrivions pas à faire de remédiation d’un hôte ESXi, il fallait forcément le passer en maintenance “manuellement” avant, ce qui est fort peu pratique quand il y a plusieurs dizaines d’ESXi à mettre à jour.

La remédiation échouait avec les messages “Another Task is already in progress / Une autre tâche est déjà en cours.” et “The task failed because another task is currently in prgress. Either your task, the task that is in progress, or both tasks require exclusive execution. / La tâche a échoué car une autre tâche est actuellement en cours d’exécution. Votre tâche, la tâche qui est en cours d’exécution ou les deux tâches nécessitent une exécution exclusive”.

Dans les logs, on constate effectivement deux taches lancées en même temps par 2 composants :

La tache en erreur de com.vmware.vcIntegrity correspond à VMware Update Manager, com.vmware.vcHms correspond à vSphere Replication, mais pourquoi lancent-ils une tache en même temps ?

message du /var/log/esxupdate.log :
2020-01-15T14:08:31Z esxupdate: 4185081: esxupdate: ERROR: wmware.esximage.Errors.VibDownloadError: ('https://IP:8043/vib/vmware-hbr-agent.vib', None, '(\'https://IP:8043/vib/vmware-hbr-agent.vib\', \'/tmp/vibtransaction/tmp.vib\', \'[Errno 14] curl#56 - "Content-Length: in 200 response"\')')^@

Plusieurs KB VMware font référence à ce type de message d’erreurs, pas exactement pour le même problème, alors je prends contact avec le GSS VMware.

Ils m’indiquent que les deux seuls problèmes connus avec ce message sont référencés dans les KB vSphere replication 8.2. ESXi unable to download hbr-agent.vib “VibDownloadError” (75321) et ESXi hosts report vib errors after installing VMware vSphere Replication 5.6.x or later (2110304)

En premier lieu, nous vérifions la présence des vibs sur les ESXi

localcli software vib list | egrep -i "vr2c|hbr"
localcli software vib get | egrep -i "vr2c|hbr"

Les vibs sont bien installées, le workaround consiste à désactiver l’option d’installation automatique des vibs de vSphere Replication afin de ne plus entrer en conflit avec Update Manager, ce qui aura comme conséquence de devoir installer ces vibs “manuellement” sur les nouveaux ESXi.

Sur les appliances vSphere Replication le ssh n’est pas activé par défaut, ce que je m’empresse de faire à l’aide du script /usr/bin/enable-sshd.sh disponible en console cf: Unable to Establish an SSH Connection to the vSphere Replication Appliance

Je vérifie ensuite le paramètre hms-auto-install sur l’appliance en SSH

/opt/vmware/hms/bin/hms-configtool -cmd list | grep -i hms-auto-install-hbragent

Le retour est bien :

hms-auto-install-hbragent-vib = true

Je modifie la valeur :

/opt/vmware/hms/bin/hms-configtool -cmd reconfig -property hms-auto-install-hbragent-vib=false

Puis, je relance le service :

service hms restart

Après ces opérations, je lance une remédiation sur un des ESXi et l’opération de patching se passe correctement.

Je ne suis pas pleinement satisfait, car même si le patching se déroule normalement, des opérations supplémentaires sont à prévoir à l’installation de nouveau nœud, mais je vous indique une partie de la réponse du support à ce sujet : “There is no projected fix for this issue presently. Engineering are only providing us with the VR vib ‘auto-install’ disable option.
New hosts added to the cluster require a manual vib install or you can include the vib in a VUM baseline.”

J’essaye donc d’appliquer cette dernière recommandation et de créer une nouvelle baseline avec les vibs en suivant la KB75321.

Après récupération des vibs comme dans la procédure, j’essaye d’importer celle-ci dans Update Manager, mais j’ai un message d’erreur :

Il s’avère que le fichier fourni ne permet pas l’importation dans VMware Update Manager, il sert uniquement à l’installation sur l’ESXi. Le support est au courant et m’a confirmé qu’il n’y aurait pas d’autre workaround pour ce problème et m’a même conseillé de soumettre une feature request… Ce n’est pas une feature que d’avoir les deux produits qui fonctionnent “normalement” dans son infrastructure…

J’avais apparemment un problème de synchronisation avec vSphere Replicaton. Le redémarrage des appliances réglait temporairement le problème, mais invariablement le dernier point de synchronisation semblait se bloquer sur toutes les machines au même moment.

Lire la suite de

Pour une raison inconnue, l’une de nos appliances vSphere Replication était bloquée sur la vérification de nouvelles mises à jour. Malgré un reboot et quelques tentatives de redémarrage de service, rien n’y faisait.

Après une rapide recherche sur Internet et un passage par le forum de la communauté VMware, je suis tombé sur un post de Tim Scheppeit concernant la même problématique sur VCSA. Le support lui a donné la solution suivante et il a eu la gentillesse de la partager.

1. On se connecte en SSH sur l’appliance. Dans mon cas, je me suis connecté en console :

2. /opt/vmware/bin/vamicli update –check (Attention avec la mise en page wordpress c’est bien deux – à la suite)

3. /opt/vmware/bin/vamicli update –install latest –accepteula

J’ai juste eu à réaliser cette opération deux fois. La première a simplement débloqué la situation, mais l’update a échoué. Alors que pour la seconde, tout a fonctionné. Après un redémarrage de l’appliance, la nouvelle version était installée.

Cette procédure semble s’appliquer sur beaucoup de produits. Le titre de l’article aurait pu être “mise à jour bloquée sur une appliance VMware”.

J’ai eu besoin d’étendre un disque d’une machine virtuelle Windows 2012, répliqué entre deux sites distants, innocemment je pensais en avoir pour quelques secondes, et j’avoue avoir été surpris de constater que l’agrandissement d’une machine protégée avec vSphere Replication n’est pas du tout « user-friendly ».

Il faut respecter scrupuleusement la KB2042790  Resizing virtual machine disk files that are protected by vSphere Replication using VMware vCenter Site Recovery Manager.

1re étape : renommer le répertoire de destination de la synchronisation afin d’empêcher vSphere Replication de la détruire lorsque nous stopperons la synchronisation.

2e étape : noter les paramètres de la réplication.

3e étape : supprimer ladite réplication : à noter qu’à l’exécution de l’opération plusieurs erreurs apparaissent, car ils ne retrouvent plus les fichiers à supprimer.

4e étape : Augmenter le disque de la VM, lorsqu’il s’agit d’une extension supérieure à 2TB, il faut malheureusement réaliser l’opération à froid en éteignant la VM et avec le vSphere Web Client. cf:  KB2058287  Support for virtual machine disks larger than 2 TB in VMware ESXi 5.5.x and 6.0.x

Ci-dessous le message d’erreur qui est très clair, pas d’augmentation à chaud au-delà de 2TB.

5e étape : on attaque un ESXi ayant accès au stockage du replica afin d’augmenter en ligne de commande avec vmkfstools la taille de son disque autant dire que cette partie nécessiterais clairement une amélioration.

J’avais besoin d’augmenter à 8TB la volumétrie du disque et je confirme que le commutateur [tT] pour tera fonctionne malgré qu’il ne soit pas mentionné dans la doc : vmkfstools—X—extendvirtualdisk newSize [kK|mM|gG] .(source Extending a Virtual Disk)

Pour exemple : vmkfstools -X 8T test-VM.vmdk fonctionne. La commande s’exécute sur le vmdk et non sur le -flat.vmdk.

6e étape : Reconfigurer le nom d’origine du répertoire du replica.

7e étape : Reconfigurer la réplication.

8e étape : Si votre extension été supérieur à 2TB, rallumer la VM.