Perte de connectivité réseau sur machines virtuelles

J'ai été confronté à un problème de manière aléatoire sur quelques machines virtuelles d'un cluster vSphere. Ce problème se traduisait par une perte de connectivité réseau : les machines virtuelles étaient incapables de joindre leur gateway et de communiquer avec d'autres machines du même VLAN. Une manière temporaire de rétablir la connectivité réseau était de réaliser un vMotion sur la machine virtuelle afin de la déplacer sur un autre hôte.

De nombreuses manipulations ont été tentées sur ces machines pour tenter de garder une connectivité durable : changement de type de carte réseau, création de nouvelle machine avec rattachement des disques virtuels, changement d'adresse MAC, etc. mais sans succès.

Les 2 hôtes vSphere formant le cluster ont chacun 4 interfaces physiques : 2 pour les machines virtuelles, une pour le management network et la dernière pour le vMotion. Sur ces deux dernières interfaces, seul un VLAN était déclaré côté switch physique.

En regardant du côté des vSwitch positionnés sur chaque hôte, il apparaissait qu'en fait les VLAN déclarés sur vSphere étaient poussés sur toutes les interfaces physiques (vmnic) du serveur. Cette configuration pouvait donc faire qu'une machine située sur le VLAN "PROD_CLIENT" tentait de communiquer sur les 2 interfaces qui n'avaient pas ce VLAN de déclaré côté switch physique.

Explications : considérons un serveur avec 4 interfaces (vmnic0 à vmnic3) branchées sur les ports 1, 2, 3 et 4 d'un switch. Les ports 1 et 2 (branchés sur vmnic0 et vmnic1) donnent accès au VLAN "ADMIN" tandis que les ports 3 et 4 (branchés sur vmnic2 et vmnic3) donnent accès aux VLAN "PROD_CLIENT", "PROD_INTERNE", "RE7_CLI", "RE7_INT". Côté vSphere, ces VLAN sont visibles et peuplés ; seulement ils doivent être configurés sur les bonnes interfaces. Si le VLAN "PROD_CLIENT" était accessible sur vmnic2 et vmnic3 puisqu'il est disponible sur les ports 3 et 4 du switch, il ne l'était pas sur les ports 1 (vmnic0) ni 2 (vmnic1). Or, ce VLAN était configuré sur ESXi pour utiliser les 4 interfaces physiques.

Sur cette capture, le VLAN est configuré pour être accessible sur tous les vmnic ; cependant côté switch physique cela n'est pas le cas puisque le VLAN est configuré sur les seuls ports 3 et 4 (vmnic2 et vmnic3).

Étant donné que ce VLAN utilisait des interfaces sur lesquelles il était injoignable côté switch physique, lorsque vSphere faisait passer le trafic réseau de la VM sur ces interfaces les machines devenaient de ce fait inaccessibles et incapables de joindre leur passerelle. Un redémarrage complet de la machine virtuelle (et non pas uniquement l'OS invité) pouvait résoudre le souci temporairement puisque vSphere réinscrit la carte réseau virtuelle sur une des interfaces sur lesquelles le VLAN en question était accessible (dans notre exemple, vmnic2 ou vmnic3). La même action de réinscription se faisait dans le cadre d'un déplacement d'hôte, puisque la VM passait sur un autre hôte physique, avec d'autres cartes physiques ; cependant le dysfonctionnement persistait puisque l'autre hôte du cluster était configuré de la même manière.

Afin de résoudre le dysfonctionnement, il a donc fallu déplacer les vmnic0 et vmnic1 dans les adaptateurs inutilisés pour les VLAN "PROD_CLIENT", "PROD_INTERNE", "RE7_CLI" et "RE7_INT". Ainsi, le trafic des VM configurées sur ces réseaux passent désormais uniquement via vmnic2 et vmnic3 et le problème est résolu.

Sur cette capture, les VLAN sont bien configurés pour n'utiliser que les vmnic qui sont interfacés sur les ports du switch physique donnant accès aux VLAN en question.

Disque virtuel de taille nulle sur vSphere 6.5

Alerte de sauvegarde sur une machine virtuelle en exécution, snapshot impossible pour cause de disque inaccessible : celui-ci affiche une taille de 0 Ko.

Pourtant, en allant parcourir le datastore, on voit bien les fichiers VMDK aux côtés des fichiers de configuration et de mémoire vive.

Afin de résoudre le problème, j'ai essayé les manipulations suivantes :

  • Storage vMotion vers un autre datastore, machine éteinte : KO
  • vMotion vers un autre hôte, machine éteinte : KO

Il a finalement fallu que je supprime la machine de l'inventaire avant de la réinscrire sur le datastore d'origine. J'imagine que la réinscription dans l'inventaire et la lecture du fichier .vmx a permis à vSphere de rafraîchir les informations.

Enfin, le démarrage de la machine s'est déroulé sans accroc et j'ai pu créer un snapshot de test pour vérifier le bon fonctionnement d'une interaction avec le fichier VMDK. Mon flux de sauvegarde pourra reprendre son cours.

VMware et Powershell : liste des alarmes déclenchées sur les hôtes physiques et VM

J'ai développé rapidement sur un coin de bureau un script pour lister les alarmes déclenchées sur les hôtes ESX et les machines virtuelles portées par ces hôtes, car à ma grande surprise, PowerCli ne possède pas de commande permettant de les obtenir directement. Il faut donc ruser un peu et utiliser les vues d'ensemble de machines virtuelles et physiques pour récupérer leur état et ensuite afficher les alarmes en lien. Ce script a été développé et testé avec PowerCli 6.5 ; à noter que depuis la version 6, ce ne sont plus des SnapIn mais des modules (source), il faudra donc adapter le début du script si jamais la version exécutée fonctionne avec des SnapIn.

Import-Module VMware.VimAutomation.Core
$ESXI = Read-Host "vSphere vCenter server to connect to"
Connect-VIServer $ESXI
Write-Host ""
Write-Host "Collecting virtual machines list..."
Write-Host ""
$VMArrayList = Get-VM
foreach ($VM in $VMArrayList)
{
$VMView = Get-View -ViewType VirtualMachine -Filter @{"Name" = "$VM"}
if ($VMView.TriggeredAlarmState.Overallstatus -eq "red")
{
foreach ($VMAlarm in $VMView.TriggeredAlarmState)
{
$VMAlarmType = $VMView.TriggeredAlarmState.Alarm
$VMAlarmTime = $VMView.TriggeredAlarmState.Time
$VMAlarm = Get-AlarmDefinition -id $VMAlarmType
Write-Host "Virtual Machine: $VM"
Write-Host "Alarm: $VMAlarm"
Write-Host "Time: $VMAlarmTime"
Write-Host ""
}
}
}
Write-Host "Done!"
Write-Host "Now collecting physical hosts list..."
Write-Host ""
$HostArrayList = Get-VMHost
foreach ($HostSys in $HostArrayList)
{
$HostView = Get-View -ViewType HostSystem -Filter @{"Name" = "$Host"}
if ($HostView.TriggeredAlarmState.Overallstatus -eq "red")
{
foreach ($HostAlarm in $HostView.TriggeredAlarmState)
{
$HostAlarmType = $HostView.TriggeredAlarmState.Alarm
$HostAlarmTime = $HostView.TriggeredAlarmState.Time
$HostAlarm = Get-AlarmDefinition -id $HostAlarmType
Write-Host "Host: $Hostsys"
Write-Host "Alarm: $HostAlarm"
Write-Host "Time: $HostAlarmTime"
Write-Host ""
}
}
}
Write-Host "Done!"

Présentation de mon "cloud" personnel

Je possède une plateforme en ligne me permettant entre autres d'assouvir ma curiosité IT mais également de répondre à plusieurs besoins - que je me suis moi-même créé, d'ailleurs. Après avoir eu pendant longtemps un serveur (généralement sous Debian), il y a quelques temps j'ai décidé de passer sur une plateforme virtualisée afin de séparer chaque fonctionnalité de mon nuage et de gérer les choses plus facilement. Initialement sous Proxmox VE, je suis passé sous VMware après l'avoir pratiqué dans un contexte professionnel. Le but de cet article est d'essayer de présenter ce nuage, ce que j'en fais, comment je l'ai pensé et comment il vit.

Tout d'abord, ce nuage est basé sur une seule machine physique. Il s'agit d'un serveur que je loue chez SoYouStart qui est le milieu de gamme de chez OVH (l'entrée de gamme étant assurée par Kimsufi et le haut de gamme par OVH lui-même). Sa configuration est la suivante :

  • CPU : AMD Opteron 4334 à 6 coeurs, 6 threads et 3.1 GHz
  • RAM : 32 Go DDR3 1333 MHz
  • HDD : 2 x 3 To SATA, configurés en RAID 1
Il s'agit de la configuration OP-SAT-1-32. Après plusieurs années sur un modèle moins puissant fonctionnant sous Proxmox VE, j'ai fait ce choix car les 32 Go de RAM sont le minimum dont j'ai besoin dans le cadre de la virtualisation afin de ne pas dimensionner un peu court les machines ; le processeur plutôt puissant suffit à toutes les tâches et ne peine pas face à de multiples décodages de vidéos en 1080p sur Plex ; les disques durs, bien que simples SATA en 7200rpm suffisent même si le confort des SSD que j'ai pu essayer manque à l'appel, en ayant en contrepartie un espace suffisant pour tout type de machine virtuelle.
La couche de virtualisation est un VMware ESXi 6.5u1. Elle héberge donc - entre autres, je ne vais présenter que les machines qui sont permanentes - :
  • 1 appliance pfSense, fonctionnant sous BSD ;
  • 2 contrôleurs de domaine sous Windows Server 2012 R2 ;
  • 1 serveur de fichiers sous Windows Server 2012 R2 ;
  • 1 serveur applicatif sous Windows Server 2012 R2 ;
  • 1 serveur RDP sous Windows Server 2012 ;
  • 2 serveurs multimédia Plex sous Debian ;
  • 1 serveur applicatif sous Debian ;
  • 1 serveur VPN sous Debian ;

L'appliance pfSense : 1 vCPU et 512 Mo de RAM

J'en ai déjà parlé dans ce billet. pfSense est un serveur BSD pouvant entre autres remplir le rôle de routeur/pare-feu. Etant donné qu'à la différence de Proxmox VE qui permet de faire du NAT nativement grâce à iptables, l'adoption de VMware m'a forcé à passer par une solution tierce pour mettre en réseau mes machines virtuelles derrière un pare-feu en n'utilisant qu'une seule IP publique. Mon serveur fonctionne donc avec deux adresses IP : l'une utilisée par la carte physique, l'autre en IP failover utilisée par l'interface virtuelle de pfSense et qui sert d'IP publique pour mes machines virtuelles et de base pour le routage des paquets vers les bons ports.

Les contrôleurs de domaine : 1 vCPU, 2 Go de RAM et 120 Go d'espace disque par DC

Je pourrais très bien fonctionner avec un seul contrôleur de domaine étant donné que je ne possède qu'un seul serveur pour héberger toutes mes machines et qu'il n'y a aucune notion de haute disponibilité. Cependant, ayant déjà eu le cas d'un contrôleur de domaine complètement planté suite à une mise à jour qui s'est mal déroulé sur une précédente infrastructure personnelle, je préfère en avoir deux fonctionnant de concert ce qui me permet de toujours avoir le domaine même si une mise à jour ou un plantage grave arrive sur l'un (corruption du fichier VMDK par exemple, ce qui m'est déjà arrivé).
Le premier porte tous les rôles (FSMO, PDC...), les deux ont le rôle DNS et ont été installés avec l'interface graphique. C'est un point que je souhaite changer prochainement et qui fera sans doute l'objet d'un billet. Ayant toutes les consoles d'administration sur une autre machine, je ne m'y connecte que très rarement et fonctionner uniquement en mode core pourrait limiter la consommation - déjà très faible - de ressources.

Le serveur de fichiers : 2 vCPU, 3 Go de RAM et 3 disques virtuels pour un total de 720 Go

Ce serveur fonctionnant sous 2012 R2 me sert pour stocker une partie de mon OneDrive, ainsi qu'héberger divers espaces partagés entre les machines (sources d'applications, scripts, téléchargements, bases de données...). J'y stocke également les sauvegardes des serveurs Windows que je réalise grâce à l'outil intégré. Afin d'avoir une compatibilité maximale avec les applications, ce serveur fait fonctionner un serveur FTP fonctionnant sous FileZilla.

Le serveur applicatif sous Windows : 2 vCPU, 3 Go de RAM et 2 disques virtuels de 120 Go

J'utilise cette VM pour faire fonctionner des applications qui ont besoin d'un environnement Windows (ou qui sont plus faciles à faire fonctionner ou configurer sous Windows). Je m'en sers principalement pour faire fonctionner un serveur Minecraft personnel ou d'autres serveurs de jeux, afin de ne pas avoir à conserver les fichiers et exécuter le serveur dédié sur mon propre PC personnel. Cela me permet également de donner accès à des personnes de ma famille qui sont en dehors de mon réseau personnel. 

Le serveur RDP : 2 vCPU, 2 Go de RAM et 120 Go d'espace disque

C'est ce serveur qui permet de rebondir sur le reste du réseau et le seul RDP à être ouvert sur l'extérieur. Plutôt que d'ouvrir les RDP ou les bureaux graphiques des autres machines, j'ai préféré tout fermer et ne laisser l'accès que depuis cette seule machine afin de limiter le nombre de ports à nater. Cette VM possède ensuite tous les clients nécessaires à la connexion aux services VMware de l'hyperviseur, aux bureaux graphiques des machines Linux, PuTTY pour le SSH, sans oublier les consoles d'administration pour les services répartis sur les serveurs. Plus qu'un serveur de rebond, il s'agit également d'un serveur d'administration et c'est sur cette machine que je réalise la majorité de mes scripts. Pour des questions de sécurité, la connexion à cette machine se fait avec un autre compte utilisateur que les autres machines Windows, ce compte n'ayant aucun autre droit sur le domaine (et mon compte utilisateur standard n'ayant aucun droit sur le serveur RDP, seul mon compte d'administration ayant des droits transverses).

Les 2 serveurs Plex : 4 vCPU, 4 Go de RAM et 50 Go d'espace disque pour le premier, 1 vCPU, 2 Go de RAM et 100 Go d'espace disque pour le second

Pourquoi deux serveurs Plex ? Car ils fonctionnent différemment.
Le premier serveur Plex, avec sa grosse configuration, est dédié à la diffusion de contenu vidéo. Films, séries, concerts, émissions TV... tout ce qui peut demander une bonne puissance de calcul en cas de diffusion sur un appareil qui ne peut décoder le flux directement (comme un iPad). Comme je l'ai expliqué dans ce billet, le contenu n'est pas stocké directement sur le serveur, mais en ligne, sur Google Drive. J'utilisais auparavant Amazon Drive mais le blocage complet de l'API suivi d'un changement des grilles tarifaires m'a fait résilier mon abonnement pour me diriger vers celui de Google, qui s'est avéré plus fiable, plus rapide pour pas beaucoup plus cher dans l'absolu (8 euros par mois contre 70 euros à l'année). Afin de supporter le streaming sur plusieurs appareils (généralement un seul, mais 3 devant être un nombre géré sans problème avec du 1080p), il a fallu dimensionner correctement la machine et 4 cœurs virtuels sont suffisants.
Le deuxième serveur Plex à la configuration bien plus modeste est dédié à la diffusion de contenu audio. La musique est stockée directement sur le disque de la machine virtuelle afin de ne pas avoir à faire des appels à l'API de Google Drive sans arrêt à chaque changement de piste, sans compter que 100 Go sont aisément disponibles sur l'hyperviseur.

Le serveur applicatif Debian : 2 vCPU et 2 Go de RAM pour 120 Go d'espace disque

Cette VM héberge un serveur web, un serveur de base de données MySQL, ainsi que quelques autres applicatifs web. L'usage est principalement local, certaines applications dont je me sers peuvent avoir besoin d'une base de données, par exemple. Grâce à des scripts conçus sous Webmin, les bases de données ainsi que certains fichiers sont sauvegardés sur le serveur de fichiers, qui lui-même les sauvegarde par la suite sur OneDrive, ce qui me permet de pouvoir restaurer à un instant T si besoin.

Le serveur VPN : 1 vCPU et 1 Go de RAM pour 10 Go d'espace disque

Afin de pouvoir profiter de réseaux Wi-Fi publics sans me sentir "nu", ce petit serveur VPN est idéal. Fonctionnant sur une base d'OpenVPN Access Server, l'installation et la configuration se font très facilement, et des clients existent aussi bien pour les ordinateurs que les appareils mobiles. Je m'en sers dès que je suis sur un réseau Wi-Fi qui n'est pas celui que j'utilise à la maison. 
Et c'est déjà pas mal ! J'ai également possédé pendant quelques temps un serveur de messagerie personnel, lié à mon nom de domaine, dont je me servais à des fins personnelles, connecté à mes clients de messagerie ou accessible via un webmail. Fonctionnant sous Debian avec Postfix et Dovecot, lorsque j'ai repensé intégralement l'architecture en adoptant VMware, j'ai décidé de ne pas conserver la messagerie personnelle. Trop peu d'utilité et de confort par rapport à mon usage : sauvegarde horaire de la boîte aux lettres, adresse considérée chez certains destinataires comme spam, difficulté de configuration... Concernant le dimensionnement des machines, il est plutôt large, et d'ailleurs, si toutes les machines devaient occuper 100% de leurs vCPU, cela saturerait l'hyperviseur ; cependant, très peu de risque que cela arrive. En moyenne, le CPU tourne entre 5 et 10% de ses capacités, avec une moyenne à 30% lors de la diffusion de médias via Plex. Actuellement, le serveur en est à 245,24 jours de fonctionnement... et ça n'est pas prêt de s'arrêter.