Ce qu'un POC Proxmox doit réellement valider
La première question qu'on pose quand une DSI veut "faire un POC Proxmox" : qu'est-ce que vous souhaitez valider exactement ?
La réponse est souvent vague. "On veut voir si ça fonctionne." Mais ça ne dit pas grand chose. Une VM Proxmox démarre en 90 secondes sur n'importe quel laptop de développeur. Ça "fonctionne" depuis la version 3.0.
Un POC enterprise sérieux répond à une question précise : ce projet de migration peut-il être exécuté sur ce périmètre, avec cette équipe, dans ces contraintes, en maintenant ce niveau de service ?
Définir les critères de validation avant de commencer
C'est la règle la plus importante, et la plus souvent contournée.
Si les critères de succès ne sont pas définis avant le POC, ils seront définis après. And quand ils sont définis après, ils s'adaptent aux résultats observés — ce qui supprime toute valeur décisionnelle au POC.
Les critères à définir en amont :
- RTO cible par catégorie de VM (critique, standard, développement)
- RPO acceptable par profil applicatif
- Performance minimale attendue (IOPS, latence) sur les workloads représentatifs
- Temps maximal de migration par VM (pour estimer la durée des vagues)
- Critères de rollback en cours de POC
Le rollback : le premier test, pas le dernier
La capacité de revenir en arrière est souvent testée en fin de POC, si elle est testée. C'est une erreur.
Le rollback doit être le premier scénario validé. Avant de migrer quoi que ce soit en production, il faut savoir répondre à cette question : "si on constate un problème 48h après une migration, comment on revient à l'état précédent ?"
Test de rollback à inclure :
- Migration d'une VM test vers Proxmox
- Simulation d'un problème applicatif (ne pas chercher un vrai problème — en simuler un)
- Décision de rollback : qui décide, sur quels critères, dans quel délai ?
- Exécution du rollback : remettre la VM sur VMware et vérifier qu'elle redémarre correctement
- Durée mesurée de bout en bout
Les workflows opérationnels : ce que la doc ne teste pas
Le POC doit simuler les tâches courantes que l'équipe exploitation réalisera en production.
Pas les tâches de déploiement initial — celles-là, n'importe qui peut les faire avec la documentation. Les tâches récurrentes et les interventions sous pression.
Workflows à couvrir obligatoirement :
- Redémarrage d'urgence d'une VM
- Connexion console en cas de perte réseau VM
- Snapshot manuel avant une opération risquée
- Restauration d'un fichier depuis PBS
- Ajout d'un disque à une VM en production
- Mise à jour d'un nœud Proxmox avec migration Live des VMs
La validation des sauvegardes : plus profond que "le backup s'est terminé sans erreur"
Un backup non vérifié n'est pas un backup. C'est un fichier d'espoir.
Le POC doit inclure des tests de restauration complète — pas juste des vérifications de type "le job de sauvegarde montre une coche verte".
Tests de validation PBS :
- Sauvegarde d'une VM applicative représentative (idéalement avec une base de données)
- Restauration complète dans un environnement isolé
- Démarrage de la VM restaurée et vérification de la cohérence applicative (pas juste "le ping répond")
- Mesure du temps de restauration end-to-end
- Test de vérification d'intégrité PBS sur le backup produit
Les tests PRA : pas uniquement sur la partie Proxmox
Un POC Proxmox n'est pas complet s'il n'intègre pas un test PRA complet.
Ce test doit simuler la perte d'un site ou d'un cluster, et mesurer :
- Le temps de détection de l'incident
- Le temps de décision (qui décide le basculement, sur quel critère)
- Le temps d'exécution du basculement technique
- La cohérence applicative après basculement
- Le temps de retour à l'état nominal
Le RTO "technique" (temps d'exécution de la bascule Proxmox) est souvent différent du RTO "réel" (temps avant que les utilisateurs constatent un retour au service). La différence inclut la détection, la décision, et parfois des dépendances applicatives non anticipées.
La cohérence de performance dans le temps
Un benchmark de POC réalisé sur 30 minutes ne représente pas la performance en production sous charge réelle pendant 8 heures.
Ce que le POC doit mesurer :
- Performance sous charge représentative (pas des benchmarks synthétiques seuls)
- Performance pendant une opération de maintenance (live migration d'un autre nœud, rebuild Ceph)
- Performance après une semaine de fonctionnement en charge continue
La maturité de l'équipe : critère non technique mais décisif
Le POC doit aussi répondre à une question qu'on n'ose parfois pas poser explicitement : est-ce que l'équipe est prête à opérer cet environnement ?
Critères d'évaluation :
- Temps nécessaire pour diagnostiquer un problème de réseau Proxmox sans aide externe
- Capacité à interpréter les logs Ceph en cas d'alerte
- Aisance avec l'interface Proxmox pour les opérations courantes
- Compréhension du modèle de bascule HA
Si ces critères ne sont pas satisfaits en fin de POC, deux interprétations possibles : le périmètre n'est pas adapté, ou la formation doit précéder le déploiement production. Les deux sont des réponses honnêtes. Ce qui n'est pas une réponse honnête : ignorer la question et livrer un cluster sans plan de formation.
Ce que le POC doit produire comme livrable
Un POC sans document de sortie n'a pas existé pour les décideurs qui n'y étaient pas.
Livrables minimum :
- Résultats mesurés par critère de validation défini en amont
- Écarts constatés et plans de traitement
- RTO/RPO mesurés vs objectifs
- Points de risque résiduels documentés
- Recommandation go / no-go / conditions du go
Ce document est ce qui permet à la DSI de prendre une décision engagée, documentée, et défendable.