Gérer vos incidents IT grâce à l'IA générative

La promesse du cloud repose sur une dualité bien connue des DSI : d'un côté, une simplicité de consommation des ressources IT ; de l'autre, une complexité croissante dans la gestion des composants. En phase de projet, les équipes disposent du temps nécessaire pour investiguer. Mais lorsqu'un incident survient en production, il faut des réponses immédiates, quelle que soit l'heure ou le jour de la semaine.

C'est précisément dans ce contexte que l'IA générative appliquée aux opérations IT apporte une aide décisive. 

Retrouvez dans cette vidéo une approche concrète et opérationnelle, adaptée aux enjeux du secteur public et conforme aux exigences de sécurité des données du marché "Prestations en environnement Cloud" de l'UGAP.

3 cas d'usage IA pour des opérations IT efficaces

Lire la transcription

Gestion des incidents grâce à l'IA générative appliquée aux opérations
Bonjour, aujourd'hui nous allons parler de la gestion des incidents grâce à l'IA générative appliquée aux opérations.
Il existe une dualité entre la simplicité de consommation des ressources IT, notamment grâce au cloud, et la complexité de gestion des éléments que l'on peut intégrer dans ces clouds. Les équipes font face à la gestion de composantes très variées tels que les systèmes d'exploitation, les orchestrateurs de containers, des outils d'automatisation et des chaînes de déploiement continu.
Dans les phases de projet et d'intégration, nous avons le temps de trouver des réponses à nos questions techniques. En revanche, dans le cadre de la gestion des incidents, il nous faut des réponses rapides, quelle que soit l'heure ou le jour de la semaine. C'est dans ce contexte que la GenAI apporte une aide précieuse.
Je vais rapidement parler de trois cas d'usage où l'intelligence artificielle générative apporte énormément de valeur.
Tout d'abord, le cas le plus connu, c'est l'assistance des opérations avec un chatbot. Dans ce cadre-là, l'usage le plus courant est d'avoir un opérationnel qui va directement poser des questions à un chatbot, qui va pouvoir fournir des explications à une anomalie, guider pas à pas la résolution d'un incident, générer même des commandes, des scripts, des playbooks, aider à déployer ou à corriger une configuration.
Les bénéfices sont la réduction du temps perdu à rechercher de l'information, une aide immédiate 24h/24 et 7 jours sur 7. Ça aide aussi à l'autonomie des équipes et ça permet de diminuer légèrement le niveau d'expertise nécessaire.
Un autre cas d'usage est aussi l'aide et l'assistance via un ITSM. L'IA analyse un incident dès sa création dans l'ITSM et enrichit automatiquement le ticket. Il y a une lecture automatisée qui réalise une corrélation avec l'historique des incidents et des résolutions. L'IA permet une qualification plus fiable de la cause probable des incidents, des suggestions et des actions de résolution qui pourront être implémentées par un opérationnel.
Les incidents sont analysés plus rapidement, de manière plus cohérente. On minimise les erreurs de qualification et surtout on diminue les allers-retours entre les équipes techniques. L'IA permet de diminuer le niveau d'expertise nécessaire au traitement de ces incidents. Tout ceci tend, en termes de bénéfice, à une réduction des délais de résolution.
Enfin, on peut aussi parler des cas d'auto-remédiation via ce qu'on appelle des MCP servers. Une fois l'incident analysé, l'IA peut déclencher automatiquement la correction sur les systèmes impactés. À partir d'un diagnostic validé, l'IA va orienter vers un catalogue d'actions automatisées une exécution. Celle-ci sera sécurisée par une intervention humaine, et derrière, ce sont des playbooks type Ansible, Terraform ou Argo CD qui seront joués pour remédier à l'incident.
Quelques exemples que l'on peut donner là-dessus : redémarrer un service applicatif, étendre un filesystem, compresser un log ou relancer un job. Toutes ces actions sont bien entendu tracées, réversibles, approuvées selon les règles de sécurité de votre organisation.
Les bénéfices : une réduction des interruptions de services. Les équipes se concentrent plutôt sur les incidents complexes et aussi la réduction de la répétitivité de ces incidents. Cela va limiter les interventions en heures non ouvrées et ça va optimiser la productivité de vos équipes opérationnelles.
Il est entendu que parmi ces cas d'usage, on peut avoir des craintes sur la souveraineté et la confidentialité des données. Il faut savoir que tous ces cas d'usage décrits ici peuvent être réalisés sur des clouds de confiance avec des outils open source. Le contrôle de vos données dans ce cadre là est total.

Pour conclure, la GenAI devient aujourd'hui un véritable pilier des opérations modernes. Elle accompagne les équipes opérationnelles au quotidien. Elle qualifie et enrichit les incidents. Elle corrige automatiquement certains dysfonctionnements. Résultat : un IT plus fiable, des équipes plus efficaces, un meilleur service rendu aux usagers, tout en garantissant sécurité et souveraineté de vos données.
Pour tous ces projets, le groupement Atos Open est à votre disposition pour vous accompagner dans le cadre du marché prestation en environnement cloud de l'UGAP.

Les points clés à retenir

Assistance opérationnelle via chatbot

Un agent conversationnel disponible 24h/24 et 7j/7 guide les opérationnels pas à pas : explication d'une anomalie, génération de commandes, scripts ou playbooks, aide au déploiement ou à la correction de configurations. Résultat : moins de temps perdu à chercher l'information et une montée en autonomie des équipes, même avec un niveau d'expertise moindre. 



Analyse et enrichissement automatique des tickets

Dès la création d'un incident dans l'ITSM, l'IA analyse le ticket, le corrèle à l'historique des incidents et résolutions passées, et propose une qualification fiable de la cause probable ainsi que des suggestions d'actions correctives. Les erreurs de qualification diminuent, les escalades inutiles entre équipes sont réduites, et le délai moyen de résolution chute significativement.

 

Souveraineté et confidentialité garanties

L'ensemble de ces cas d'usage peut être déployé sur des clouds de confiance, avec des outils open source, garantissant un contrôle total sur les données. Aucune dépendance à des services tiers non maîtrisés : la sécurité et la souveraineté restent au cœur du dispositif.

L'IA générative devient un véritable pilier des opérations modernes : elle accompagne les équipes au quotidien, qualifie et enrichit les incidents, corrige automatiquement certains dysfonctionnements. Résultat ? Des équipes IT plus efficaces, un service plus fiable rendu aux usagers — tout en garantissant la sécurité et la souveraineté des données.
Pierre-Arnaud DESSAIGNES Expert Cloud, groupement Atos-Open

Pour aller plus loin