Monitoring

La supervision et le monitoring proactif et actif, ce sont des affaires d’hommes, d’outils, de procédures et de savoir-faire, un savoir-faire accumulé par Smals au cours de plusieurs décennies d’activité dans ce domaine, au service de ses membres.

Le monitoring implique que les machines des membres soient supervisées en permanence et que les signaux nécessaires soient communiqués dès le moindre problème, afin que vos responsables reçoivent les informations critiques dans les délais. Bien souvent, ce monitoring nous permet même de fournir des informations à titre préventif, de manière à ce que nous puissions éviter des interruptions du service.

Les applications critiques pour l'organisation exigent une performance et une disponibilité maximales. Pour ces applications, des garanties de disponibilité spécifiques sont définies dans un Service Level Agreement.

Pour les applications moins critiques, nous partageons l'infrastructure entre plusieurs membres afin de réduire les coûts.

Nous pouvons étendre le monitoring aux applications mêmes. Dans ce cas, nous ne nous limitons pas à vérifier la disponibilité des machines mais, le cas échéant, nous testons aussi régulièrement le fonctionnement de processus ou fonctions spécifiques au sein des applications.

Le service Supervision veille à ce que les actions nécessaires soient entreprises, et à ce que les personnes concernées soient informées au plus vite, soit proactivement, soit rétroactivement, des activités ou systèmes suivis.

Niveau de service

Avant la mise en production d’une application, les paramètres critiques qui caractérisent l’activité et la disponibilité du système sont convenus avec le membre donneur d’ordre ou le comité de pilotage ad hoc, ainsi que le niveau de service à assurer aux utilisateurs finaux de l’application.

Les paramètres critiques doivent être mesurés de manière continue, et pour cela des outils appropriés sont mis en œuvre: c’est le monitoring.

Pour respecter le niveau de service convenu, il faut aussi appliquer des procédures de supervision qui permettent de déclencher des actions préventives ou de correction lorsque l’on signale un incident, qu’un paramètre ne se comporte pas de manière normale ou que le suivi des paramètres critiques met en évidence la nécessité de prévoir une évolution à terme du système ou de l’application.

Service à la carte

Notre offre prévoit pour chaque service de base un niveau de service standard qui est proposé par défaut au membre. Si l’application est fort critique ou qu’un risque particulier doit absolument être évité, un niveau supérieur de service est défini. Ce service, le monitoring et les procédures associées sont alors fournis de manière spécifique pour cette application.

Procédures

La rapidité de réaction en cas d’incident ou de problème et la capacité de revenir le plus vite possible à une situation normale contribuent largement au respect du niveau de service convenu.

C’est pourquoi les procédures à suivre par l’équipe de supervision de Smals doivent être définies avec le plus grand soin et rodées avant la mise en production.

Les procédures d’escalation font partie de cet arsenal de mesures. L’escalation est invoquée lorsqu’un incident grave ne trouve pas sa résolution dans un intervalle de temps prédéfini. Notons que l’escalation s’effectue toujours en parallèle : les niveaux décisionnels correspondants sont prévenus simultanément au sein de notre organisation et de celle du ou des membres concernés.

Monitoring automatique et interactif

Par défaut, un certain nombre de paramètres sont suivis automatiquement. Il s’agit par exemple de l’accessibilité des serveurs à travers le réseau, de la charge du processeur, de l’espace disque libre, etc. A chacun de ces paramètres est attaché un seuil critique. Lorsque la valeur observée en permanence dépasse ce seuil de manière significative, une alarme s’affiche automatiquement sur la console du superviseur, qui enclenche alors la procédure adéquate.

Un tel monitoring automatique peut aussi être mis en place pour le suivi de la disponibilité et du fonctionnement normal de l’application. Ceci nécessite l’utilisation de probes (demandes synchrones d’information au système, par exemple toutes les heures) ou la collecte de traps (notifications instantanées par le système de l’occurrence d’un événement) qui doivent être définis le plus judicieusement possible de manière à faciliter la rapidité et la clarté du diagnostic.

Parfois un test manuel de disponibilité de l’application est prévu (par exemple toutes les 10 minutes). Ce mécanisme est assez lourd puisqu’il implique une présence humaine permanente, éventuellement 24h/24 dans le cas d’applications critiques.

Proactivité

L’idée ici est d’anticiper les problèmes, et de prendre avec les membres concernés les mesures qui s’imposent afin de les éviter. Ainsi lors de la mise en route d’applications s’adressant à une large communauté d’utilisateurs potentiels, un test de charge est organisé. Sur la base de scripts prédéfinis, des charges fictives sont appliquées au système pour mesurer l’évolution de la performance en fonction de l’augmentation de la charge simulée.

Chaque mois, des statistiques caractérisant les volumes et les performances sont discutées avec les membres concernés. Des tendances sont mises en évidence et des mesures permettant d’assurer proactivement l’évolution harmonieuse du système peuvent être planifiées.

Première ligne et deuxième ligne

Le service Supervision prend en charge et résout la majorité des incidents relevés. Pour les cas plus complexes, il a recours aux sections spécialisées de Smals qui fournissent une expertise profonde en matière d’application, de sécurité, de serveurs et de réseau. Il peut aussi être fait appel aux fournisseurs externes, par exemple en cas de panne matérielle ou de suspicion de bug logiciel.

En conclusion, Smals possède les outils, les hommes et le savoir-faire pour répondre aux attentes de nos membres en matière de supervision et de monitoring proactif et actif. Et par-dessus tout, nous mettons à votre disposition une culture d’entreprise orientée 100% et 24h/24 vers le respect des niveaux de service et la résolution ultrarapide des incidents, en étroite collaboration avec nos membres et les utilisateurs finaux.