4 étapes pour améliorer les performances du réseau | NETSCOUT
Livre blanc
| Livre blanc |

4 étapes pour améliorer les performances du réseau

Introduction
Le réseau informatique est au cœur de la plupart des entreprises, prenant en charge les applications stratégiques cruciales, fournissant les données sur lesquelles les décisions opérationnelles sont prises et facilitant les communications avec les clients, les partenaires, les fournisseurs et les collègues. Plus que jamais avant, il constitue un atout stratégique pour les affaires, et tout temps d'indisponibilité ou dégradation du réseau ou des performances d’application affectera directement le résultat de l'entreprise. Pour offrir les niveaux de service convenus avec l’entreprise, le défi est double : améliorer et optimiser de façon proactive les performances pour faire en sorte que le réseau réponde aux exigences des utilisateurs, et résoudre tous les problèmes susceptibles d’apparaître aussi rapidement que possible, afin de réduire les temps d’indisponibilité. Ce livre blanc propose la méthodologie de résolution des problèmes de performance réseau et applicative et décrit une nouvelle approche pour déceler la cause fondamentale plus rapidement.

INTRODUCTION

L’identification de l’origine des problèmes liés au réseau et aux applications est de plus en plus difficile et longue dans les réseaux d’entreprise actuels. La virtualisation s’élargit pour passer du centre de données au bureau, les services cloud se répandent et l’approche BYOD (Bring Your Own Device, utilisation des périphériques personnels sur le lieu de travail) est bien implantée, traduisant des changements dans les schémas de travail et l’évolution des cultures.

Des problèmes peuvent se poser pour diverses raisons : multiplication des périphériques Wi-Fi, utilisation excessive de la bande passante par des applications non autorisées, erreurs de configuration, infrastructure de déploiement des applications de piètre qualité, etc. L’inclusion croissante de la voix et de la vidéo engendre toujours plus de complexité et pousse la bande passante dans ses derniers retranchements.

La résolution des problèmes de performances est rendue plus complexe et plus longue par les difficultés rencontrées pour tenter d’établir à qui en incombent les responsabilités, en particulier lorsque tous les groupes signalent des indicateurs clés de performances verts.


Le processus de traitement des problèmes de performances réseau


Pour identifier l’origine des problèmes de performances réseau, un processus de dépannage constitué de quatre étapes est suivi :

Figure 1 : processus de résolution des problèmes.



Les outils proposés pour faciliter la résolution des problèmes se composent de deux catégories : les NMS (Network Management Systems, systèmes de gestion réseau) et les outils de capture et d’analyse des paquets.

Le NMS intervient essentiellement lors de la phase de surveillance/d’alerte, en surveillant les routeurs et serveurs de la société et en demandant s’ils fonctionnent et répondent comme prévu. Toutefois, certains NMS sont si complexes à configurer qu’ils ne peuvent pas assurer de gestion au-dessous des périphériques de couche 3. Les commutateurs ne sont donc pas surveillés au niveau de la couche 2. Les éléments d’interrogation sont agrégés sur plusieurs minutes et sont donc lissés, ce qui contribue à masquer l’impact des pics d’utilisation. En outre, étant donné que le NMS occupe une position centrale, les mesures effectuées dans l’intention de cerner les temps de réponse au niveau de l’utilisateur final sont imprécises, car le test utilise une partie différente du réseau pour atteindre le périphérique examiné.

À mesure que l’ingénieur réseau progresse dans le processus de dépannage, l’utilité du NMS diminue et il ne parvient pas à fournir les informations détaillées nécessaires pour étudier les problèmes de performances de façon exhaustive.


Un sondage récent de NETSCOUT® mené sur environ 3 000 professionnels du réseau a révélé que 82 % des personnes interrogées considéraient les problèmes de performances réseau et applicatifs comme une difficulté ou une question cruciale, 52 % affirmant qu’un NMS ne dispose pas des capacités suffisantes pour accéder à l’origine du problème dans la plupart ou la totalité des cas. 51 % des personnes interrogées ont déclaré qu’elles avaient parfois ou la plupart du temps besoin de quitter leur pupitre pour résoudre le problème.

Pour obtenir des informations plus détaillées, l’ingénieur doit recourir à un logiciel gratuit ou des outils de capture et d’analyse des paquets proposés dans le commerce. Ceux-ci ont un rôle limité au stade de l’alerte car ils ne voient qu’un point unique du réseau, mais expriment tout leur potentiel au stade de l’analyse de l’origine du problème. Complexes, les outils d’analyse des paquets réclament le concours d’ingénieurs qualifiés et expérimentés. En outre, leur utilisation est fastidieuse, car elle peut impliquer d’énormes volumes de données : des millions de paquets à parcourir, affichés via des interfaces utilisateur différentes. Cela rend le processus de dépannage beaucoup plus difficile et plus long.


Où les problèmes peuvent se cacher dans le réseau


L’écart entre ces outils – un NMS sans informations complètes et des outils de capture de paquets complexes - accroît la valeur MTTR (durée moyenne de rétablissement). Des problèmes intermittents et gênants peuvent se « dissimuler » dans le réseau, réduisant ainsi la productivité et la crédibilité du service informatique.

Pour étudier et résoudre rapidement les problèmes de performances, l’ingénieur a besoin d’une visibilité de bout en bout sur tout le réseau. Il lui faut donc une solution dédiée d’analyse automatisée du réseau et des applications comblant l’espace laissé entre le NMS et la capture de paquets traditionnels.

Les points suivants doivent être traités :
  • Équipements non gérés : qui ont peut-être été achetés parce qu’ils étaient moins onéreux mais dont le dépannage s’avérera plus coûteux en cas de problèmes, car ils n’offrent pas de visibilité de l’intégrité de chaque segment de réseau et les niveaux d’utilisation ne peuvent pas être surveillés. En revanche, avec un commutateur géré, les ingénieurs réseau peuvent accéder à n’importe quel port de commutateur pour consulter les erreurs, afficher les informations d’utilisation et voir qui est connecté à ce port.
  • Réseaux non documentés : un problème permanent, étant donné que les changements fréquents auxquels sont soumis les réseaux rendent généralement obsolète n’importe quelle documentation sitôt son élaboration terminée. Le fait de tenter de remonter physiquement le chemin prendrait beaucoup de temps, mais sans documentation précise, l’ingénieur ignore vers où circulent les différents paquets. Il faut un moyen de découvrir le chemin en temps réel à travers le réseau.
  • Volume de données trop important : alors que le problème réside peut-être dans quelques paquets seulement. La résolution des problèmes serait beaucoup plus rapide avec une méthode de tri automatisée des paquets capturés permettant d’y détecter les éléments défectueux - une analyse orientée applications adoptant une approche « Top Down » (du haut vers le bas).
  • Problèmes passés : qui ne sont portés à l’attention de l’ingénieur que plusieurs heures après leur apparition. Il faut un moyen de remonter dans le temps en capturant et en analysant de grandes quantités de données détaillées sur une période prolongée, de 24 heures, par exemple, pour saisir les problèmes intermittents.
  • Nouvelles technologies non surveillées - telles que l’Ethernet 10 Gbit ou le Wi-Fi 802.11n. De nombreuses organisations se sont abstenues d’investir dans une instrumentation liée à ces technologies, parce qu’elles sont convaincues que la forte augmentation de capacité permettra de surmonter tous les problèmes.
  • Périphériques sans fil - l’ingénieur a besoin d’une façon d’identifier et de surveiller les périphériques, y compris BYOD, et d’identifier les interférences Wi-Fi et non-Wi-Fi issues des périphériques Bluetooth, des téléphones sans fil, des fours à micro-ondes, etc. via l’analyse du spectre.
  • Problèmes extérieurs au réseau - l’ingénieur peut les identifier et transmettre le problème de performances et les éléments de preuve associés à d’autres équipes informatiques ou fournisseurs de services externes, avec suffisamment d’informations pour permettre un complément d’enquête et une résolution rapide.

Résolution des problèmes : une nouvelle approche

Il faut une solution de gestion des performances réseau et applicatives holistique qui capture toutes les données du réseau et procure une analyse intelligente permettant aux ingénieurs d’isoler l’origine du problème plus rapidement, ou de déterminer si le problème réel se situe à l’extérieur du réseau. Cette solution doit collecter, agréger, corréler et soumettre à la médiation toutes les informations, concernant notamment le flux, les données SNMP et des informations recueillies à partir d’autres périphériques, avec une granularité atteignant jusqu’à une milliseconde. Les données doivent être affichées via un tableau de bord unique configurable par l’utilisateur, de manière à permettre d’appliquer des flux opérationnels guidés pour isoler rapidement l’origine du problème. Le fait de supprimer le besoin d’établir des hypothèses et de permettre à l’utilisateur de suivre un processus logique jusqu’à l’identification et la résolution du problème a pour effet de réduire la valeur MTTR et d’améliorer l’efficacité de l’ingénieur réseau.

Une solution de gestion des performances réseau et applicatives facilite tous les stades du processus de dépannage et offre la visibilité nécessaire pour prendre en charge l’optimisation du réseau.


PREMIÈRE ÉTAPE : SUIVI/ALERTE

Pour le traitement et la résolution des problèmes du réseau, il faut avant tout disposer d’un système générant en temps opportun une alerte signalant l’apparition d’un problème. Le pire scénario est d’être averti par un appel d’un client, car l’ingénieur est alors déjà en difficulté. Il est nécessaire de configurer manuellement un grand nombre d’alertes d’outils de gestion du réseau pour chaque réseau en réglant le système de manière à ce qu’il lance un ping ou découvre tous les périphériques de chaque domaine de broadcast. Avec une solution de gestion des performances réseau et applicatives toujours active, en revanche, la découverte automatisée et les flux opérationnels guidés permettent rapidement et facilement de voir immédiatement ceux qui sont connectés. Le temps nécessaire à la configuration et la surveillance s’en trouve considérablement réduit.

Les données de performances sont collectées en permanence, stockées dans une base de données et affichées via une interface utilisateur graphique sur un tableau de bord de performances, que l’utilisateur peut configurer selon ses propres besoins. Les performances sont surveillées par rapport à une référence définie par l’utilisateur (le contrat de niveau de service, par exemple) et toute valeur s’en écartant est immédiatement présentée sous forme d’alarme. L’utilisateur peut alors voir le problème selon des degrés de détail variables en abordant le stade de l’enquête.

Les systèmes de gestion des performances réseau et applicatives peuvent également être intégrés aux systèmes de gestion de réseau existants tels que HP OpenView ou Tivoli Netcool, et transmettre des informations et des alarmes à des solutions de gestion des services et de tableau de bord opérationnel.


DEUXIÈME ÉTAPE : ÉTUDIER

L’ingénieur réseau doit maintenant étudier la portée du problème. Pour faciliter une étude rapide et précise, la solution doit pouvoir collecter et stocker toutes les données pertinentes, concernant par exemple, le SNMP, les flux, les paquets, le temps de réponse au niveau de l’utilisateur final, etc., et les stocker en vue d’analyses ultérieures. Une solution de gestion des performances réseau et applicatives offre également une méthode en temps réel de découverte du chemin du client vers le service ou vers l’application, réduisant ainsi sensiblement les délais nécessaires ; il est alors possible de trouver le chemin entre les deux périphériques et de le surveiller pour rechercher des problèmes éventuels sur les réseaux internes et externes et les périphériques présents dans le chemin. Les résultats sont affichés sous un format graphique pour faciliter la compréhension et permettre une analyse rapide de l’origine du problème.

Pour une efficacité optimale, le système doit proposer des interfaces présentant une connectivité 1 Gbit/s et 10 Gbit/s, et être capable de capturer des données au débit de la ligne sur le fil. Certaines solutions peuvent remonter un chemin à travers le réseau d’un client vers un serveur en identifiant les périphériques de couche 2 et de couche 3 présents dans le chemin et en offrant la granularité nécessaire pour identifier la source du problème.

Si le problème se situe au niveau d’un client ou d’un groupe de clients, l’ingénieur doit effectuer un test de performances ou de réaction des applications pour déterminer si cela concerne un réseau filaire ou sans fil. En offrant des outils filaires et sans fil intégrés avec la même interface utilisateur, le système réseau et applicatif permet à un test unique de déterminer la source du problème.

L’éclosion de logiciels malveillants peut également être identifiée dans le cadre de ce processus, avec notamment l’adresse IP d’origine, permettant à l’ingénieur d’identifier l’origine de l’immobilisation qui échappe aux autres outils.


TROISIÈME ÉTAPE : ISOLER

A ce stade, le problème a été isolé sur un segment du réseau, un commutateur, un routeur ou une application unique, et le chemin, les périphériques et les ports du chemin ont été localisés. Le chemin doit alors être analysé, les statistiques de trafic de chaque liaison étant nécessaires pour déterminer si le problème est dû à un périphérique défectueux, au support d’une liaison, à du bruit ou des interférences, ou à une surcharge de trafic.

L’un des principaux avantages du protocole SNMP (Simple Network Management Protocol) tient à sa capacité d’isoler les domaines défectueux. Le fait d’utiliser SNMP pour interroger chaque connexion tout au long du parcours permet de déterminer si le ralentissement a pour origine un goulot d’étranglement. Cette opération s’effectue simplement lorsque les périphériques du chemin sont gérés et que l’ingénieur dispose des mots de passe ou des chaînes de communauté permettant d’interroger les périphériques. Autrement, l’ingénieur doit connecter un outil dans chaque liaison sans interrompre le fonctionnement du réseau pour consulter les statistiques sur les paquets et le trafic. Cela peut s’avérer extrêmement long dans le cas d’une zone géographique étendue présentant un grand nombre de liaisons, et il peut être nécessaire d’utiliser plusieurs outils à des emplacements différents.

Une vérification automatisée de l’intégrité de l’infrastructure réseau réalisée via un outil de gestion des performances réseau et applicatives permet de surveiller tous les périphériques pris en charge par SNMP, en recherchant parmi les flux applicatifs ceux qui présentent une perte de paquets ou une utilisation élevée en interrogeant les MIB SNMP sur les routeurs et en faisant état des résultats à intervalles réguliers. Que le réseau contienne des dizaines ou des milliers de commutateurs, le processus est simple et rapide.

Certains problèmes ne sont visibles qu’au niveau du point où ils sont apparus. Il faut donc utiliser un périphérique portable doté des fonctionnalités de test et de l’interface adéquates pour se connecter au niveau du point problématique, que celui-ci soit face à un client ou une liaison 10 Gigabits dans un centre de données. Avec un grand nombre de personnes travaillant à distance, il est essentiel de disposer d’un outil offrant cette visibilité, et ça le sera forcément davantage avec le développement de l’approche BYOD.

Il est également possible d’emporter un outil portatif sur un site distant pour diagnostiquer le problème lié à un équipement non géré dans le réseau, le tout sans qu’un ingénieur ait besoin de se déplacer. Idéalement, cet outil doit pouvoir effectuer une analyse du chemin, mesurer l’intégrité de l’infrastructure applicative et les flux applicatifs, et analyser les performances du WLAN, mais aussi examiner la capacité d’itinérance et de répétition et étudier toutes les interférences éventuelles issues de périphériques extérieurs.

En l’absence de liaisons surchargées ou présentant des erreurs de trame, il est probable que le problème ne concerne pas le réseau, mais cela ne peut être confirmé que si l’ingénieur a analysé les liaisons dans un délai raisonnable et que le problème qu’il tente de corriger persiste. Il faut pour cela disposer des données historiques capturées par le réseau et le système de gestion des performances applicatives.


ÉTAPE QUATRE : ANALYSE DE L'ORIGINE DU PROBLÈME ET RÉSOLUTION

A ce stade, l’ingénieur confirme la cause du problème, formule et implémente une correction et valide la solution. Si le problème est extérieur au réseau et n’est pas imputable à la réponse du serveur ou au fait que les ressources soient surchargées, il faudra se procurer des informations plus détaillées en capturant et en analysant les paquets. Il est important d’isoler préalablement la liaison ou de localiser le problème entre le serveur, le réseau et l’application, car l’analyse des paquets peut s’avérer extrêmement longue et nécessite un degré considérable de compétence et d’expérience.

Pour découvrir plus rapidement l’origine du problème, il est préférable d’adopter une approche « Top Down » (du haut vers le bas) dans l’analyse, en commençant au niveau applicatif. Ainsi, si le chemin est bon mais que le temps de réponse est médiocre, le problème peut concerner un serveur virtualisé, une application exécutée à plusieurs niveaux différents ou un bogue de l’application.

L’une des possibilités est d’utiliser un analyseur de paquets capable de présenter facilement le niveau applicatif et les diagrammes en escalier des paquets. Les branchements dérivés span ou dédoublés sont faciles à configurer mais peuvent perdre des paquets avec des charges de trafic élevées et ne présentent pas les erreurs de couche 1 car celles-ci sont bloquées par le commutateur de couche 2 fournissant le span. Les prises passives sont parfaites, mais le fait de les connecter rompt la connexion et coupe les utilisateurs des services fournis par la liaison concernée. Si les performances se dégradent, cela ne pose en général pas de problème, mais peut avoir un effet sur les personnes utilisant cette liaison pour se connecter à d’autres services.

Une meilleure solution est de concevoir le réseau avec des prises déjà placées en position stratégique face aux groupes de serveurs, centre de données et routeurs vers des liaisons externes, et au cœur du réseau. Cela permet d’effectuer les captures sans interrompre le fonctionnement du réseau. Si c’est impossible, l’ingénieur devra peut-être recourir au dédoublement du span ou du port, en gardant présents à l’esprit les problèmes et imprécisions que cela comporte.

Une solution de gestion des performances réseau et applicatives offre une méthode de tri automatisée des paquets capturés permettant d’y détecter les éléments défectueux. Elle adopte une approche orientée applications, avec une interface utilisateur graphique associant à chaque flux de données un indicateur visuel qui signale les problèmes. Il suffit à l’ingénieur de cliquer dessus pour procéder à l’analyse et voir exactement le ou les paquets posant problème. Pour faciliter encore cette opération, il est possible de capturer des paquets au niveau de plusieurs points de l’infrastructure pour déterminer l’emplacement du problème. Il faut pour cela pouvoir effectuer une analyse multi-segments, en déclenchant une capture de données au niveau de plusieurs points à la fois, puis en fusionnant les résultats pour obtenir le tableau d’ensemble.

Il est possible d’effectuer une analyse efficace de l’origine du problème au niveau du centre de données ou de sites distants pour vérifier si les problèmes sont liés au serveur ou aux applications. Certains outils peuvent extraire des informations de gestion des serveurs physiques ou virtuels pour faire apparaître les problèmes de performances et de ressources.

En collectant et en analysant des données détaillées historiques, le système de gestion des performances réseau et applicatives permet également à l’ingénieur de remonter dans le temps pour examiner les symptômes qui étaient présents lorsque le problème est apparu, permettant ainsi l’identification et la résolution des problèmes intermittents.


Optimisation réseau

Une application de gestion des performances réseau et applicatives offre la visibilité nécessaire aux ingénieurs pour documenter et vérifier l’intégrité de leur réseau d’entreprise. Elle leur permet de repérer les performances médiocres et de déterminer où les chemins des applications ou serveurs fonctionnent lentement, de manière à pouvoir traiter les chemins les plus lents et les plus stratégiques. Les informations obtenues peuvent être utilisées pour le classement par priorité des projets tels que les mises à niveau des serveurs et pour l’élaboration du dossier commercial réalisé à des fins d’approbation. Elles peuvent également aider à l’installation de nouveaux équipements et applications en permettant de vérifier que les mesures prises ont fonctionné et de s’assurer que celles-ci n’ont par ailleurs pas eu d’effet négatif sur les performances. Les données permettent également de prouver (le cas échéant) l’impact des modifications du réseau telles que la virtualisation, l’optimisation du réseau WAN ou la consolidation de centres de données.



À propos de NETSCOUT

NETSCOUT SYSTEMS, INC. (NASDAQ:NTCT) est leader sur le marché des solutions de garantie de service et de cybersécurité pour les réseaux actuels les plus exigeants des fournisseurs de service, des entreprises et des gouvernements. La technologie Adaptive Service Intelligence (ASI) de NETSCOUT surveille l’environnement de prestation de service pour identifier les problèmes de performances en continu et donner un aperçu des menaces à la sécurité sur le réseau, aidant les équipes à résoudre rapidement les problèmes qui peuvent provoquer des perturbations de l’activité ou avoir une incidence sur l’expérience de l’utilisateur. NETSCOUT offre une visibilité inégalée sur le service et protège l’infrastructure numérique qui soutient notre monde connecté.
 
 
Powered By OneLink