Comment choisir un outil de surveillance de site Web adapté à vos besoins

Publié: 2020-10-07

Vous êtes réveillé par une tonalité d'alerte et vous n'êtes pas sûr de l'heure, mais il fait sombre dehors et lorsque vous commencez à reprendre conscience, vous voyez des notifications affluer.

Quelque chose a planté votre application et les utilisateurs en Europe sont assez perturbés. Une heure s'est écoulée sans sauvegarde, évitez à votre responsable du service client de demander consciencieusement toutes les 15 minutes quand vous vous attendez à un retour à la normale. Vous regardez tous les deux le reste de votre équipe se réveiller, recevoir les nouvelles et commencer à pointer du doigt.

Toute cette situation est évitable, pensez-vous, alors que la quatrième heure de crêtes de temps d'arrêt. Si seulement quelque chose nous avait avertis de notre destin imminent.

Bienvenue dans le monde de la surveillance de sites Web , où la disponibilité des applications est la principale directive. Ce n'est peut-être pas tout à fait ainsi que votre incendie de 3 heures du matin s'est éteint, mais si vous avez survécu aussi longtemps dans DevOps, vous en avez eu un - et nous parions que ce n'était pas agréable.

Si votre objectif est de minimiser cette marque unique de douleur, nous sommes là pour vous aider à faire en sorte que les appels soient un peu moins pénibles grâce à un guide facile à parcourir qui explique ce dont vous avez besoin chez un fournisseur de surveillance Web .

Un guide unique pour sélectionner un outil de surveillance de site Web

Commençons par les fondamentaux : suivi et reporting. Tout comme les téléécrans qui voient tout de 1984, la surveillance fait ici référence à la surveillance « externe » de vos opérations. Les serveurs de sonde externes sont généralement utilisés pour surveiller l'état de votre application.

La responsabilité commence par la surveillance, ou plutôt l'observabilité. Que pouvez-vous apprendre en fonction de ce que votre infrastructure vous dit ?

Les rapports quantifient votre responsabilité, mais un bon rapport est subjectif. Certains pourraient aimer les données brutes qu'ils peuvent conditionner dans n'importe quel format. D'autres veulent que des rapports automatisés soient livrés, certains lourds sur les chiffres, d'autres désirant une approche plus visuelle. La création de rapports est l'autre facette de la surveillance et la bonne maîtrise de ces deux éléments garantira que votre application reste accessible et que vos accords de niveau de service sont respectés.

Mieux vous comprenez votre infrastructure, plus vous tirez profit de la surveillance. Les fournisseurs analysent souvent les types de chèques pour réduire les coûts. Comprendre les besoins de surveillance Web de votre infrastructure est une bonne source d'économies.

Surveillance Web et rapports pour la responsabilisation

La surveillance ne consiste pas simplement à attraper vos gnomes de serveur endormis au travail, elle devrait vous en dire plus que si le service est en marche ou en panne. Grâce aux mesures de performance, vous pouvez développer une image claire du fonctionnement de votre infrastructure. Surtout avec des vérifications plus avancées, telles que la surveillance des utilisateurs réels (RUM) - mais nous en reparlerons plus tard.

Consultez la page d'état de votre fournisseur et passez au crible ses données d'indisponibilité des six à 12 mois précédents. Le fournisseur est-il fréquemment en panne ? Leur disponibilité globale et leur gestion des incidents devraient fournir des indices sur leur fiabilité.

Quels types de contrôle de surveillance de site Web sont les plus utiles ?

Avant de sélectionner un fournisseur, vous souhaitez évaluer vos besoins. Répondez à ceci, qu'est-ce qui vous réveillerait au milieu de la nuit ? Cette infrastructure doit figurer parmi les premiers composants que vous configurez lorsque vous testez des fournisseurs.

Élaborez un plan d'attaque pour la surveillance et dressez une liste de vos services indispensables. Les fournisseurs de services proposant des plans fixes peuvent aider ou nuire ici. Les bons plans tiennent compte de la taille des entreprises qui les utilisent. Cela ne fait jamais de mal de vous renseigner sur vos options de mises à niveau et d'ajouts pour personnaliser votre plan.

Peut-être que ce qui a motivé votre recherche d'un moniteur Web était une erreur 404 ou SSL, mais laissez-vous la place d'expérimenter et de grandir. Au cours de vos tests, vous trouverez sans aucun doute d'autres moyens de surveiller votre système et d'utiliser vos allocations de chèques.

tableau de bord du personnel

Vérifications de base et leurs fonctions de surveillance Web

Les vérifications de base ne font généralement qu'une seule chose, comme surveiller une seule URL ou vérifier les enregistrements DNS. Ces types de vérification invitent généralement quelqu'un à rechercher une surveillance, généralement après qu'une panne s'est produite. Il est important de bien faire les choses.

HTTP(S), SSL, DNS et l'expiration du domaine sont quelques bonnes vérifications de base à garder à l'esprit car ce sont les types de pannes que l'utilisateur final a tendance à ressentir. Ces vérifications constituent également l'épine dorsale de la surveillance de la plupart des utilisateurs d'entreprise. Les plans qui n'intègrent que ces types de chèques sont de solides plans de « démarrage » pour les startups et les petites entreprises.

Les vérifications HTTP(S), parfois appelées "surveillance Web", surveillent la disponibilité. SSL, DNS et l'expiration du domaine ont tendance à garantir que l'infrastructure critique ne tombe pas en panne pour des raisons évitables. Si votre fournisseur inclut également des mesures de performance, c'est un avantage évident.

Assurez-vous que votre fournisseur prend en charge la diffusion des alertes là où vous en avez besoin. Si vous aviez une expiration SSL à venir, il serait utile de passer outre la bureaucratie et de mettre cet avis directement devant la personne qui peut payer le renouvellement avec suffisamment de temps pour renouveler. Ce serait encore mieux si le problème pouvait être transmis automatiquement à quelqu'un d'autre si plus d'expertise était nécessaire.

Vérifications avancées que chaque équipe DevOps devrait envisager

Une vérification avancée utilise des données utilisateur réelles ou base ses actions sur les actions de l'utilisateur. Ces types de vérification complexes nécessitent généralement un certain effort de configuration. Le gain peut être monumental pour les organisations qui les utilisent.

Les types de contrôle avancés surveillent les objectifs critiques ou les entonnoirs de navigation, comme la connexion ou l'achat d'un article. Parce qu'ils agissent comme (ou parfois tirent des données de) utilisateurs réels, ces contrôles donnent une image claire des performances de votre site dans diverses conditions.

Pourquoi investir l'effort de configurer ces types de chèques ?

  • Tests : visibilité sur les performances des nouvelles fonctionnalités et mises à niveau tout en générant de nombreuses données historiques
  • Première réponse : une page de paiement en panne peut signifier l'échec de plusieurs vérifications HTTP(S). Ce qui a échoué et quand sont de bons indicateurs de l'endroit où commencer le diagnostic.

Rencontrons James et voyons comment plusieurs types de chèques s'avèrent utiles :

James lance un nouveau produit pour son entreprise, Edgeco. Ce nouveau service nécessitera son propre certificat de sécurité, ainsi qu'une nouvelle infrastructure. James déploiera ce service avec une surveillance réelle des utilisateurs afin d'en savoir plus sur l'expérience utilisateur précoce. La surveillance SSL garantira que lorsque James passera à d'autres projets, son certificat aura des garanties en place pour s'assurer que le renouvellement n'est pas oublié.

Avec une vérification HTTP(S) surveillant cette URL, James et son équipe disposent de capacités de première réponse lorsqu'un temps d'arrêt est détecté. À l'aide d'un contrôle de transaction, James peut tester les flux d'utilisateurs critiques, tels que la connexion au nouveau service et l'utilisation de ses composants principaux.

Étant donné que James a déployé Real User Monitoring, son service a recueilli des statistiques d'utilisation pour chaque modification que lui et son équipe ont apportée au cours de la durée de vie du service. Dans les six mois, James disposera de suffisamment de données pour identifier les problèmes de performances localisés dans des régions spécifiques et demander à son équipe de s'améliorer en conséquence. Les couches de contrôles aident à protéger et à simplifier la gestion des infrastructures complexes.

Logiciel de surveillance Web sympa à avoir

Une fois que vous avez établi les types de chèques dont vous avez besoin, il est temps de commencer à comparer les fonctionnalités intéressantes pour vous faciliter la vie. Il y a une grande différenciation ici, car certains fournisseurs proposent une page de statut ou des intégrations en tant qu'offres "premium".

Rapports publics et privés

La visibilité compte. Qui peut le voir ? Les cadres le comprendront-ils ? Le public y a-t-il accès ? Lors d'une panne, DevOps subit probablement une pression interne et via les utilisateurs, il est donc utile de créer des rapports visibles.

Le support ne fonctionne pas gratuitement. Chaque ticket d'assistance, même avec une macro/réponse rapide, prend du temps. Quelqu'un doit traiter le ticket, arrêter de travailler sur une autre tâche et y répondre. Augmentez votre base d'utilisateurs de centaines de milliers, voire de millions d'utilisateurs, et l'assistance peut perdre des journées entières de productivité en envoyant la même réponse passe-partout aux questions de savoir si elle est en hausse ou en panne. Les rapports visibles créent une plate-forme pour répondre aux questions et réduire la pression sur la réponse de l'assistance.

L'avantage secondaire est la messagerie, car une mauvaise nouvelle peut détruire votre réputation. Lorsque vous êtes face à la catastrophe, en vous concentrant sur la transparence, vous devenez la source de l'information. C'est infiniment mieux que d'être à la merci d'une industrie motivée par des controverses sur les clics.

Facilité d'utilisation et valeur

Tout, de la surveillance aux rapports, a fière allure. Qu'en est-il du coût d'installation ? Comme votre équipe d'assistance, vos ingénieurs ne travaillent pas gratuitement non plus. Il y a un coût d'installation même pour tester un fournisseur, alors prenez le temps d'évaluer toutes vos exigences.

La facilité d'utilisation fait référence à tout, de la configuration du compte à l'intégration de nouveaux utilisateurs. Pendant votre essai, vous pourriez vous concentrer sur les bases et vous mettre en marche dès que possible ; projetez à long terme et réfléchissez à la façon dont les utilisateurs interagiront avec le système.

Si vous changez de fournisseur, il est également utile d'avoir une fonction d'importation/exportation où vous pouvez facilement transférer des centaines de chèques.

Le logiciel d'authentification unique (SSO) en est un bon exemple, offrant une certaine sécurité à votre entreprise et facilitant son adoption par vos utilisateurs. La documentation de support et l'utilisation générale peuvent vous aider à vous renseigner sur l'accessibilité du logiciel. Vous pouvez envisager d'inviter un autre utilisateur à essayer de configurer des vérifications ou à récupérer des rapports pour tester le fonctionnement du système sous tous les angles.

Personnalisation et observabilité

Considérons le cas d'utilisation moyen d'une entreprise, où plus de 100 moniteurs ne sont pas hors de question. À quoi ressemblent les rapports pour ce type de configuration ? Massif, est un mot. Alambiqué, peut-être un autre. Plus d'une centaine de choses vont être difficiles à suivre, donc la création d'observabilité à partir de la surveillance Web doit également prendre en compte ce que vous devez voir pour faire votre travail. La façon dont votre fournisseur gère la visibilité en dit long sur son activité principale.

Certaines fonctionnalités utiles à surveiller incluent les balises, où vous pouvez coder par couleur ou utiliser la convention de dénomination d'équipe ou interne pour organiser les vérifications. Vous pouvez également avoir une préférence pour travailler en ligne de commande, auquel cas l'API est une fonctionnalité importante à rechercher. Assurez-vous simplement de poser des questions sur les limites potentielles dont vous devez être conscient lorsque vous envisagez vos options.

Les tableaux de bord donnent une visibilité interne

Une façon d'aborder cette question de volume est de fournir un espace centralisé pour la gestion des chèques. Si vous êtes du genre à aimer la vue d'ensemble et l'accès instantané aux indicateurs clés, les tableaux de bord vous offrent la visibilité dont vous rêvez. Les bonus ici incluent la possibilité de partage. Pouvez-vous ou votre équipe concevoir des tableaux de bord vers lesquels vous pouvez basculer à la volée ? Pouvez-vous contrôler l'accès ou attribuer des tableaux de bord spécifiques à des utilisateurs spécifiques ?

Les pages d'état de marque offrent la confiance

La plupart des entreprises apprécient la transparence, les pages de statut sont donc un autre atout. La confiance ne se manifeste pas. Le couplage de votre surveillance et de votre page d'état offre la simplicité. Si vous utilisez un fournisseur pour chacun de ces services, vous devez disposer d'une couche intermédiaire qui favorise la communication entre les deux. Cela signifie généralement que quelqu'un doit soit créer méticuleusement des composants, soit écrire un script. Même dans ce cas, vous extrayez probablement des données dans un service auto-hébergé qui peut courir les mêmes risques de panne que votre site Web.

Une expérience transparente entre votre page de statut et votre site Web semble professionnelle. Cependant, vous devez intégrer la gestion des incidents dans votre routine de réponse, y compris des mises à jour régulières de votre page d'état tout au long d'une panne ou d'une fenêtre de maintenance.

Il existe également des pages d'état internes conçues pour conserver les informations sur la base du besoin de savoir. Les personnes extérieures à votre équipe informatique peuvent avoir une visibilité sur les temps d'arrêt critiques. Lorsqu'une panne se produit, les pages d'état internes deviennent un hub mettant à jour l'ensemble de l'entreprise.

Alertes et observabilité

Les accords de niveau de service ont tendance à avoir des seuils intégrés qui signalent quand il est temps de réagir à un problème. Ces "budgets d'erreurs", permettent à votre équipe de dormir la nuit. Les alertes, et ce qu'elles contiennent, font la différence entre un temps de réponse de 5 à 60 minutes.

Une bonne alerte est instructive. Les alertes peuvent contenir des codes d'état, des correctifs suggérés ou vous diriger vers des ressources utiles telles que l'analyse des alertes. Les meilleures alertes signifient qu'un problème réel se produit et vous indiquent ce que ce problème pourrait être. "C'est en panne" par rapport à "Il signale une erreur 500" indique des problèmes très différents.

Alertes et détails

Trop vague et devops est susceptible de perdre des cheveux à la recherche du problème, mais il y a rarement un problème à être trop précis. Testez minutieusement les systèmes d'alerte. Si vous envisagez de changer de fournisseur, effectuez un exercice de jour de match en utilisant le système d'alerte. Quelles informations sont fournies à votre équipe ? L'alerte a-t-elle aidé à votre diagnostic ?

Si vous prévoyez plusieurs pannes, que ce soit sous forme d'exercices de jeu ou de tests étendus, vous pouvez en apprendre beaucoup sur le fonctionnement de votre système de surveillance. Les alertes s'intensifient-elles ? Qu'en est-il des fenêtres de maintenance au lieu des pannes ? Votre système peut-il différencier ?

alertes

Livraison d'alerte

Revenons à notre cas d'utilisation Edgecom. James surveille son service lorsqu'il reçoit un ping sur sa chaîne Slack. Une panne HTTP(S) signale que son blog est en panne. James est capable de taguer la personne responsable du blog, qui enquête rapidement sur l'incident. Il s'avère qu'un nombre inhabituel de chargements de pages en est la cause.

L'équipe se demande si une publication récente est devenue virale. James détecte une attaque imminente et fait évoluer les serveurs pour améliorer la capacité. Effectivement, ses actions font partie d'une chaîne d'événements qui aident à repousser une attaque DDoS visant à faire tomber son site principal.

La morale ici est que les alertes envoyées à votre équipe peuvent conduire à un diagnostic et à une sérendipité inattendue. Aucune alerte signifie douleur. Des douleurs horribles.

temps d'arrêt ou d'arrêt

La surveillance Web est vraiment une question d'analyse

Ne négligez pas la valeur de l'historique des alertes. Les utilisateurs expérimentés de devops ont probablement un sens surnaturel du désastre. Comment aiguisent-ils ce sens ? En surveillant les causes d'une catastrophe et en les documentant soigneusement.

Escalades et flexibilité

Disons que James n'est plus DevOps Spider-Man, et ses sens surnaturels ne sont pas tout à fait à la hauteur. L'attaque DDoS fait tomber certains services. Que peut faire un fournisseur de surveillance pour vous aider ?

Les escalades et la maintenance sont un bon début. Si votre fournisseur le permet, les fenêtres de maintenance peuvent offrir la flexibilité nécessaire pour répondre aux pannes tout en alertant les utilisateurs. Que la maintenance soit prise en compte ou non dans votre SLA, il est utile de pouvoir planifier des fenêtres de maintenance de routine et de transmettre des mises à jour à vos utilisateurs expérimentés.

Vous perdez également moins de temps à répartir les responsabilités et à escalader en interne si vous définissez vos limites à l'avance. Combien de temps est trop long pour une panne ? L'escalade après cinq ou dix minutes est un bon point de départ, car des pannes plus longues signifient que quelque chose ne va vraiment pas. Les systèmes d'alerte qui automatisent les escalades éliminent ces conjectures, permettant à votre équipe de travailler sans se soucier du moment où informer les niveaux supérieurs.

Surveillance Web synthétique et réelle des utilisateurs pour capturer l'expérience utilisateur

Arrêtez de vous fier aux rapports d'utilisateurs des bêta-testeurs payants (vos clients) et capturez l'expérience utilisateur de première main. La surveillance des utilisateurs réels nécessite généralement du code, comme un pixel de suivi, mais le gain est constitué de données utilisateur réelles provenant de sessions réelles. Si vous vous êtes déjà demandé ce que voit votre utilisateur, la surveillance RUM est un ajout utile à votre boîte à outils.

répartition du temps de chargement

Surveillance synthétique

La surveillance synthétique se décline en deux versions, généralement : API et transaction. Les chèques de transaction sont exactement ce à quoi ils ressemblent. Ils testent les entonnoirs d'objectifs et fournissent des capacités de première réponse pour les transactions critiques. Soyez le premier à être informé des problèmes liés à votre panier d'achat, aux formulaires d'inscription, aux connexions, etc.

Les vérifications d'API sont utiles pour examiner les points de terminaison qui pilotent le côté automatisation de votre service. Vous pouvez GET, PUSH, PULL, PATCH ou DELETE avec la plupart des fournisseurs, offrant un éventail de possibilités pour la surveillance des terminaux. Points bonus si vous pouvez définir et récupérer des variables.

Le support est un facteur invisible dans la surveillance Web

Il est 2 heures du matin et votre surveillance Web déclenche des alertes à gauche et à droite. Vous avez besoin d'aide! Vous avez besoin d'analyses et d'explications. L'assistance réactive de votre fournisseur fait ses preuves lorsque vous rencontrez une erreur que vous ne pouvez pas voir ou ne pouvez pas reproduire.

Lorsque vous avez besoin d'aide, il est important qu'une équipe soit prête à travailler avec vous. Les premières interactions de support sont une bonne indication de la qualité du service. Combien de temps faut-il aux agents pour répondre à un ticket ? Quelle est la qualité de leur réponse et quelle documentation peuvent-ils fournir ? Quels types d'assistance sont disponibles, tels que l'assistance par téléphone ou par chat ? Lorsqu'un fournisseur cache le bouton de contact, cela peut être un drapeau rouge.

Documentation

La documentation doit être complète, inclure des exemples et fournir des instructions étape par étape. Si votre fournisseur utilise du code dans sa documentation, c'est un bon signe qu'il sait de quoi il parle et qu'il le prend au sérieux. Des points bonus pour les fournisseurs qui développent des ensembles d'outils externes, des extensions de navigateur, etc., pour vous aider à créer votre système de surveillance.

S'engager auprès d'un fournisseur de surveillance Web

La surveillance et les rapports sont les éléments les plus importants pour choisir votre fournisseur, mais la liste de fonctionnalités intéressantes peut simplifier votre travail et améliorer la surveillance. N'oubliez pas que le but d'une alerte est la première réponse. Si votre alerte est perdue dans l'éther et que personne ne peut la réclamer, l'incendie s'est-il vraiment produit ?

Le logiciel de surveillance Web fait partie d'un engagement important que vous prenez envers votre clientèle. Cela indique que vous vous souciez de fournir un service et que vos utilisateurs peuvent vous faire confiance pour être là pour eux. Prendre cet engagement au sérieux signifie réfléchir à laquelle de ces exigences est la plus pertinente pour votre organisation.