Come scegliere uno strumento di monitoraggio del sito Web adatto alle tue esigenze

Pubblicato: 2020-10-07

Sei svegliato da un tono di allerta e incerto sull'ora, ma fuori è buio e quando inizi a riprendere conoscenza vedi le notifiche inondarsi.

Qualcosa ha bloccato la tua applicazione e gli utenti in Europa sono piuttosto turbati. È passata un'ora senza backup, salva il tuo responsabile del servizio clienti chiedendo doveroso ogni 15 minuti quando ti aspetti un ritorno alla normalità. Voi due guardate mentre il resto della vostra squadra si sveglia, riceve le notizie e inizia a puntare il dito.

L'intera situazione è evitabile, pensi, poiché la quarta ora di inattività aumenta. Se solo qualcosa ci avesse avvertito del nostro destino imminente.

Benvenuti nel mondo del monitoraggio dei siti Web , dove il tempo di attività delle applicazioni è la principale direttiva. Forse non è stato proprio così che il tuo fuoco delle 3 del mattino è diminuito, ma se sei sopravvissuto così a lungo in DevOps, ne hai avuto uno e scommettiamo che non è stato piacevole.

Se il tuo obiettivo è ridurre al minimo questo tipo di dolore unico, allora siamo qui per aiutarti a fare schifo un po' meno durante la chiamata con una guida facile da sfogliare che illustra ciò di cui hai bisogno in un provider di monitoraggio web .

Una guida completa per la selezione di uno strumento di monitoraggio del sito Web

Cominciamo dai fondamenti: monitoraggio e reporting. Proprio come i teleschermi onniveggenti del 1984, il monitoraggio qui si riferisce alla supervisione "esterna" delle tue operazioni. I server probe esterni vengono in genere utilizzati per monitorare lo stato dell'applicazione.

La responsabilità inizia con la supervisione, o meglio l'osservabilità. Cosa puoi imparare in base a ciò che ti dice la tua infrastruttura?

La segnalazione quantifica la tua responsabilità, ma una buona segnalazione è soggettiva. Ad alcuni potrebbero piacere dati grezzi che possono impacchettare in qualsiasi formato. Altri desiderano la consegna di report automatizzati, alcuni con numeri pesanti altri desiderano un approccio più visivo. Il reporting è l'altro aspetto del monitoraggio e ottenere questi due elementi in modo corretto garantirà che la tua applicazione rimanga accessibile e che i tuoi accordi sul livello di servizio siano rispettati.

Più comprendi la tua infrastruttura, più valore ottieni dal monitoraggio. I provider spesso analizzano i tipi di assegni per mantenere bassi i costi. Comprendere le esigenze di monitoraggio web della tua infrastruttura è una buona fonte di risparmio sui costi.

Monitoraggio Web e reporting per la responsabilità

Il monitoraggio non consiste semplicemente nel catturare i tuoi gnomi del server addormentati sul lavoro, dovrebbe dirti di più che se il servizio è attivo o inattivo. Attraverso le metriche delle prestazioni, puoi sviluppare un quadro chiaro di come funziona la tua infrastruttura. Soprattutto con controlli più avanzati, come il monitoraggio degli utenti reali (RUM), ma ne parleremo più avanti.

Controlla la pagina di stato del tuo fornitore e passa al setaccio i dati di interruzione da sei a 12 mesi precedenti. Il venditore scende spesso? Il loro tempo di attività complessivo e la gestione degli incidenti dovrebbero fornire indizi sulla loro affidabilità.

Quali tipi di controllo di monitoraggio del sito Web sono più utili?

Prima di selezionare un fornitore vuoi valutare le tue esigenze. Rispondi a questo, cosa ti sveglierebbe nel cuore della notte? Tale infrastruttura dovrebbe essere tra i primi componenti che configuri durante il test dei provider.

Strategia un piano di attacco per il monitoraggio e fai un elenco dei tuoi servizi indispensabili. I fornitori di servizi che offrono piani prestabiliti possono aiutare o danneggiare qui. I buoni piani tengono conto delle dimensioni delle aziende che li utilizzano. Non fa mai male chiedere informazioni sulle opzioni per gli aggiornamenti e i componenti aggiuntivi per personalizzare il tuo piano.

Forse ciò che ha spinto la tua ricerca di un monitor web è stato un errore 404 o SSL, ma lasciati spazio per sperimentare e crescere. Durante il test, troverai senza dubbio ulteriori modi per monitorare il tuo sistema e utilizzare le tue allocazioni di controllo.

trattino del personale

Controlli di base e loro funzioni di monitoraggio web

I controlli di base di solito fanno solo una cosa, come monitorare un singolo URL o controllare i record DNS. Questi tipi di controllo in genere richiedono a qualcuno di cercare il monitoraggio, in genere dopo che si è verificata un'interruzione. Farlo bene è importante.

HTTP(S), SSL, DNS e scadenza dominio sono alcuni buoni controlli di base da tenere a mente perché questi sono i tipi di interruzioni che l'utente finale tende a sentire. Questi controlli costituiscono anche la spina dorsale di monitoraggio della maggior parte degli utenti aziendali. I piani che incorporano solo questi tipi di assegni sono validi piani di "avviamento" per startup e piccole imprese.

I controlli HTTP(S), a volte chiamati "monitoraggio web", monitorano il tempo di attività. SSL, DNS e scadenza del dominio tendono a garantire che l'infrastruttura critica non si guasti per motivi prevenibili. Se il tuo provider include anche le metriche delle prestazioni, questo è un chiaro vantaggio.

Assicurati che il tuo provider supporti la consegna degli avvisi dove ne hai bisogno. Se avessi una scadenza SSL imminente, sarebbe utile superare la burocrazia e mettere quell'avviso direttamente di fronte alla persona che può pagare per il rinnovo con tutto il tempo necessario per rinnovarlo. Sarebbe ancora meglio se il problema potesse passare automaticamente a qualcun altro se fosse necessaria una maggiore esperienza.

Controlli avanzati che ogni team DevOps dovrebbe considerare

Un controllo avanzato è quello che utilizza i dati utente reali o basa le sue azioni sulle azioni dell'utente. Questi tipi di controllo complessi richiedono solitamente un certo sforzo di configurazione. Il guadagno può essere monumentale per le organizzazioni che li utilizzano.

I tipi di controllo avanzati controllano l'obiettivo critico o le canalizzazioni di navigazione, come l'accesso o l'acquisto di un articolo. Poiché si comportano come (o talvolta traggono dati da) utenti reali, questi controlli forniscono un quadro chiaro delle prestazioni del tuo sito in varie condizioni.

Perché investire lo sforzo per impostare questi tipi di assegni?

  • Test: visibilità sulle prestazioni di nuove funzionalità e aggiornamenti generando molti dati storici
  • Prima risposta: una pagina di checkout inattiva può significare più di un singolo controllo HTTP(S) non riuscito. Cosa ha fallito e quando sono buoni indicatori di dove iniziare la diagnosi.

Incontriamo James e vediamo come più tipi di assegni si rivelano utili:

James sta lanciando un nuovo prodotto per la sua azienda, Edgeco. Questo nuovo servizio richiederà un proprio certificato di sicurezza, insieme a una nuova infrastruttura. James distribuirà questo servizio con il monitoraggio dell'utente reale in modo da saperne di più sulla prima esperienza dell'utente. Il monitoraggio SSL garantirà che quando James passerà ad altri progetti, il suo certificato disporrà di salvaguardie per garantire che il rinnovo non venga dimenticato.

Con un controllo HTTP(S) che monitora questo URL, James e il suo team hanno capacità di prima risposta quando vengono rilevati tempi di inattività. Utilizzando un controllo delle transazioni, James può testare i flussi utente critici, come l'accesso al nuovo servizio e l'utilizzo dei suoi componenti principali.

Poiché James è stato implementato con Real User Monitoring, il suo servizio ha raccolto statistiche sull'utilizzo durante ogni modifica che lui e il suo team hanno apportato durante la durata del servizio. Entro sei mesi, James avrà dati sufficienti per identificare problemi di prestazioni localizzati in regioni specifiche e dirigere il suo team a migliorare di conseguenza. I livelli di controllo aiutano a salvaguardare e semplificare la gestione di infrastrutture complesse.

Software di monitoraggio Web utilissimo

Dopo aver stabilito i tipi di controllo di cui hai bisogno, è ora di iniziare a confrontare le caratteristiche utili per semplificarti la vita. C'è molta differenziazione qui, poiché alcuni provider offrono una pagina di stato o integrazioni come offerte "premium".

Segnalazioni pubbliche e private

La visibilità conta. Chi può vederlo? I dirigenti lo capiranno? Il pubblico ha accesso? Durante un'interruzione è probabile che DevOps subisca pressioni internamente e attraverso gli utenti, quindi è importante creare rapporti visibili.

Il supporto non funziona gratuitamente. Ogni ticket di supporto, anche con una macro/risposta rapida, richiede tempo. Qualcuno deve mettere in campo il ticket, smettere di lavorare su un'altra attività e rispondere ad essa. Aumenta la tua base di utenti di centinaia di migliaia o milioni di utenti e il supporto può perdere interi giorni di produttività inviando la stessa risposta standard alle domande sul fatto che sia in aumento o in diminuzione. Il reporting visibile crea una piattaforma per rispondere alle domande e ridurre la pressione sulla risposta del supporto.

Il vantaggio secondario è la messaggistica, perché una notizia sbagliata può distruggere la tua reputazione. Quando sei di fronte al disastro, concentrandoti sulla trasparenza, diventi la fonte delle notizie. Questo è infinitamente meglio che essere alla mercé di un'industria guidata dal clic attraverso le controversie.

Facilità d'uso e valore

Tutto, dal monitoraggio al reporting, sembra fantastico. E il costo dell'installazione ? Come il tuo team di supporto, anche i tuoi ingegneri non lavorano gratuitamente. C'è un costo di installazione anche per testare un provider, quindi prenditi il ​​​​tempo per valutare tutti i tuoi requisiti.

La facilità d'uso si riferisce a qualsiasi cosa, dalla configurazione dell'account all'onboarding di nuovi utenti. Durante il periodo di prova, potresti concentrarti sulle nozioni di base e iniziare a lavorare al più presto; progetto a lungo termine e considerare come gli utenti interagiranno con il sistema.

Se stai cambiando fornitore, è anche utile avere una funzione di importazione/esportazione in cui puoi trasferire facilmente centinaia di assegni.

Un buon esempio è il software Single Sign-On (SSO), che offre un certo grado di sicurezza alla tua azienda e ne semplifica l'adozione da parte degli utenti. La documentazione di supporto e l'uso generale possono aiutarti a capire l'accessibilità del software. Potresti prendere in considerazione l'idea di invitare un altro utente a provare a impostare alcuni controlli o a recuperare rapporti per testare il funzionamento del sistema da ogni prospettiva.

Personalizzazione e osservabilità

Consideriamo il caso d'uso aziendale medio, in cui oltre 100 monitor non è fuori questione. Che aspetto hanno i rapporti per questo tipo di configurazione? Massiccio, è una parola. Contorto, forse un altro. Più di un centinaio di qualsiasi cosa sarà difficile da tracciare, quindi costruire l'osservabilità dal monitoraggio web dovrebbe anche tenere conto di ciò che devi vedere per svolgere il tuo lavoro. Il modo in cui il tuo provider gestisce la visibilità ti dice molto sulla sua attività principale.

Alcune funzioni utili a cui prestare attenzione includono i tag, in cui puoi codificare a colori o utilizzare la convenzione di denominazione del team o interna per organizzare i controlli. Potresti anche avere una preferenza per lavorare nella riga di comando, nel qual caso l'API è una caratteristica importante da cercare. Assicurati solo di chiedere eventuali limiti potenziali di cui devi essere a conoscenza mentre consideri le tue opzioni.

I dashboard danno visibilità interna

Un modo per affrontare questo problema di volume è fornire uno spazio centralizzato per la gestione degli assegni. Se sei il tipo a cui piace la panoramica e l'accesso istantaneo alle metriche chiave, le dashboard ti danno la visibilità che desideri. I bonus qui includono la condivisibilità. Tu o il tuo team potete progettare dashboard a cui passare al volo? Puoi controllare l'accesso o assegnare dashboard specifici a utenti specifici?

Le pagine di stato con marchio forniscono fiducia

La maggior parte delle aziende apprezza la trasparenza, quindi le pagine di stato sono un'altra cosa interessante da avere. La fiducia non si manifesta. L'accoppiamento della pagina di monitoraggio e stato offre semplicità. Se utilizzi un fornitore per ciascuno di questi servizi, devi disporre di uno strato intermedio che aiuti a promuovere la comunicazione tra i due. Di solito ciò significa che qualcuno deve creare meticolosamente componenti o scrivere uno script. Anche in questo caso, probabilmente stai estraendo dati in un servizio self-hosted che può correre gli stessi rischi di interruzione del tuo sito web.

Un'esperienza senza interruzioni tra la tua pagina di stato e il tuo sito Web sembra professionale. Tuttavia, è necessario integrare la gestione degli incidenti nella routine di risposta, inclusi aggiornamenti regolari alla pagina di stato durante un'interruzione o una finestra di manutenzione.

Ci sono anche pagine di stato interne progettate per mantenere le informazioni in base alla necessità di sapere. Le persone esterne al tuo team IT possono avere visibilità sui tempi di inattività critici. Quando si verifica un'interruzione, le pagine di stato interne diventano un hub che aggiorna l'intera azienda.

Avvisi e osservabilità

Gli accordi sul livello di servizio tendono ad avere soglie integrate che segnalano quando è il momento di reagire a un problema. Questi "budget di errore" consentono al tuo team di dormire la notte. Gli avvisi e ciò che contengono fanno la differenza tra cinque e 60 minuti per rispondere.

Un buon avviso è istruttivo. Gli avvisi possono contenere codici di stato, soluzioni suggerite o indirizzarti a risorse utili come l'analisi degli avvisi. I migliori avvisi indicano che si sta verificando un problema reale e ti dicono quale potrebbe essere quel problema. "Non funziona" rispetto a "Sta segnalando un errore 500" indicano problemi molto diversi.

Avvisi e dettagli

Troppo vago e devops è probabile che perdano i capelli cercando il problema, ma raramente c'è un problema con l'essere troppo specifici. Testare a fondo i sistemi di allerta. Se prevedi di cambiare fornitore, esegui un esercizio giornaliero di gioco utilizzando il sistema di avviso. Quali informazioni vengono fornite al tuo team? L'avviso ha aiutato con la tua diagnosi?

Se pianifichi più interruzioni, sia come esercizi di gioco che come test estesi, puoi imparare molto su come funziona il tuo sistema di monitoraggio. Gli avvisi aumentano? Che dire delle finestre di manutenzione invece delle interruzioni? Il tuo sistema può differenziarsi?

avvisi

Consegna dell'avviso

Torniamo al nostro caso d'uso Edgecom. James sta monitorando il suo servizio quando riceve un ping nel suo canale Slack. Un'interruzione HTTP(S) segnala che il suo blog è inattivo. James è in grado di taggare la persona responsabile del blog, che indaga rapidamente sull'incidente. Si scopre che la causa è un numero insolito di caricamenti di pagina.

Il team si chiede se un post recente sia diventato virale. James percepisce un attacco imminente e scala i server per migliorare la capacità. In effetti, le sue azioni fanno parte di una catena di eventi che aiutano a respingere un attacco DDoS volto a distruggere il suo sito principale.

La morale qui è che gli avvisi inviati al tuo team possono portare a diagnosi e serendipità inaspettate. Nessun avviso significa dolore. Dolore orribile.

up o downtime

Il monitoraggio del Web riguarda in realtà l'analisi

Non trascurare il valore della cronologia degli avvisi. Gli utenti esperti di devops probabilmente hanno un senso soprannaturale per il disastro. Come affinano quel senso? Osservando le cause di un disastro e documentandole attentamente.

Escalation e flessibilità

Diciamo che James non è più DevOps Spider-Man e i suoi sensi soprannaturali non sono all'altezza. L'attacco DDoS fa crollare alcuni servizi. Cosa può fare un provider di monitoraggio per aiutare?

Le escalation e la manutenzione sono un buon inizio. Se il provider lo consente, le finestre di manutenzione possono fornire flessibilità per rispondere alle interruzioni avvisando gli utenti. Indipendentemente dal fatto che la manutenzione influisca o meno nel tuo SLA, è utile quando puoi pianificare finestre di manutenzione ordinaria e inviare aggiornamenti ai tuoi utenti esperti.

Perdi anche meno tempo a rimescolare le responsabilità e ad aumentare internamente se definisci i tuoi limiti in anticipo. Quanto tempo è troppo lungo per un'interruzione? L'escalation dopo i cinque o dieci minuti è un buon punto di partenza, poiché interruzioni più lunghe indicano che qualcosa non va. I sistemi di allerta che automatizzano le escalation eliminano tali congetture, consentendo al tuo team di lavorare senza preoccuparsi di quando notificare i livelli superiori.

Monitoraggio web dell'utente sintetico e reale per catturare l'esperienza dell'utente

Smetti di fare affidamento sui rapporti degli utenti dei beta tester a pagamento (i tuoi clienti) e acquisisci l'esperienza dell'utente in prima persona. Il monitoraggio dell'utente reale in genere richiede del codice, come un pixel di tracciamento, ma il vantaggio sono i dati dell'utente effettivi provenienti da sessioni reali. Se ti sei mai chiesto cosa vede il tuo utente, il monitoraggio RUM è un'utile aggiunta al tuo toolkit.

ripartizione del tempo di caricamento

Monitoraggio sintetico

Il monitoraggio sintetico è disponibile in due versioni, in genere: API e Transaction. I controlli delle transazioni sono esattamente come suonano. Testano le canalizzazioni degli obiettivi e forniscono funzionalità di prima risposta per le transazioni critiche. Sii il primo a conoscere i problemi con il carrello, i moduli di iscrizione, gli accessi e altro ancora.

I controlli API sono utili per esaminare gli endpoint che guidano il lato di automazione del servizio. Puoi ottenere, PUSH, PULL, PATCH o DELETE con la maggior parte dei provider, consentendo una serie di possibilità per il monitoraggio degli endpoint. Punti bonus se puoi impostare e recuperare variabili.

Il supporto è un fattore invisibile nel monitoraggio web

Sono le 2 del mattino e il tuo monitoraggio web invia avvisi a sinistra e a destra. Avete bisogno di aiuto! Servono analisi e spiegazioni. Il supporto reattivo del tuo provider si dimostra valido quando incontri un errore che non puoi vedere o non puoi replicare.

Quando hai bisogno di aiuto, è importante che ci sia un team disposto a lavorare con te. Le prime interazioni con il supporto sono una buona indicazione della qualità del servizio. Quanto tempo impiegano gli agenti a rispondere a un ticket? Qual è la qualità della loro risposta e quale documentazione possono fornire? Quali tipi di supporto sono disponibili, come il supporto telefonico o via chat? Quando un provider nasconde il pulsante di contatto, potrebbe essere una bandiera rossa.

Documentazione

La documentazione deve essere completa, includere esempi e fornire istruzioni dettagliate. Se il tuo provider utilizza il codice nella sua documentazione, è un buon segno che sappia di cosa sta parlando e lo prenda sul serio. Punti bonus per i fornitori che sviluppano set di strumenti esterni, estensioni del browser e altro per aiutarti a creare il tuo sistema di monitoraggio.

Impegnarsi con un provider di monitoraggio web

Il monitoraggio e il reporting sono i componenti più importanti nella scelta del provider, ma l'elenco di funzionalità utili può semplificare il tuo lavoro e migliorare la supervisione. Ricorda, il punto di un avviso è la prima risposta. Se il tuo avviso è perso nell'etere e nessuno può reclamarlo, l'incendio è davvero accaduto?

Il software di monitoraggio web fa parte di un importante impegno che assumi nei confronti della tua base di clienti. Dice che ti interessa fornire un servizio e che i tuoi utenti possono fidarsi della tua presenza per loro. Prendere sul serio tale impegno significa riflettere su quale di questi requisiti è più rilevante per la propria organizzazione.