Como escolher uma ferramenta de monitoramento de sites para atender às suas necessidades

Publicados: 2020-10-07

Você é acordado por um tom de alerta e não tem certeza da hora, mas está escuro lá fora e, quando você começa a recuperar a consciência, vê as notificações chegando.

Algo travou seu aplicativo e os usuários na Europa estão bastante perturbados. Uma hora se passou sem backup, economize seu gerente de atendimento ao cliente perguntando obedientemente a cada 15 minutos quando você espera um retorno à normalidade. Vocês dois assistem enquanto o resto de sua equipe acorda, recebe as notícias e começa a apontar o dedo.

Toda essa situação é evitável, você pensa, à medida que a quarta hora de tempo de inatividade atinge o pico. Se ao menos alguma coisa nos tivesse avisado de nossa destruição iminente.

Bem-vindo ao mundo do monitoramento de sites , onde o tempo de atividade do aplicativo é a principal diretriz. Talvez não tenha sido assim que o fogo das 3 da manhã aconteceu, mas se você sobreviveu tanto tempo no DevOps, você já teve um – e apostamos que não foi agradável.

Se seu objetivo é minimizar essa marca única de dor, estamos aqui para ajudá-lo a tornar o plantão um pouco menos chato com um guia fácil de ler que descreve o que você precisa em um provedor de monitoramento da Web .

Um guia completo para selecionar uma ferramenta de monitoramento de sites

Vamos começar com os fundamentos: monitoramento e relatórios. Assim como as teletelas que tudo veem de 1984, o monitoramento aqui se refere à supervisão “externa” de suas operações. Servidores de investigação externos são normalmente usados ​​para monitorar o estado do seu aplicativo.

A responsabilidade começa com a supervisão, ou melhor, a observabilidade. O que você pode aprender com base no que sua infraestrutura está lhe dizendo?

O relatório quantifica sua responsabilidade, mas um bom relatório é subjetivo. Alguns podem gostar de dados brutos que podem ser empacotados em qualquer formato. Outros querem a entrega de relatórios automatizados, alguns com muitos números, outros desejam uma abordagem mais visual. A geração de relatórios é o outro lado do monitoramento e obter esses dois elementos corretamente garantirá que seu aplicativo permaneça acessível e que seus contratos de nível de serviço sejam atendidos.

Quanto melhor você entender sua infraestrutura, mais valor você obtém do monitoramento. Os provedores geralmente analisam os tipos de cheque para manter os custos baixos. Compreender as necessidades de monitoramento da Web de sua infraestrutura é uma boa fonte de economia de custos.

Monitoramento e relatórios da Web para responsabilidade

O monitoramento não é apenas pegar seus gnomos de servidor dormindo no trabalho, deve dizer mais do que se o serviço está ativo ou inativo. Por meio de métricas de desempenho, você pode desenvolver uma imagem clara de como sua infraestrutura opera. Especialmente com verificações mais avançadas, como monitoramento de usuário real (RUM) – mas falaremos mais sobre isso posteriormente.

Verifique a página de status do seu fornecedor e analise os dados de interrupção de seis a 12 meses anteriores. O fornecedor cai com frequência? Seu tempo de atividade geral e gerenciamento de incidentes devem fornecer pistas sobre sua confiabilidade.

Quais tipos de verificação de monitoramento de sites são mais úteis?

Antes de selecionar um provedor, você deseja avaliar suas necessidades. Responda isso, o que te acordaria no meio da noite? Essa infraestrutura deve estar entre os primeiros componentes que você configura ao testar os provedores.

Crie uma estratégia de ataque para monitoramento e faça uma lista de seus serviços obrigatórios. Os provedores de serviços que oferecem planos definidos podem ajudar ou prejudicar aqui. Bons planos levam em consideração o tamanho das empresas que os utilizam. Nunca é demais perguntar sobre suas opções de upgrades e complementos para personalizar seu plano.

Talvez o que motivou sua busca por um monitor da web tenha sido um erro 404 ou SSL, mas deixe espaço para experimentar e crescer. Ao testar, você sem dúvida encontrará maneiras adicionais de monitorar seu sistema e usar suas alocações de cheques.

traço pessoal

Verificações básicas e suas funções de monitoramento da web

As verificações básicas geralmente fazem apenas uma coisa, como monitorar um único URL ou verificar os registros DNS. Esses tipos de verificação geralmente solicitam que alguém procure monitoramento, geralmente após a ocorrência de uma interrupção. Acertar isso é importante.

HTTP(S), SSL, DNS e Expiração de Domínio são algumas boas verificações básicas a serem lembradas, pois esses são os tipos de interrupções que o usuário final tende a sentir. Essas verificações também compõem o backbone de monitoramento da maioria dos usuários corporativos. Os planos que incorporam apenas esses tipos de cheques são fortes planos “iniciais” para startups e pequenas empresas.

As verificações HTTP(S), às vezes chamadas de “monitoramento da web”, monitoram o tempo de atividade. SSL, DNS e expiração de domínio tendem a garantir que a infraestrutura crítica não falhe por motivos evitáveis. Se o seu provedor também incluir métricas de desempenho, isso é um bônus claro.

Certifique-se de que seu provedor ofereça suporte à entrega de alertas onde você precisar. Se você tiver uma expiração de SSL próxima, seria útil passar pela burocracia e colocar esse aviso diretamente na frente da pessoa que pode pagar pela renovação com tempo suficiente para renovar. Seria ainda melhor se o problema pudesse ser escalado automaticamente para outra pessoa se fosse necessário mais conhecimento.

Verificações avançadas que toda equipe de DevOps deve considerar

Uma verificação avançada é aquela que usa dados reais do usuário ou baseia suas ações nas ações do usuário. Esses tipos de verificação complexos geralmente exigem algum esforço de configuração. A recompensa pode ser monumental para as organizações que os utilizam.

Os tipos de verificação avançada supervisionam o objetivo crítico ou os funis de navegação, como fazer login ou comprar um item. Como eles agem como (ou às vezes extraem dados de) usuários reais, essas verificações fornecem uma imagem clara do desempenho do seu site sob várias condições.

Por que investir o esforço para configurar esses tipos de cheque?

  • Testes: visibilidade do desempenho de novos recursos e atualizações enquanto gera muitos dados históricos
  • Primeira resposta: uma página de checkout caindo pode significar mais do que uma única falha na verificação HTTP(S). O que falhou e quando são bons indicadores de onde começar o diagnóstico.

Vamos conhecer James e ver como vários tipos de cheque são úteis:

James está lançando um novo produto para sua empresa, a Edgeco. Este novo serviço exigirá seu próprio certificado de segurança, juntamente com uma nova infraestrutura. James implantará esse serviço com monitoramento real do usuário para que ele aprenda mais sobre a experiência inicial do usuário. O monitoramento de SSL garantirá que, quando James passar para outros projetos, seu certificado terá salvaguardas para garantir que a renovação não seja esquecida.

Com uma verificação HTTP(S) monitorando esse URL, James e sua equipe têm recursos de primeira resposta quando o tempo de inatividade é detectado. Usando uma verificação de transação, James pode testar fluxos de usuários críticos, como fazer login no novo serviço e usar seus componentes principais.

Como James implantou o Real User Monitoring, seu serviço reuniu estatísticas de uso em todas as alterações que ele e sua equipe fizeram durante a vida útil do serviço. Dentro de seis meses, James terá dados suficientes para identificar problemas de desempenho localizados em regiões específicas e orientar sua equipe a melhorar de acordo. Camadas de verificações ajudam a proteger e simplificar o gerenciamento de infraestrutura complexa.

Software de monitoramento da Web agradável de se ter

Uma vez que você estabeleceu os tipos de verificação necessários, é hora de começar a comparar os recursos interessantes para tornar sua vida um pouco mais fácil. Há uma grande diferenciação aqui, pois alguns provedores oferecem uma página de status ou integrações como ofertas “premium”.

Relatórios públicos e privados

A visibilidade importa. Quem pode ver? Os executivos entenderão isso? O público tem acesso? Durante uma interrupção, o DevOps provavelmente está sendo pressionado internamente e por meio dos usuários, portanto, há valor nos relatórios visíveis.

O suporte não funciona de graça. Cada tíquete de suporte, mesmo com uma macro/resposta rápida, requer tempo. Alguém precisa preencher o ticket, parar de trabalhar em outra tarefa e responder a ela. Aumente sua base de usuários em centenas de milhares ou milhões de usuários, e o suporte pode perder dias inteiros de produtividade enviando a mesma resposta padrão para perguntas sobre se está em alta ou em baixa. Os relatórios visíveis criam uma plataforma para responder a perguntas e reduzir a pressão sobre a resposta do suporte.

O benefício secundário é a mensagem, porque a notícia errada pode destruir sua reputação. Quando você está diante do desastre, focando na transparência, você se torna a fonte de notícias. Isso é infinitamente melhor do que estar à mercê de uma indústria impulsionada por controvérsias de cliques.

Facilidade de uso e valor

Tudo, desde monitoramento e relatórios, está ótimo. E o custo de configuração ? Assim como sua equipe de suporte, seus engenheiros também não estão trabalhando de graça. Há um custo de configuração até mesmo para testar um provedor, portanto, reserve um tempo para avaliar todos os seus requisitos.

A facilidade de uso refere-se a qualquer coisa, desde a configuração da conta até a integração de novos usuários. Durante o teste, você pode se concentrar no básico e começar a usar o mais rápido possível; projeto a longo prazo e considere como os usuários irão interagir com o sistema.

Se você estiver trocando de provedor, também é útil ter uma função de importação/exportação onde você pode transferir facilmente centenas de cheques.

O software de logon único (SSO) é um bom exemplo, oferecendo um grau de segurança para sua empresa e facilitando a adoção por seus usuários. A documentação de suporte e o uso geral podem ajudá-lo a descobrir a acessibilidade do software. Você pode convidar outro usuário para tentar configurar algumas verificações ou recuperar relatórios para testar como o sistema funciona de todas as perspectivas.

Customização e observabilidade

Vamos considerar o caso de uso corporativo médio, em que mais de 100 monitores não estão fora de questão. Como são os relatórios para esse tipo de configuração? Enorme, é uma palavra. Convoluto, talvez outro. Mais de uma centena de qualquer coisa será difícil de rastrear, portanto, criar observabilidade a partir do monitoramento da Web também deve levar em consideração o que você precisa ver para fazer seu trabalho. Como seu provedor lida com a visibilidade diz muito sobre seu negócio principal.

Alguns recursos úteis a serem observados incluem tags, onde você pode codificar por cores ou usar a convenção de nomenclatura da equipe ou interna para organizar verificações. Você também pode ter preferência por trabalhar na linha de comando, caso em que a API é um recurso importante a ser procurado. Apenas certifique-se de perguntar sobre quaisquer limites potenciais que você precisa estar ciente ao considerar suas opções.

Dashboards dão visibilidade interna

Uma maneira de abordar essa questão de volume é fornecer um espaço centralizado para gerenciamento de cheques. Se você é do tipo que gosta de visão geral e acesso instantâneo às principais métricas, os painéis oferecem a visibilidade que você deseja. Os bônus aqui incluem compartilhamento. Você ou sua equipe podem projetar painéis para os quais você pode alternar rapidamente? Você pode controlar o acesso ou atribuir painéis específicos a usuários específicos?

As páginas de status com marca fornecem confiança

A maioria das empresas valoriza a transparência, então as páginas de status são outra boa de se ter. A confiança não se manifesta. Acoplar sua página de monitoramento e status oferece simplicidade. Se você usa um fornecedor para cada um desses serviços, precisa ter alguma camada intermediária que ajude a promover a comunicação entre os dois. Normalmente, isso significa que alguém precisa criar componentes meticulosamente ou escrever um script. Mesmo assim, você provavelmente está puxando dados para um serviço auto-hospedado que pode correr os mesmos riscos de interrupção do seu site.

Uma experiência perfeita entre sua página de status e seu site parece profissional. No entanto, você precisa incluir o gerenciamento de incidentes em sua rotina de resposta, incluindo atualizações regulares em sua página de status durante uma interrupção ou janela de manutenção.

Há também páginas de status internas projetadas para manter as informações necessárias. Pessoas fora de sua equipe de TI podem ter visibilidade sobre o tempo de inatividade crítico. Quando ocorre uma interrupção, as páginas de status internas tornam-se um hub que atualiza toda a empresa.

Alertas e observabilidade

Os acordos de nível de serviço tendem a ter limites embutidos que sinalizam quando é hora de reagir a um problema. Esses “orçamentos de erro” permitem que sua equipe durma à noite. Os alertas e o que eles contêm fazem a diferença entre cinco e 60 minutos para responder.

Um bom alerta é instrutivo. Os alertas podem conter códigos de status, correções sugeridas ou direcionar você para recursos úteis, como análise de alertas. Os melhores alertas indicam que um problema real está ocorrendo e informam qual pode ser esse problema. “Está inativo” versus “Está relatando um erro 500” apontam para problemas muito diferentes.

Alertas e detalhes

Muito vago e devops é provável que perca o cabelo procurando o problema, mas raramente há um problema em ser muito específico. Teste os sistemas de alerta completamente. Se você planeja mudar de provedor, faça um exercício no dia do jogo usando o sistema de alerta. Quais informações são fornecidas à sua equipe? O alerta ajudou no seu diagnóstico?

Se você planeja várias interrupções, seja como exercícios de jogo ou testes estendidos, pode aprender muito sobre como seu sistema de monitoramento funciona. Os alertas aumentam? E as janelas de manutenção em vez de interrupções? Seu sistema pode se diferenciar?

alertas

Entrega de alertas

Vamos voltar ao nosso caso de uso Edgecom. James está monitorando seu serviço quando recebe um ping em seu canal do Slack. Uma interrupção HTTP(S) indica que seu blog está fora do ar. James consegue marcar o responsável pelo blog, que rapidamente investiga o incidente. Acontece que um número incomum de carregamentos de página é a causa.

A equipe está se perguntando se um post recente se tornou viral. James detecta um ataque iminente e dimensiona os servidores para aumentar a capacidade. Com certeza, suas ações fazem parte de uma cadeia de eventos que ajudam a repelir um ataque DDoS destinado a derrubar seu site principal.

A moral aqui é que os alertas entregues à sua equipe podem levar a diagnósticos e serendipidades inesperadas. Nenhum alerta significa dor. Dor horrível.

para cima ou para baixo

O monitoramento da Web é realmente sobre análise

Não negligencie o valor do histórico de alertas. Usuários experientes de devops provavelmente têm um senso sobrenatural para desastres. Como eles aprimoram esse sentido? Observando as causas de um desastre e documentando-as cuidadosamente.

Escalações e flexibilidade

Digamos que James não seja mais o DevOps Spider-Man, e seus sentidos sobrenaturais não estão à altura. O ataque DDoS derruba alguns serviços. O que um provedor de monitoramento pode fazer para ajudar?

Escalações e manutenção são um bom começo. Se o seu provedor permitir, as janelas de manutenção podem fornecer flexibilidade para responder a interrupções enquanto alerta os usuários. Quer a manutenção seja ou não fator em seu SLA, é útil quando você pode agendar janelas de manutenção de rotina e enviar atualizações para seus usuários avançados.

Você também perde menos tempo embaralhando responsabilidades e escalando internamente se mapear seus limites de antemão. Quanto tempo é muito longo para uma interrupção? Escalar após a marca de cinco ou dez minutos é um bom lugar para começar, pois interrupções mais longas significam que algo está realmente errado. Os sistemas de alerta que automatizam os escalonamentos eliminam essa adivinhação, permitindo que sua equipe trabalhe sem se preocupar com quando notificar os níveis mais altos.

Monitoramento da web do usuário sintético e real para capturar a experiência do usuário

Pare de depender de relatórios de usuários de testadores beta (seus clientes) e capture a experiência do usuário em primeira mão. O monitoramento real do usuário normalmente requer algum código, como um pixel de rastreamento, mas a recompensa são os dados reais do usuário de sessões reais. Se você já se perguntou o que seu usuário está vendo, o monitoramento RUM é uma adição útil ao seu kit de ferramentas.

repartição do tempo de carregamento

Monitoramento sintético

O monitoramento sintético vem em dois tipos, normalmente: API e Transação. As verificações de transações são exatamente o que parecem. Eles testam funis de metas e fornecem recursos de primeira resposta para transações críticas. Seja o primeiro a saber sobre problemas com seu carrinho de compras, formulários de inscrição, logins e muito mais.

As verificações de API são úteis para examinar os endpoints que orientam o lado de automação do seu serviço. Você pode GET, PUSH, PULL, PATCH ou DELETE com a maioria dos provedores, permitindo uma variedade de possibilidades para monitoramento de endpoints. Pontos de bônus se você pode definir e recuperar variáveis.

O suporte é um fator invisível no monitoramento da web

São 2 da manhã e seu monitoramento na web está disparando alertas para a esquerda e para a direita. Você precisa de ajuda! Você precisa de análise e explicações. O suporte responsivo do seu provedor prova seu valor quando você encontra um erro que não pode ver ou replicar.

Quando você precisar de ajuda, é importante que haja uma equipe disposta a trabalhar com você. As primeiras interações de suporte são uma boa indicação da qualidade do serviço. Quanto tempo leva para os agentes responderem a um ticket? Qual é a qualidade de sua resposta e que documentação eles podem fornecer? Quais tipos de suporte estão disponíveis, como suporte por telefone ou chat? Quando um provedor está ocultando o botão de contato, isso pode ser uma bandeira vermelha.

Documentação

A documentação deve ser completa, incluir exemplos e fornecer instruções passo a passo. Se o seu provedor usa código em sua documentação, é um bom sinal de que eles sabem do que estão falando e levam isso a sério. Pontos de bônus para provedores que desenvolvem conjuntos de ferramentas externos, extensões de navegador e muito mais para ajudar na criação de seu sistema de monitoramento.

Comprometendo-se com um provedor de monitoramento da web

Monitoramento e relatórios são os componentes mais importantes para decidir sobre seu provedor, mas a lista de recursos interessantes pode simplificar seu trabalho e melhorar a supervisão. Lembre-se, o objetivo de um alerta é a primeira resposta. Se seu alerta está perdido no éter e ninguém pode reivindicá-lo, o fogo realmente aconteceu?

O software de monitoramento da Web faz parte de um importante compromisso que você faz com sua base de clientes. Ele diz que você se preocupa em fornecer um serviço e que seus usuários podem confiar que você estará lá para eles. Levar esse compromisso a sério significa refletir sobre qual desses requisitos é mais relevante para sua organização.