필요에 맞는 웹사이트 모니터링 도구를 선택하는 방법
게시 됨: 2020-10-07경고음에 잠이 깨고 시간이 확실하지 않지만 밖은 어둡고 의식을 되찾기 시작하면 알림이 쏟아지는 것을 볼 수 있습니다.
애플리케이션이 충돌하여 유럽의 사용자가 상당히 당황했습니다. 백업 없이 한 시간이 지났습니다. 고객 서비스 관리자가 정상으로 돌아갈 것으로 예상되는 시간을 15분마다 성실하게 요청하는 것을 아껴두십시오. 두 사람은 나머지 팀원이 깨어나서 뉴스를 받고 손가락을 가리키기 시작하는 것을 지켜보고 있습니다.
이 전체 상황은 가동 중지 시간이 정점에 이르는 4시간 동안 피할 수 있다고 생각합니다. 우리의 임박한 운명에 대해 무엇인가가 우리에게 경고했다면.
애플리케이션 가동 시간이 주요 지침인 웹사이트 모니터링 의 세계에 오신 것을 환영합니다. 새벽 3시에 불이 꺼지는 방식이 아닐 수도 있지만 DevOps에서 이만큼 오래 살아남았다면 이미 경험한 것입니다.
귀하의 목표가 이 독특한 브랜드의 고통을 최소화하는 것이라면 웹 모니터링 제공업체에 필요한 사항을 설명하는 쉬운 훑어보기 가이드를 통해 대기 시간을 조금 덜 수 있도록 도와드리겠습니다.
웹사이트 모니터링 도구 선택을 위한 원스톱 가이드
모니터링 및 보고와 같은 기본 사항부터 시작하겠습니다. 1984년의 모든 것을 볼 수 있는 텔레스크린과 마찬가지로 여기에서 모니터링은 작업에 대한 "외부" 감독을 의미합니다. 외부 프로브 서버는 일반적으로 애플리케이션 상태를 모니터링하는 데 사용됩니다.
책임은 감독 또는 관찰 가능성으로 시작됩니다. 인프라가 알려주는 내용을 기반으로 무엇을 배울 수 있습니까?
보고는 책임을 수량화하지만 좋은 보고는 주관적입니다. 일부는 어떤 형식으로든 패키징할 수 있는 원시 데이터를 좋아할 수 있습니다. 다른 사람들은 자동화된 보고서가 전달되기를 원하고, 다른 사람들은 더 많은 시각적 접근 방식을 원합니다. 보고는 모니터링의 다른 측면이며 이 두 가지 요소를 올바르게 설정하면 애플리케이션에 계속 액세스할 수 있고 서비스 수준 계약이 충족됩니다.
인프라를 더 잘 이해할수록 모니터링에서 더 많은 가치를 얻을 수 있습니다. 공급자는 종종 비용을 낮추기 위해 수표 유형을 구문 분석합니다. 인프라의 웹 모니터링 요구 사항을 이해하는 것은 비용 절감의 좋은 원천입니다.
책임을 위한 웹 모니터링 및 보고
모니터링은 작업 중 잠자는 서버 gnomes를 잡는 것뿐만 아니라 서비스가 작동 또는 중지되었는지 여부보다 더 많은 것을 알려야 합니다. 성능 메트릭을 통해 인프라 작동 방식에 대한 명확한 그림을 개발할 수 있습니다. 특히 RUM(실제 사용자 모니터링)과 같은 고급 검사의 경우 – 나중에 자세히 설명합니다.
공급업체의 상태 페이지를 확인하고 이전 6개월에서 12개월 간의 중단 데이터를 살펴보십시오. 판매자가 자주 다운되나요? 전반적인 가동 시간 및 사고 관리는 안정성에 대한 단서를 제공해야 합니다.
어떤 웹사이트 모니터링 검사 유형이 가장 유용합니까?
제공자를 선택하기 전에 귀하의 요구 사항을 평가하고 싶습니다. 대답하세요. 한밤중에 당신을 깨우는 것은 무엇입니까? 해당 인프라는 공급자를 테스트할 때 구성하는 첫 번째 구성 요소 중 하나여야 합니다.
모니터링을 위한 공격 계획을 세우고 필수 서비스 목록을 만드십시오. 정해진 계획을 제공하는 서비스 제공업체는 여기에서 도움이 될 수도 있고 피해를 줄 수도 있습니다. 좋은 계획은 그것을 사용하는 기업의 규모를 고려합니다. 계획을 사용자 정의하기 위해 업그레이드 및 추가 기능에 대한 옵션에 대해 물어보는 것은 결코 나쁘지 않습니다.
웹 모니터를 검색하게 된 원인은 404 또는 SSL 오류일 수 있지만 실험하고 성장할 여지를 남겨두십시오. 테스트할 때 시스템을 모니터링하고 수표 할당을 사용하는 추가 방법을 찾을 수 있을 것입니다.

기본 점검 및 웹 모니터링 기능
기본 확인은 일반적으로 단일 URL 모니터링 또는 DNS 레코드 확인과 같은 한 가지 작업만 수행합니다. 이러한 검사 유형은 일반적으로 정전이 발생한 후 누군가에게 모니터링을 검색하라는 메시지를 표시합니다. 이 권리를 얻는 것이 중요합니다.
HTTP(S), SSL, DNS 및 도메인 만료는 최종 사용자가 느끼는 경향이 있는 중단 유형이므로 염두에 두면 좋은 기본 검사입니다. 이러한 검사는 또한 대부분의 엔터프라이즈 사용자의 모니터링 백본을 구성합니다. 이러한 수표 유형만 포함하는 계획은 신생 기업 및 소규모 비즈니스를 위한 강력한 "초기" 계획입니다.
"웹 모니터링"이라고도 하는 HTTP(S) 검사는 가동 시간을 모니터링합니다. SSL, DNS 및 도메인 만료는 예방 가능한 이유로 중요한 인프라가 실패하지 않도록 하는 경향이 있습니다. 제공업체에 성능 지표도 포함되어 있다면 이는 명백한 보너스입니다.
공급자가 필요한 곳에 경고 전달을 지원하는지 확인하십시오. SSL 만료가 임박했다면 관료주의를 지나쳐 갱신할 충분한 시간을 두고 갱신 비용을 지불할 수 있는 사람 앞에 해당 통지를 직접 두는 것이 도움이 될 것입니다. 더 많은 전문 지식이 필요한 경우 문제가 자동으로 다른 사람에게 에스컬레이션될 수 있다면 더 좋을 것입니다.
모든 DevOps 팀이 고려해야 하는 고급 검사
고급 검사는 실제 사용자 데이터를 사용하거나 사용자 작업을 기반으로 하는 검사입니다. 이러한 복잡한 검사 유형에는 일반적으로 약간의 설정 노력이 필요합니다. 그 결과는 이를 사용하는 조직에게 기념비적일 수 있습니다.
고급 확인 유형은 로그인 또는 항목 구매와 같은 중요한 목표 또는 탐색 깔때기를 감독합니다. 실제 사용자처럼 행동하거나 때로는 데이터를 가져오기 때문에 이러한 검사를 통해 다양한 조건에서 사이트 성능을 명확하게 파악할 수 있습니다.
이러한 수표 유형을 설정하는 데 투자해야 하는 이유는 무엇입니까?
- 테스트: 많은 과거 데이터를 생성하면서 새로운 기능 및 업그레이드의 성능에 대한 가시성
- 첫 번째 응답: 체크아웃 페이지가 다운된다는 것은 하나 이상의 HTTP(S) 확인이 실패했음을 의미할 수 있습니다. 실패한 것과 언제 진단을 시작해야 하는지에 대한 좋은 지표입니다.
James를 만나 여러 검사 유형이 어떻게 유용한지 살펴보겠습니다.
James는 자신의 회사인 Edgeco를 위해 새로운 제품을 출시합니다. 이 새로운 서비스에는 새로운 인프라와 함께 자체 보안 인증서가 필요합니다. James는 실제 사용자 모니터링과 함께 이 서비스를 배포하여 초기 사용자 경험에 대해 더 많이 배울 것입니다. SSL 모니터링은 James가 다른 프로젝트로 이동할 때 그의 인증서에 갱신이 잊혀지지 않도록 보호 장치가 있는지 확인합니다.
이 URL을 모니터링하는 HTTP(S) 검사를 통해 James와 그의 팀은 가동 중지 시간이 감지될 때 첫 번째 대응 기능을 갖습니다. James는 트랜잭션 검사를 사용하여 새 서비스에 로그인하고 핵심 구성 요소를 사용하는 것과 같은 중요한 사용자 흐름을 테스트할 수 있습니다.
James는 Real User Monitoring과 함께 배포했기 때문에 그의 서비스는 서비스 수명 동안 그와 그의 팀이 수행한 모든 변경 사항에 대해 사용 통계를 수집했습니다. 6개월 이내에 James는 특정 지역에 국한된 성능 문제를 식별하고 그에 따라 팀이 개선하도록 지시하는 데 충분한 데이터를 갖게 됩니다. 검사 계층은 복잡한 인프라 관리를 보호하고 단순화하는 데 도움이 됩니다.
있으면 좋은 웹 모니터링 소프트웨어
필요한 수표 유형을 설정했다면 이제 생활을 조금 더 편하게 하기 위해 있으면 좋은 기능을 비교할 때입니다. 일부 공급자는 상태 페이지 또는 통합을 "프리미엄" 제품으로 제공하기 때문에 여기에는 상당한 차이가 있습니다.
공개 및 비공개 보고
가시성이 중요합니다. 누가 볼 수 있습니까? 경영진이 이해할까요? 대중이 접근할 수 있습니까? 정전 중에 DevOps는 내부적으로 그리고 사용자를 통해 압력을 받을 가능성이 있으므로 가시적인 보고에 가치가 있습니다.
지원은 무료로 작동하지 않습니다. 매크로/빠른 응답이 있더라도 모든 지원 티켓에는 시간이 필요합니다. 누군가는 티켓을 입력하고 다른 작업을 중단하고 응답해야 합니다. 사용자 기반을 수십만 또는 수백만 명의 사용자로 늘리면 지원이 정상인지 여부에 대한 질문에 동일한 상용구 응답을 보내는 전체 일의 생산성을 잃을 수 있습니다. 가시적 보고는 질문에 답하고 지원 응답에 대한 부담을 줄이는 플랫폼을 만듭니다.
잘못된 뉴스 기사가 평판을 망칠 수 있기 때문에 두 번째 이점은 메시징입니다. 재난 앞에 섰을 때 투명성에 초점을 맞추면 뉴스의 출처가 됩니다. 클릭을 통한 논쟁에 휘둘리는 산업에 휘둘리는 것보다 훨씬 낫습니다.
사용 용이성과 가치
모니터링 및 보고의 모든 것이 멋지게 보입니다. 설치 비용은 어떻습니까? 지원 팀과 마찬가지로 엔지니어도 무료로 일하지 않습니다. 공급자를 테스트하는 데에도 설정 비용이 있으므로 시간을 내어 모든 요구 사항을 평가하십시오.
사용 용이성은 계정 설정에서 신규 사용자 온보딩에 이르기까지 모든 것을 말합니다. 평가판을 사용하는 동안 기본 사항과 최대한 빨리 시작하고 실행하는 데 집중할 수 있습니다. 장기적으로 프로젝트를 진행하고 사용자가 시스템과 상호 작용하는 방식을 고려합니다.
공급자를 전환하는 경우 수백 개의 수표를 쉽게 전송할 수 있는 가져오기/내보내기 기능을 갖는 것도 도움이 됩니다.
SSO(Single Sign-On) 소프트웨어는 회사에 일정 수준의 보안을 제공하고 사용자가 더 쉽게 채택할 수 있도록 하는 좋은 예입니다. 지원 문서 및 일반적인 사용은 소프트웨어의 접근성을 파악하는 데 도움이 될 수 있습니다. 모든 관점에서 시스템이 작동하는 방식을 테스트하기 위해 다른 사용자를 초대하여 몇 가지 검사를 설정하거나 보고서를 검색하도록 요청할 수 있습니다.

사용자 정의 및 관찰 가능성
100개 이상의 모니터가 문제가 되지 않는 일반적인 기업 사용 사례를 고려해 보겠습니다. 이런 종류의 설정에 대한 보고는 어떻게 됩니까? Massive는 한 단어입니다. 복잡한, 아마도 다른. 100개 이상의 항목을 추적하기 어려울 수 있으므로 웹 모니터링에서 관찰 가능성을 구축할 때는 작업을 수행하기 위해 확인해야 하는 항목도 고려해야 합니다. 공급자가 가시성을 처리하는 방법은 주요 비즈니스에 대해 많은 것을 알려줍니다.
주의해야 할 몇 가지 유용한 기능에는 색상 코드를 지정하거나 팀 또는 사내 명명 규칙을 사용하여 수표를 구성할 수 있는 태그가 있습니다. 또한 명령줄에서 작업하는 것을 선호할 수도 있습니다. 이 경우 API는 찾아야 할 중요한 기능입니다. 옵션을 고려할 때 알고 있어야 하는 잠재적인 한계에 대해 물어보십시오.
대시보드는 내부 가시성을 제공합니다.
이러한 볼륨 문제에 접근하는 한 가지 방법은 수표 관리를 위한 중앙 집중식 공간을 제공하는 것입니다. 개요 및 주요 지표에 대한 즉각적인 액세스를 좋아하는 유형이라면 대시보드를 통해 원하는 가시성을 얻을 수 있습니다. 여기에는 공유 가능성이 포함됩니다. 귀하 또는 귀하의 팀이 즉시 전환할 수 있는 대시보드를 디자인할 수 있습니까? 액세스를 제어하거나 특정 사용자에게 특정 대시보드를 할당할 수 있습니까?
브랜드 상태 페이지는 신뢰를 제공합니다.
대부분의 회사는 투명성을 중요하게 생각하므로 상태 페이지는 또 하나 있으면 좋습니다. 신뢰는 스스로 나타나지 않습니다. 모니터링 및 상태 페이지를 결합하면 간단합니다. 이러한 각 서비스에 대해 공급업체를 사용하는 경우 둘 사이의 통신을 촉진하는 데 도움이 되는 중간 계층이 필요합니다. 일반적으로 누군가가 세심하게 구성 요소를 만들거나 스크립트를 작성해야 함을 의미합니다. 그럼에도 불구하고 웹 사이트와 동일한 중단 위험을 실행할 수 있는 자체 호스팅 서비스로 데이터를 가져올 가능성이 높습니다.
상태 페이지와 웹사이트 간의 원활한 경험이 전문적으로 보입니다. 그러나 정전 또는 유지 관리 기간 동안 상태 페이지에 대한 정기적인 업데이트를 포함하여 사고 관리를 대응 루틴에 포함해야 합니다.
알아야 할 정보를 유지하도록 설계된 내부 상태 페이지도 있습니다. IT 팀 외부의 사람들이 중요한 다운타임에 대한 가시성을 가질 수 있습니다. 중단이 발생하면 내부 상태 페이지가 회사 전체를 업데이트하는 허브가 됩니다.
경고 및 관찰 가능성
서비스 수준 계약에는 문제에 대응해야 할 때 해당 신호가 기본 제공되는 임계값이 있는 경향이 있습니다. 이러한 "오류 예산"으로 인해 팀이 밤에 잠을 잘 수 있습니다. 경고와 경고에 포함된 내용은 응답 시간을 5분에서 60분으로 결정합니다.
좋은 경고는 유익합니다. 경고는 상태 코드, 제안된 수정 사항을 포함하거나 경고 분석과 같은 유용한 리소스로 안내할 수 있습니다. 최상의 경고는 실제 문제가 발생하고 있음을 나타내고 해당 문제가 무엇인지 알려줍니다. "다운되었습니다"와 "500 오류를 보고합니다"는 매우 다른 문제를 나타냅니다.
알림 및 세부정보
너무 막연하고 devops는 문제를 찾기 위해 머리카락을 잃을 가능성이 있지만 너무 구체적인 문제는 거의 없습니다. 경보 시스템을 철저히 테스트하십시오. 제공자를 변경할 계획이라면 경보 시스템을 사용하여 경기 당일 운동을 실행하십시오. 팀에 어떤 정보가 제공됩니까? 경고가 진단에 도움이 되었습니까?
게임 데이 연습이나 확장 테스트로 여러 번의 중단을 계획하는 경우 모니터링 시스템이 작동하는 방식에 대해 많은 것을 배울 수 있습니다. 경고가 에스컬레이션됩니까? 정전 대신 유지 관리 기간은 어떻습니까? 시스템이 차별화될 수 있습니까?

알림 전달
다시 Edgecom 사용 사례로 돌아가 보겠습니다. James는 Slack 채널에서 핑을 받으면 서비스를 모니터링하고 있습니다. HTTP(S) 중단은 그의 블로그가 다운되었다는 신호입니다. James는 사건을 신속하게 조사하는 블로그 책임자를 태그할 수 있습니다. 비정상적인 페이지 로드 횟수가 원인인 것으로 나타났습니다.
팀은 최근 게시물이 입소문을 탔는지 궁금합니다. James는 임박한 공격을 감지하고 서버를 확장하여 용량을 향상시킵니다. 물론 그의 행동은 그의 주요 사이트를 무너뜨리려는 DDoS 공격을 격퇴하는 데 도움이 되는 일련의 사건의 일부입니다.
여기서 교훈은 팀에 전달된 경고가 진단과 예기치 않은 우연으로 이어질 수 있다는 것입니다. 경고가 없다는 것은 고통을 의미합니다. 끔찍한 고통.

웹 모니터링은 실제로 분석에 관한 것입니다.
경고 기록의 가치를 간과하지 마십시오. 숙련된 데브옵스 사용자는 재난에 대한 초자연적인 감각을 가지고 있습니다. 그들은 어떻게 그 감각을 연마합니까? 재해의 원인을 관찰하고 주의 깊게 문서화합니다.
에스컬레이션 및 유연성
James는 더 이상 DevOps Spider-Man이 아니며 그의 초자연적인 감각은 그다지 좋지 않습니다. DDoS 공격은 일부 서비스를 중단시킵니다. 모니터링 제공자가 도움을 주기 위해 무엇을 할 수 있습니까?
에스컬레이션 및 유지 관리는 좋은 시작입니다. 공급자가 허용하는 경우 유지 관리 기간을 통해 사용자에게 경고하면서 가동 중단에 대응할 수 있는 유연성을 제공할 수 있습니다. 유지 관리가 SLA에 포함되는지 여부에 관계없이 일상적인 유지 관리 기간을 예약하고 고급 사용자에게 업데이트를 푸시할 수 있으면 유용합니다.
또한 미리 제한을 설정하면 책임을 뒤섞고 내부적으로 확대하는 데 시간을 덜 낭비하게 됩니다. 정전에 너무 오래 걸리나요? 5분 또는 10분 표시 후 에스컬레이션하는 것이 시작하기에 좋은 출발점입니다. 정전이 길어지면 무언가 정말 잘못되었음을 의미하기 때문입니다. 에스컬레이션을 자동화하는 경고 시스템은 이러한 추측을 제거하여 팀이 상위 계층에 언제 알릴지 걱정하지 않고 작업할 수 있도록 합니다.
사용자 경험을 캡처하기 위한 합성 및 실제 사용자 웹 모니터링
유료 베타 테스터(고객)의 사용자 보고서에 의존하지 말고 사용자 경험을 직접 캡처하십시오. 실제 사용자 모니터링에는 일반적으로 추적 픽셀과 같은 일부 코드가 필요하지만 결과는 실제 세션의 실제 사용자 데이터입니다. 사용자가 무엇을 보고 있는지 궁금하다면 RUM 모니터링이 도구 키트에 추가되는 데 유용합니다.

합성 모니터링
종합 모니터링은 일반적으로 API와 트랜잭션의 두 가지 형태로 제공됩니다. 거래 수표는 말 그대로입니다. 목표 유입경로를 테스트하고 중요한 거래에 대한 최초 대응 기능을 제공합니다. 장바구니, 가입 양식, 로그인 등의 문제에 대해 가장 먼저 알아보세요.
API 검사는 서비스의 자동화 측면을 주도하는 엔드포인트를 검사하는 데 유용합니다. 대부분의 공급자를 사용하여 GET, PUSH, PULL, PATCH 또는 DELETE를 수행할 수 있으므로 끝점 모니터링을 위한 다양한 가능성이 허용됩니다. 변수를 설정하고 검색할 수 있는 경우 보너스 포인트.
지원은 웹 모니터링에서 보이지 않는 요소입니다.
오전 2시이고 웹 모니터링이 왼쪽과 오른쪽에서 경고를 발생시키고 있습니다. 도움이 필요합니다! 분석과 설명이 필요합니다. 볼 수 없거나 복제할 수 없는 오류가 발생했을 때 공급자의 대응적인 지원이 그 가치를 증명합니다.
도움이 필요할 때 기꺼이 함께 일할 팀이 있는 것이 중요합니다. 조기 지원 상호 작용은 서비스 품질에 대한 좋은 지표입니다. 상담원이 티켓에 응답하는 데 얼마나 걸립니까? 응답의 품질과 제공할 수 있는 문서는 무엇입니까? 전화 또는 채팅 지원과 같은 지원 유형은 무엇입니까? 공급자가 연락처 버튼을 숨기면 위험 신호일 수 있습니다.
선적 서류 비치
문서는 철저해야 하고, 예를 포함하고, 단계별 지침을 제공해야 합니다. 공급자가 문서에서 코드를 사용하는 경우 공급자가 자신이 말하는 내용을 알고 진지하게 받아들이는 좋은 신호입니다. 모니터링 시스템 생성을 지원하기 위해 외부 도구 세트, 브라우저 확장 등을 개발하는 제공업체에 대한 보너스 포인트.
웹 모니터링 제공업체에 커밋
모니터링 및 보고는 공급자를 결정할 때 가장 중요한 구성 요소이지만 있으면 좋은 기능 목록을 통해 작업을 단순화하고 감독을 개선할 수 있습니다. 경고의 포인트는 첫 번째 대응임을 기억하십시오. 경보가 에테르에서 사라지고 아무도 이를 주장할 수 없다면 화재가 실제로 발생한 것입니까?
웹 모니터링 소프트웨어는 고객 기반에 대한 중요한 약속의 일부입니다. 그것은 당신이 서비스 제공에 관심을 갖고 있으며, 당신의 사용자들이 당신이 그들을 위해 거기에 있다고 신뢰할 수 있다고 말합니다. 이러한 약속을 진지하게 받아들인다는 것은 이러한 요구 사항 중 조직과 가장 관련성이 높은 요구 사항을 반영하는 것을 의미합니다.