ニーズに合った Web サイト監視ツールの選択方法

公開: 2020-10-07

アラート音で目が覚め、時間がわかりませんが、外は暗く、意識を取り戻し始めると、通知が殺到します.

アプリケーションがクラッシュしたため、ヨーロッパのユーザーは非常に動揺しています。バックアップなしで 1 時間が経過しました。カスタマーサービスマネージャーが 15 分ごとに、いつ正常な状態に戻るかを忠実に尋ねないようにしてください。チームの残りのメンバーが目を覚まし、ニュースを受け取り、指を指し始めるのを2人で見ています。

4 時間目のダウンタイムがピークに達したため、この状況全体は回避可能だと思われます。何かが差し迫った運命について私たちに警告していたなら.

アプリケーションのアップタイムが主要な指令であるWeb サイト監視の世界へようこそ。午前 3 時の火が消えたのはこのような状況ではないかもしれませんが、DevOps でこれほど長い間生き残ってきたのであれば、それは楽しいものではなかったに違いありません。

あなたの目標がこの独特のブランドの痛みを最小限に抑えることである場合、Web監視プロバイダーで必要なものをレイアウトする簡単なガイドをざっと読むことで、オンコールを少しでも楽にするためにここにいます.

Web サイト監視ツールを選択するためのワンストップガイド

監視と報告という基本から始めましょう。 1984 年のすべてを見通すテレスクリーンと同じように、ここでの監視とは、操作の「外部」監視を指します。通常、外部プローブサーバーは、アプリケーションの状態を監視するために使用されます。

説明責任は、監視、つまり観察可能性から始まります。インフラストラクチャが伝えていることに基づいて、何を学ぶことができますか?

レポートは説明責任を数値化しますが、優れたレポートは主観的です。任意の形式にパッケージ化できる生データを好む人もいます。自動化されたレポートの配信を希望する人もいれば、数字に重きを置いている人もいれば、より視覚的なアプローチを望んでいる人もいます。レポートは監視の反対側であり、これら 2 つの要素を適切に行うことで、アプリケーションへのアクセスが維持され、サービスレベルアグリーメントが満たされていることが保証されます。

インフラストラクチャをよく理解すればするほど、監視から得られる価値が高まります。プロバイダーは、多くの場合、コストを低く抑えるためにチェックタイプを解析します。インフラストラクチャの Web 監視のニーズを理解することは、コスト削減の良い源です。

説明責任のための Web 監視とレポート

監視は、仕事中に眠っているサーバーノームを捕まえるだけではありません。サービスが稼働しているか停止しているか以上の情報を提供する必要があります。パフォーマンスメトリックを通じて、インフラストラクチャがどのように動作するかを明確に把握できます。特に、リアルユーザーモニタリング (RUM) などのより高度なチェックが必要ですが、これについては後で詳しく説明します。

ベンダーのステータスページを確認し、過去 6 ～ 12 か月の停止データを調べます。ベンダーは頻繁にダウンしていますか? 全体的なアップタイムとインシデント管理は、信頼性の手がかりを提供するはずです。

最も有用な Web サイト監視チェックの種類はどれですか?

プロバイダーを選択する前に、ニーズを評価します。これに答えてください、真夜中にあなたを目覚めさせるものは何ですか? そのインフラストラクチャは、プロバイダーをテストする際に構成する最初のコンポーネントの 1 つにする必要があります。

監視のための攻撃計画を立て、必要なサービスのリストを作成します。セットプランを提供するサービスプロバイダーは、ここで役立つ場合もあれば、害を及ぼす場合もあります。良い計画は、それらを使用するビジネスの規模を考慮に入れています。プランをカスタマイズするためのアップグレードやアドオンのオプションについて質問することは決して悪いことではありません。

Web モニターを探すきっかけとなったのは 404 または SSL エラーだったかもしれませんが、実験して成長する余地を残しておいてください。テストすると、システムを監視し、小切手の割り当てを使用するための追加の方法がきっと見つかるはずです。

基本チェックとそのWeb監視機能

基本的なチェックでは通常、単一の URL の監視や DNS レコードのチェックなど、1 つのことのみを行います。これらのチェックタイプは、通常、停止が発生した後に、誰かに監視を検索するよう促します。これを正しく行うことが重要です。

HTTP(S)、SSL、DNS、およびドメインの有効期限は、エンドユーザーが感じる傾向がある停止の種類であるため、覚えておくとよい基本的なチェックです。これらのチェックは、ほとんどの企業ユーザーの監視バックボーンも構成しています。これらのチェックタイプのみを組み込んだプランは、スタートアップや小規模ビジネス向けの強力な「スターター」プランです。

HTTP(S) チェックは、「Web 監視」とも呼ばれ、稼働時間を監視します。 SSL、DNS、およびドメインの有効期限は、重要なインフラストラクチャが予防可能な理由で失敗しないようにする傾向があります。プロバイダーにパフォーマンスメトリックも含まれている場合、それは明らかなボーナスです。

プロバイダーが、必要な場所でのアラート配信をサポートしていることを確認してください。 SSL の有効期限が近づいている場合は、官僚機構をシャッフルして、更新に十分な時間をかけて更新の費用を支払うことができる人の前にその通知を直接置くと役立ちます. より多くの専門知識が必要な場合に、問題が自動的に他の誰かにエスカレートできればさらに良いでしょう.

すべての DevOps チームが検討すべき高度なチェック

高度なチェックは、実際のユーザーデータを使用するか、ユーザーアクションに基づくアクションです。これらの複雑なチェックタイプには、通常、セットアップ作業が必要です。それらを使用する組織にとって、その見返りは途方もないものになる可能性があります。

高度なチェックタイプは、ログインやアイテムの購入など、重要な目標やナビゲーションファネルを監視します。これらのチェックは実際のユーザーのように振る舞う (または時にはデータを引き出す) ため、さまざまな条件下でのサイトのパフォーマンスを明確に把握できます。

これらのチェックタイプを設定するために労力を費やす必要はありません。

テスト:多くの履歴データを生成しながら、新機能とアップグレードのパフォーマンスを可視化
最初の対応:チェックアウトページがダウンするということは、複数の HTTP(S) チェックが失敗したことを意味している可能性があります。何がいつ失敗したかは、どこから診断を開始するかの良い指標です。

James に会って、複数のチェックタイプがどのように役立つかを見てみましょう。

James は、彼の会社 Edgeco の新製品を発売します。この新しいサービスには、新しいインフラストラクチャとともに、独自のセキュリティ証明書が必要です。 James は、このサービスをリアルユーザーモニタリングと共に展開し、初期のユーザーエクスペリエンスについて詳しく学びます。 SSL 監視により、James が他のプロジェクトに移ったときに、証明書の更新が忘れられないようにするための安全策が講じられます。

この URL を監視する HTTP(S) チェックにより、James と彼のチームは、ダウンタイムが検出されたときの最初の応答機能を備えています。 James は、トランザクションチェックを使用して、新しいサービスへのログインやコアコンポーネントの使用など、重要なユーザーフローをテストできます。

James は Real User Monitoring を導入したため、サービスの存続期間中に彼と彼のチームが行ったすべての変更を通じて、彼のサービスは使用統計を収集しました。 James は 6 か月以内に、特定の地域に限定されたパフォーマンスの問題を特定し、それに応じて改善するようチームに指示するのに十分なデータを取得します。チェックの層は、複雑なインフラストラクチャの管理を保護し、簡素化するのに役立ちます。

あると便利な Web 監視ソフトウェア

必要なチェックの種類を確立したら、次は便利な機能の比較を開始して、生活を少し楽にします。一部のプロバイダーはステータスページまたは統合を「プレミアム」オファリングとして提供するため、ここには大きな違いがあります。

公的および私的な報告

可視性が重要です。誰が見ることができますか？経営陣はそれを理解するだろうか？一般人はアクセスできますか？停止中、DevOps は内部およびユーザーを通じてプレッシャーを受ける可能性が高いため、目に見えるレポートには価値があります。

サポートは無料では機能しません。すべてのサポートチケットは、たとえマクロ/クイックレスポンスであっても、時間がかかります。誰かがチケットを提出し、別のタスクの作業を中断して、それに応答する必要があります。ユーザーベースを数十万、または数百万ユーザー増加させると、サポートは稼働中か停止中かという質問に対して同じボイラープレートの応答を送信して、丸一日の生産性を失う可能性があります。目に見えるレポートは、質問に回答し、サポート対応の負担を軽減するためのプラットフォームを作成します。

副次的な利点はメッセージです。誤ったニュース記事は評判を損なう可能性があるためです。災害の前にいるとき、透明性を重視すると、あなたがニュースソースになります。これは、クリックスルーの論争に駆り立てられた業界に翻弄されるよりもはるかに優れています.

使いやすさと価値

監視からレポートまで、すべてが見栄えがします。セットアップの費用はどうですか？サポートチームと同様に、エンジニアも無償で働いているわけではありません。プロバイダーのテストにもセットアップコストがかかるため、時間をかけてすべての要件を評価してください。

使いやすさとは、アカウントのセットアップから新しいユーザーのオンボーディングまで、あらゆることを指します。試用期間中は、基本に集中し、できるだけ早く起動して実行することができます。長期的に予測し、ユーザーがシステムとどのようにやり取りするかを検討してください。

プロバイダーを切り替える場合は、何百もの小切手を簡単に転送できるインポート/エクスポート機能があると便利です。

シングルサインオンソフトウェア (SSO) はその好例であり、企業にある程度のセキュリティを提供し、ユーザーが簡単に採用できるようにします。サポートドキュメントと一般的な使用法は、ソフトウェアのアクセシビリティを理解するのに役立ちます。システムがどのように機能するかをあらゆる観点からテストするために、別のユーザーを招待して、いくつかのチェックを試してセットアップしたり、レポートを取得したりすることを検討してください。

カスタマイズと可観測性

100 台以上のモニターが問題外ではない、平均的なエンタープライズユースケースを考えてみましょう。この種の設定では、レポートはどのように表示されますか? マッシブ、一言です。複雑な、おそらく別の。 100 を超えるものは追跡が困難になるため、Web 監視から可観測性を構築するには、仕事を行うために何を確認する必要があるかを考慮する必要があります。プロバイダーが可視性をどのように処理しているかは、その主なビジネスについて多くのことを教えてくれます。

注意すべきいくつかの便利な機能には、タグが含まれています。タグを色分けしたり、チームまたは社内の命名規則を使用してチェックを整理したりできます。また、コマンドラインで作業することを好む場合もあります。その場合、API は探すべき重要な機能です。オプションを検討する際に、知っておく必要がある潜在的な制限について必ず尋ねてください。

ダッシュボードで内部を可視化

このボリュームの問題に対処する 1 つの方法は、小切手管理用の集中スペースを提供することです。主要なメトリックへの概要と即時アクセスが好きなタイプの場合、ダッシュボードは、切望する可視性を提供します。ここでのボーナスには、共有可能性が含まれます。あなたまたはあなたのチームは、その場で切り替えることができるダッシュボードを設計できますか? アクセスを制御したり、特定のユーザーに特定のダッシュボードを割り当てたりできますか?

ブランド化されたステータスページは信頼を提供します

ほとんどの企業は透明性を重視しているため、ステータスページもあると便利です。信頼はそれ自体を明示しません。監視ページとステータスページを結合すると、シンプルになります。これらのサービスのそれぞれにベンダーを使用する場合は、2 つのサービス間の通信を促進するのに役立つレイヤーを間に配置する必要があります。通常、これは、誰かが細心の注意を払ってコンポーネントを作成するか、スクリプトを作成する必要があることを意味します。それでも、Web サイトと同じ停止リスクを実行できる自己ホスト型サービスにデータをプルしている可能性があります。

ステータスページと Web サイト間のシームレスなエクスペリエンスは、プロフェッショナルに見えます。ただし、インシデント管理を対応ルーチンに組み込む必要があります。これには、停止中またはメンテナンス期間中のステータスページの定期的な更新が含まれます。

知る必要がある情報を保持するように設計された内部ステータスページもあります。 IT チーム外の人も、重大なダウンタイムを可視化できます。障害が発生すると、社内のステータスページが会社全体を更新するハブになります。

アラートとオブザーバビリティ

サービスレベルアグリーメントには、問題に対応する時期を知らせるしきい値が組み込まれている傾向があります。これらの「エラーバジェット」により、チームは夜眠ることができます。アラートとアラートに含まれる内容によって、5 分から 60 分の応答時間の違いが生じます。

良い警告は有益です。アラートには、ステータスコード、推奨される修正が含まれている場合や、アラート分析などの有用なリソースに誘導されている場合があります。最良のアラートは、実際に問題が発生していることを示し、その問題が何であるかを知らせます。「ダウンしている」と「500 エラーを報告している」は、非常に異なる問題を示しています。

アラートと詳細

漠然としすぎて Devops を使用すると、問題を探すのに苦労する可能性がありますが、具体的すぎても問題になることはめったにありません。アラートシステムを徹底的にテストします。プロバイダーを変更する予定がある場合は、アラートシステムを使用してゲームデーの演習を実行します。あなたのチームにはどのような情報が提供されますか? アラートは診断に役立ちましたか?

試合日の演習または拡張テストとして、複数の停止を計画している場合は、監視システムがどのように機能するかについて多くを学ぶことができます。アラートはエスカレートしますか? 停止の代わりにメンテナンスウィンドウはどうですか? あなたのシステムは差別化できますか?

アラート配信

Edgecom の使用例に戻りましょう。 James は、Slack チャネルで ping を受信したときにサービスを監視しています。 HTTP(S) の停止は、彼のブログがダウンしていることを示しています。 James はブログの責任者にタグを付けることができ、責任者はインシデントを迅速に調査します。異常な数のページ読み込みが原因であることが判明しました。

チームは、最近の投稿が口コミで広まったかどうか疑問に思っています。 James は差し迫った攻撃を感知し、サーバーをスケールアップして容量を改善します。案の定、彼の行動は一連のイベントの一部であり、メインサイトのダウンを狙った DDoS 攻撃を撃退するのに役立ちます。

ここでの教訓は、チームに配信されたアラートが診断や予期しないセレンディピティにつながる可能性があるということです。アラートがないということは、痛みを意味します。ひどい痛み。

Web監視は分析に関するものです

アラート履歴の価値を見落とさないでください。経験豊富な DevOps ユーザーは、災害に対する超自然的な感覚を持っている可能性があります。彼らはどのようにその感覚を磨くのでしょうか? 災害の原因を観察し、それらを注意深く文書化することによって。

エスカレーションと柔軟性

James はもはや DevOps Spider-Man ではなく、彼の超自然的な感覚は十分に機能していないとしましょう。 DDoS 攻撃は、一部のサービスをダウンさせます。監視プロバイダーは何を支援できますか?

エスカレーションとメンテナンスは良いスタートです。プロバイダーが許可している場合、メンテナンスウィンドウは、ユーザーに警告しながら停止に対応する柔軟性を提供できます。メンテナンスが SLA に含まれるかどうかに関係なく、定期的なメンテナンスウィンドウをスケジュールし、パワーユーザーに更新をプッシュできると便利です。

また、事前に制限を計画しておくと、責任をシャッフルしたり、社内でエスカレーションしたりする時間を無駄にすることもありません。停止にはどれくらいの時間がかかりますか? 5 分または 10 分後にエスカレーションを開始することをお勧めします。より長い停止は、何かが本当に間違っていることを示しているためです。エスカレーションを自動化するアラートシステムにより、その当て推量が排除されるため、チームは上位層に通知するタイミングを気にすることなく作業できます。

ユーザーエクスペリエンスをキャプチャするための合成および実際のユーザーの Web 監視

有料のベータテスター (顧客) からのユーザーレポートに頼るのをやめ、ユーザーエクスペリエンスを直接把握します。通常、実際のユーザーの監視にはトラッキングピクセルなどのコードが必要ですが、実際のセッションからの実際のユーザーデータが得られます。ユーザーが何を見ているのか疑問に思ったことがあるなら、ツールキットに RUM 監視を追加すると便利です。

合成モニタリング

合成モニタリングには、通常、API とトランザクションの 2 つの種類があります。トランザクションチェックは、まさにそのように聞こえます。ゴールファネルをテストし、重要なトランザクションに対する最初の応答機能を提供します。ショッピングカート、サインアップフォーム、ログインなどに関する問題をいち早く知ることができます。

API チェックは、サービスの自動化側を駆動するエンドポイントを調べるのに役立ちます。ほとんどのプロバイダーで GET、PUSH、PULL、PATCH、または DELETE を実行できるため、エンドポイント監視のさまざまな可能性が可能になります。変数の設定と取得ができればボーナスポイント。

サポートは Web 監視の目に見えない要素です

午前 2 時で、Web 監視が左右にアラートを発しています。助けが必要です！分析と説明が必要です。プロバイダーからのレスポンシブサポートは、表示できない、または複製できないエラーが発生したときにその価値を証明します。

助けが必要なときは、喜んで協力してくれるチームがいることが重要です。初期のサポートのやり取りは、サービスの質を示す良い指標です。エージェントがチケットに応答するまでにどのくらいかかりますか? 彼らの応答の質はどのようなもので、どのような文書を提供できますか? 電話やチャットサポートなど、どのような種類のサポートを利用できますか? プロバイダーが連絡先ボタンを隠している場合、それは危険信号である可能性があります。

ドキュメンテーション

ドキュメントは完全で、例を含め、段階的な手順を提供する必要があります。プロバイダーがドキュメントでコードを使用している場合、それは彼らが何について話しているかを理解し、真剣に受け止めている良い兆候です。監視システムの作成を支援するために、外部ツールセット、ブラウザー拡張機能などを開発するプロバイダーのボーナスポイント。

Web 監視プロバイダーへのコミット

モニタリングとレポートは、プロバイダーを決定する上で最も重要なコンポーネントですが、あると便利な機能リストにより、作業が簡素化され、監視が改善されます. アラートのポイントは最初の対応であることを忘れないでください。あなたのアラートがエーテルで失われ、誰もそれを主張できない場合、火災は本当に起こったのでしょうか?

Web 監視ソフトウェアは、顧客ベースに対する重要な取り組みの一部です。あなたがサービスを提供することを気にかけていること、そしてあなたのユーザーはあなたが彼らのためにそこにいることを信頼できることを示しています. そのコミットメントを真剣に受け止めることは、これらの要件のどれがあなたの組織に最も関連しているかを熟考することを意味します。