データサイエンス、データ分析、ビッグデータを理解する

公開: 2022-09-11

データサイエンス、データ分析、ビッグデータ

ジャスト・アナザー・デイ

火曜日の朝、午前 5 時 30 分にアラームが鳴ります。 歯を磨き、間欠泉をオンにします。 そして、アイロンが熱くなるのを待っている間にメールをチェックしていると、電源が切れてしまいます。 くしゃくしゃのシャツで間に合わせます。 配偶者のためにコーヒーとトーストを作るのは電力なしでは難しいため、朝のメニューを土壇場で変更します。コーンフレークと冷たい牛乳です。 あなたはジムをスキップして、シャワーに直行することにしました。

あなたは車に乗り込み、午前 8 時 15 分ちょうどに出勤を開始します。短い朝食と雑談の後です。 途中、逃げ場のない渋滞に遭遇。 仲間の通勤者との会話は、行列が行われていることを明らかにし、車線の 1 つが停止されました。

新しい高級住宅の別のコマーシャルがラジオで放送され、車で 15 分で通勤できると約束されたとき、この道路が無人だった時代に何が起こったのか不思議に思うでしょう。 次に、ホットな新しいボリウッドの歌を聞いて、ハミングを始めます。

最後に、1 時間半の交通渋滞の後、毎日の会議にちょうど間に合うように職場に到着しましたが、長時間の通勤に不満と疲労を感じています。

また読む:2021年に実装する13の効果的なSEO戦略

物事のあり方

これは、多くのサラリーマンにとって、インドでは日常的な日です。 彼らは起きて、着替えて、仕事に向かいます。 彼らは途中でいくつかの決定を下しますが、ほとんどの流れに乗っています。 彼らはたいてい反応的で、残念なことに、一日を乗り切ることだけに関心があります。

しかし、そうである必要はありません。

これを想像してください

火曜日の朝です。アラームは午前 5 時 30 分ではなく、午前 5 時 10 分に鳴ります。計画されている停電について知り、それに応じてスケジュールを調整しました。 起きたらすぐにアイロンのスイッチを入れ、次に間欠泉のスイッチを入れます。 あなたが歯を磨いている間に、あなたの配偶者はすでにトースターでフレンチトーストを作り始めています. シャツのアイロンがけを終えると、熱いコーヒーの香りがあなたを待っています。

電流は予告なしに突然遮断されます。 朝のランニングのためにドアを出ると、あなたは微笑みます。

また読む|: SEO競合他社分析を行う方法?

ワークアウトとシャワーの後は、温かい朝食とコーヒーを楽しみながら、楽しいディスカッションをお楽しみください。 その後、準備をして、午前8時30分頃に出発します

ルートは少し長くなりますが、40 分以内に職場に到着するため、毎日の会議までに十分な時間を確保できます。

違いは何ですか?

最初のシナリオの流れに沿って進みました。 それがあなたにとって第二の性質だったので、あなたは物事をしました。 あなたは現状に満足していました。 一日の計画を立てる前に、停電や交通渋滞など、遅刻の原因となったさまざまな要因を考慮に入れていませんでした。 独自のシナリオと期待される標準的な結果に対して標準的な手法を使用しました。

2 番目のシナリオでは、ルーチンに影響を与える可能性のあるさまざまな要因を分析し、それに応じてタイムテーブルを調整しました。 停電を知っていたので、いつもより数分早く起きて、間欠泉とアイロンのスイッチを入れました。

また読む: 人工知能: 最新のアプローチ.

あなたの配偶者も、数分前にトースターとコーヒーマシンを起動しました。 その後、その日の交通状況を考慮して、別のルートを選択しました。

結論を導き出した事実があります。 その結果、あなたは自分の行動を調整し、結果はかなり良くなりました。 意図せずとも、アナリティクスの力を利用しました。

こんにちは。データ サイエンスの領域へようこそ。

データサイエンスとは?

データ サイエンスとは、数学、統計、コンピューター、ドメインの専門知識から、データの収集、処理、操作、解釈までのツールと技術の適用を指します。

data science
データサイエンス

別の言い方をすれば、データサイエンスはデータを使って問題を解決するプロセスです。 データの収集から、収集した情報から洞察を得るまで、すべてを網羅しています。

データサイエンスの適用

あなたが今読んだ物語を見てみましょう。

仮説として、あなたは、なぜ朝が慌ただしいのかを調査して集めた洞察を活用することで、シナリオ 1 の繰り返しを回避しました。

まず、「素晴らしい一日を過ごすには何が必要か?」と自問する必要があります。

次の変数がリストに表示される可能性があります。

  • 電気
  • 寝る
  • お湯
  • 朝ごはん
  • 交通手段
  • トラフィック

この変数の合流点により、日々のルーチンを改善する方法についての洞察を得るために、収集、処理、削除、および評価する必要があるデータの種類が決まります。 データ サイエンスは、各変数 (データ ポイント) の複合的な影響を判断するのに役立ちます。

seo-toolsOpens in a new tab.
seo ツール

データまたは「ビッグデータ」?

朝の簡単なルーチンの例で、7 つの基準を分析しました。 結果として得られた知識は、あなたの一日をより良くすることができます.

しかし、もっと何かを探していたらどうでしょうか。 (7 つだけではなく) すべての重要なパラメーターを説明するのに十分なほど複雑なモデルがあるとしたら?

Big Data
ビッグデータ

もうデータを扱うだけではありません。 あなたはビッグデータを扱っているでしょう。

ウィキペディアによるとOpens in a new tab. 、ビッグデータは次のように定義されます。

「ビッグデータ」とは、一般的なデータ処理プログラムでは処理しきれないほど大量または複雑なデータ コレクションを指します。 分析、キャプチャ、データ キュレーション、検索、共有、ストレージ、転送、視覚化、クエリ、および情報のプライバシーはすべて課題です。 この言葉は通常、特定のデータセットのサイズではなく、予測分析やその他の高度なアプローチを使用してデータから価値を抽出することを暗示しています。」

別の言い方をすれば、ビッグ データとは、大規模なデータセットを操作し、そこから洞察を抽出することです。 これらのデータセットは非常に大きいため、従来のアプローチではうまくいきません。 適切に設計された手順を使用して、データを収集、分析、保存、および処理する必要があります。

一般に、データセットが許容できる品質である限り、データセットが大きいほど結果は良くなります。

たとえば、e コマース ビジネスでは、参照サイト、サイトでの滞在時間、直帰率、ランディング ページ、訪問者の流れなど、Web サイトが大量のデータを収集します。 彼らはこの情報を個人ごとに追跡します。つまり、数年のうちに、標準的なアプローチでは処理できない大きなデータセットをコンパイルできるようになります。 その時、彼らは「ビッグデータ」を扱っていることに気づきます。

その結果、朝のルーティンの例では、処理および評価するパラメーターが非常に多く、非常に大きなデータセットが存在する可能性があります。 あなたの街の何万人、あるいは何百万人もの人々から情報を収集したかもしれません。 一定期間にわたってこの情報を収集し、天気、時刻、最新の交通状況、ツイート、世帯収入など、調査に利用できるさまざまな側面を記録している場合があります。

データセットのサイズを大局的に捉える別のアプローチは、標準サイズのデータ​​セットが日刊新聞と同じくらいの厚さになる可能性があると考えることです。

「ビッグデータ」データセットを印刷するには、電話帳でいっぱいの 50 の倉庫が必要です。

このような大量のデータを処理する場合、従来のツールや手順では十分ではありません。この目的のために特別に作成された専用のソフトウェアが必要です。

これを分析する

朝に関するこの情報をすべて収集したら、結論を出すために調査と研究を行う必要があります。 これはデータ分析として知られています。 この例から、月曜日の夜に「Saas bhi kabhi bahun thi」を見ると、火曜日の朝遅くに目が覚めることがわかります。 または、日曜日ではなく土曜日に洗濯を行うと、火曜日にアイロンをかけたシャツを追加することができます.

しかし、多数のデータ セットを検索して、より包括的で複雑なパターンを見つけたい場合はどうすればよいでしょうか? 次に、データ分析に従事します。

Data Analytics
データ分析
一連の手順 (アルゴリズム) または変換を適用して、処理されたデータセットから洞察を導き出すことは、データ分析として知られています。

朝の日課の例では、特定の詳細の複雑な相互作用を調べることができます。 たとえば、毎日の気温と車の使用率を比較すると、気温が車の使用率に大きな影響を与えることがわかります。 もう少し調べてみると、この単純なモデルは夏の間だけ有効であることがわかります。 梅雨の時期は車の利用が多くなります。 この情報を使用すると、翌日の降雨量が平均より多いと予想されることがわかり、交通量が増えることを意味します。

それが実際のデータ分析です。 職場では、交通量が増えるため、データ分析を使用して、通常よりも早く退社することを決定します。

結論

分析、ビッグデータ、データ サイエンスなどの業界の流行語は、頻繁に誤って同じ意味で使用されています。 データ分析は、収集したデータに価値を付加する基本的な操作の 1 つですが、データ サイエンスは操作するドメインです。 また、通常のツールや方法では処理できない大量のデータを扱うときは、ビッグ データを扱っていることになります。

私たちの定義についてどう思いますか? それはあなたのものと同じですか? 「日課」の例は機能しますか? 共有したい個人的な例はありますか? コメント欄であなたの考えを共有してください。