了解數據科學、數據分析和大數據
已發表: 2022-09-11數據科學、數據分析和大數據
只是另一天
您的鬧鐘會在星期二早上 5:30 響起。 你刷牙並打開間歇泉。 然後,在等待熨斗加熱時,您檢查了您的電子郵件,但電源熄滅了。 你可以用一件皺褶的襯衫來湊合。 因為沒有電源就很難為您的配偶製作咖啡和吐司,所以在最後一刻更改早上的菜單:玉米片和冷牛奶。 你決定跳過健身房,直接去洗澡。
早上 8 點 15 分,你上了車,開始了上班之旅,在簡短的早餐和匆忙的談話之後。 在途中,您會遇到永無止境的交通擁堵,無路可走。 與一位通勤者的對話顯示,正在舉行遊行,其中一條車道已被停止。
當收音機播放另一則新豪宅廣告,承諾開車 15 分鐘即可上班時,你會想知道這條路荒蕪的日子裡發生了什麼。 然後你聽到一首熱門的寶萊塢新歌並開始哼唱。
最後,經過一個半小時的交通擁堵後,您及時趕到上班參加日常會議,但您因漫長的通勤而感到沮喪和疲憊。
另請閱讀:2021 年實施的 13 種有效 SEO 策略
事情的發展方式
對於許多上班族來說,這是印度的常規日子。 他們起床,穿好衣服,開始工作。 他們在此過程中做出了一些決定,但他們大多順其自然。 他們通常是被動的,遺憾的是,他們只關心度過一天。
不過,不一定要那樣。
想像一下
現在是星期二早上,而不是早上 5:30,鬧鐘在早上 5:10 響起 您了解了計劃中的停電並相應地調整了您的日程安排。 你一醒來就打開熨斗,然後打開間歇泉。 當您刷牙時,您的配偶已經開始在烤麵包機中製作法式吐司。 當你熨完襯衫時,你可以聞到等待你的熱咖啡的味道。
電流突然關閉,恕不另行通知。 當你走出門進行晨跑時,你微笑著。
另請閱讀|:如何進行 SEO 競爭對手分析?
鍛煉和淋浴後,您將享用美味的熱早餐和咖啡,並進行一些有趣的討論。 然後您準備好並在上午 8:30 左右離開
您的路線稍長,但在 40 分鐘內到達工作崗位,在日常會議之前為您提供充足的時間。
有什麼不同?
在第一個場景中,您順其自然。 你做事是因為它是你的第二天性。 你滿足於現狀。 在計劃您的一天之前,您沒有考慮到許多變量,例如導致您遲到的停電和交通擁堵。 您對獨一無二的場景和預期的標準結果使用了標準技術。
在第二種情況下,您分析了可能對您的日常生活產生影響的各種因素,並相應地調整了您的時間表。 因為你知道停電,你比平時早起幾分鐘打開間歇泉和熨斗。
另請閱讀:人工智能:一種現代方法。
您的配偶還提前幾分鍾啟動了烤麵包機和咖啡機。 然後,考慮到當天的交通情況,你選擇了不同的路線。
你有從中得出結論的事實。 結果你調整了你的動作,結果好多了。 您無意中利用了分析的力量。
您好,歡迎來到數據科學領域。
什麼是數據科學?
數據科學是指將數學、統計學、計算機和領域專業知識等工具和技術應用於數據的收集、處理、操作和解釋。

換句話說,數據科學是使用數據解決問題的過程。 它涵蓋了從數據收集到從您收集的信息中獲得洞察力的所有內容。
應用數據科學
讓我們來看看你剛剛讀到的敘述。
假設您通過利用從調查中收集到的關於為什麼您的早晨如此匆忙的見解來避免重複場景 1,以便簡化您的日子並使它們變得更好、更明亮。
首先,您必須問自己:“為了度過美好的一天,我需要什麼?”
以下變量可能會出現在列表中:
- 電
- 睡覺
- 熱水
- 衣服
- 早餐
- 運輸
- 交通
變量的這種融合決定了您需要收集、處理、修剪和評估的數據類型,以便深入了解如何改善您的日常生活。 數據科學將幫助您確定每個變量(數據點)的綜合影響。


數據還是“大數據”?
我們在簡單的早晨例行示例中分析了七個標準。 結果獲得的知識可以使您的一天變得更好。

但是,如果您正在尋找更多東西怎麼辦? 如果您有一個足夠複雜的模型來解釋每個重要參數(而不是只有七個)怎麼辦?

您將不再只是處理數據; 你會處理大數據。
根據維基百科 ,大數據定義如下:
“大數據”是指海量或複雜的數據集合,以至於典型的數據處理程序不足以處理它們。 分析、捕獲、數據管理、搜索、共享、存儲、傳輸、可視化、查詢和信息隱私都是挑戰。 這個詞通常暗示使用預測分析或其他高級方法從數據中提取價值,而不是特定的數據集大小。”
換句話說,大數據就是處理大型數據集並從中提取見解。 傳統方法不適用於這些數據集,因為它們太大了。 您需要使用適當設計的程序來收集、分析、存儲和處理數據。
一般來說,數據集越大,結果越好——只要數據集的質量可以接受。
例如,在電子商務業務中,網站會收集大量數據,包括引薦網站、在網站上花費的時間、跳出率、登錄頁面和訪問者流量。 他們逐個人跟踪這些信息,這意味著在幾年的時間裡,他們將能夠編譯標準方法無法處理的大數據集。 那時他們意識到他們正在使用“大數據”。
因此,在我們早上的例行程序示例中,您可能擁有一個非常大的數據集,其中包含更多要處理和評估的參數。 您可能已經從您所在城市的數万甚至數百萬人那裡收集了信息。 您可能已經在一段時間內收集了這些信息,並記錄了許多其他方面,例如天氣、一天中的時間、交通更新、推文、家庭收入等,您可以在研究中使用這些信息。
另一種透視數據集大小的方法是考慮標準大小的數據集可能與日報一樣厚。
您需要 50 個裝滿電話簿的倉庫才能打印出“大數據”數據集。
在處理如此大量的數據時,傳統的工具和程序是不夠的:需要專門為此目的創建的專用軟件。
分析這個
在你收集了關於你早上的所有這些信息之後,你需要調查和研究它以得出你的結論; 這被稱為數據分析。 您可以從我們的示例中推斷,週一晚上觀看“Saas bhi kabhi bahun thi”會導致您在周二早上晚些時候醒來。 或者,週六而不是周日洗衣服可以讓你在周二多熨一件襯衫。
但是,如果您想搜索大量數據集以尋找更全面、更複雜的模式怎麼辦? 然後,您將從事數據分析。

應用一系列程序(算法)或轉換來從處理過的數據集中獲得洞察力被稱為數據分析。
您將在我們的早晨例行示例中檢查特定細節的複雜相互作用。 例如,如果您將每日溫度與汽車使用率進行比較,您可能會發現溫度對汽車使用率有相當大的影響。 通過進一步調查,您將了解到這個簡單的模型僅在夏季有效。 在雨季,人們用車最多。 有了這些信息,您可以看到第二天的降雨量預計會高於平均水平,這意味著交通會更加繁忙。
那就是數據分析在行動。 在工作中,數據分析用於決定比平時更早離開,因為流量會更高。
結論
分析、大數據和數據科學等行業流行語經常被錯誤地互換使用。 數據分析是為您收集的數據增加價值的基本操作之一,而數據科學是您將操作的領域。 當您處理無法使用典型工具和方法處理的大量數據時,您正在處理大數據。
您如何看待我們的定義? 和你的一樣嗎? “日常生活”的例子有用嗎? 你有什麼想分享的個人例子嗎? 請在評論區分享你的想法。