如何建立自適應資料管道以實現面向未來的分析

urrifat77 · Post by **urrifat77** » Tue Dec 03, 2024 8:26 am

本文是我們社群的寶貴貢獻，並已由 DataCamp 進行編輯以確保清晰和準確。

有興趣分享自己的專業知識嗎？我們很樂意聽取您的意見！請隨時透過我們的社群貢獻表提交您的文章或想法。

當今許多組織依賴數據來做出決策。數據通常以不同的形式和形式從不同的來源記錄和收集。大多數情況下，這些資料在自己的孤島中儲存和轉換，並用於回答該資料中的特定問題。隨著組織轉向數據驅動的方法，數據團隊遇到了這個看似簡單的問題：我們能否在一個集中的地方評估公司所有客戶的績效？（或者我們可以在一個地方看到所有數據點嗎？）

在本教程中，您將學習如何利用您可能已經知道的技術並將它們分層以建立有助於回答此問題的解決方案。

關鍵考慮因素
在這裡，我們概述了我們將在本文其餘部分中探討的一些關鍵概念。

資料湖
一個龐大的集中式儲存庫，可儲存任何規模的結構化、半結構化和非結構化資料。它提供了靈活且經濟高效的解決方案，用於儲存來自不同來源的大量不同類型的數據。

與傳統的資料儲存系統不同，資料湖芬蘭電話號碼列表不需要預先資料建模或嚴格的模式實施，允許按原樣儲存資料。這些原始和未處理的數據可以根據需要進行處理、分析和轉換，使其成為數據驅動決策和高級分析的寶貴資源。

您可以在單獨的文章中比較資料湖和資料倉儲。

資料倉儲
資料倉儲是儲存和管理結構化資料的大型集中式儲存庫。它旨在支援商業智慧、報告和數據分析活動。資料倉儲整合來自多個資料庫、應用程式和系統的數據，將其轉換為統一、一致的格式，以便有效率地查詢和分析。

微服務
微服務是一種軟體開發的架構和組織方法，其中軟體由透過明確定義的 API 進行通訊的小型獨立服務組成。這些服務由小型、獨立的團隊擁有。微服務架構使應用程式更容易擴展並更快地開發，從而實現創新並加快新功能的上市時間。

建構自適應資料管道
該方法包括資料收集、儲存、處理、建立暫存視圖和大規模生成分析的步驟。

作者提供的圖片

第 1 步：資料收集和先決條件
在這個初始階段，在投入手邊的任務之前解決重要的先決條件至關重要。徹底檢查資料的來源和存儲，以全面了解其來源。

制定有效的策略，使收集到的數據有用並可供分析。資料整理在確保資料採用乾淨、可用的格式、為進一步處理做好準備方面發揮關鍵作用。此外，當務之急是找到一種解決方案，無縫整合來自不同客戶端的資料點，同時維護資料的完整性和安全性。

DataCamp 的指南《什麼是資料分析》更詳細地探討了這個過程。

步驟 2：資料湖和資料倉儲
從各個客戶端收集資料並整合到 S3 儲存桶（Amazon Simple Storage Service (Amazon S3) 中的儲存位置）中，形成一個資料湖，以原始形式保存各種資訊。下一步涉及利用擷取、轉換、載入(ETL) 流程將收集的資料轉換為無縫融入資料倉儲的結構化資料集。因此，資料倉儲成為一個精心組織模式和結構化資料的儲存庫。然而，每個客戶端的資料仍然是獨立的，駐留在資料倉儲內各自的孤島中。

作者提供的圖片

第 3 步：暫存視圖（此操作的核心）
暫存視圖是透過利用資料倉儲中的架構、表格和列之間的關係來建構的。這會產生一個簡化的業務視圖，隱藏複雜性並確保對分析維度和事實的一致理解。所有企業用戶都可以存取集中管理的準確數據，從而對各個維度的效能提供有價值的見解。

這種方法的核心在於建立暫存視圖的技術流程。這些視圖包含報表和分析所需的計算和屬性，使整個生態系統可擴展。任何新的邏輯或變更都在這些暫存視圖上實現。

為了促進有效的故障排除，每個客戶和每個效能指標都會建立階段視圖，從而可以有效地找出和解決問題。這種方法與使用單一大規模預存程序形成對比，後者會使問題識別變得耗時且具有挑戰性。

透過細分和聚合技術，透過分析交易數據並巧妙地組合它們來產生高級/聚合績效指標。每個分段視圖都嵌入了計算邏輯和維度，以提供所需的輸出值。對每個用戶端重複此流程，從而為每個用戶端的每個效能指標提供單獨的暫存視圖，同時保持敏感資訊的安全性。

步驟 4：資料建模
在流程的步驟 3 中，我們將所有資料合併到一個主視圖中。此主視圖可作為透過應用基於特定客戶端相關屬性的篩選器來建立特定於客戶端的視圖的基礎。將所有客戶端維度屬性集中在一個地方可簡化視圖建立過程。

此外，主視圖可以儲存多年的數據，但可以輕鬆限制為僅包含幾個月的數據，以滿足每個客戶的特定要求。這種靈活性使我們能夠為客戶提供所需的精確數據，從而提高分析的相關性和效率。

所使用的資料模型是星型模式模型（用於組織資料的多維資料模型）。該模型有效地將資料分解為兩個關鍵部分：事實表和維度表。

事實表的數值資料透過主鍵無縫連結到維度表，建立易於理解的關係。此設定可協助使用者透過基於各種維度過濾和聚合資料來執行快速、直接的查詢。資料分析變得輕而易舉，因為使用者可以探索特定的資料點，而無需處理多個資料表之間的複雜聯結。

星型模式優異的非規範化結構確保維度表是獨立的，從而實現閃電般的查詢效能。資料庫引擎可以輕鬆檢索數據，無需進行大量處理，即使是最複雜的分析查詢也可以縮短回應時間。

簡而言之，星型模式是一個強大的盟友，使數據分析變得簡單而有效率。將資料組織成事實表和維度表可以加速查詢、簡化探索並為明智的決策開闢一個洞察世界。

作者提供的圖片

效率和靈活性
這種方法的真正優點在於其卓越的效率和無與倫比的靈活性。這就是利用微服務概念的地方。

當需要更改時，無論是重新計算還是解決資料問題，我們只需更新暫存腳本中效能指標的邏輯。此外，此流程還將故障排除和修改轉變為無縫且快速的任務，從而大大減少任何潛在的停機時間。

要真正掌握這種方法的威力，請設想一個場景，其中特定客戶的績效指標顯示不匹配的數據點。在傳統的故障排除方法中，我們必須經歷一個漫長的過程來追蹤根本原因，涉及重新計算、程式碼運行和資料驗證等多個步驟。

透過目前的方法，可以實現無與倫比的效率並簡化故障排除流程。

現在，我們可以迅速找出導致任何差異的精確效能指標，徹底檢查其邏輯，並及時驗證關聯的計算表。因此，識別錯誤的根源變得毫不費力，並以極快的速度應用必要的修復。由於這種方法，故障排除時間大大減少，因為我們更專注於及時解決問題，而不是陷入冗長乏味的步驟。