logo
Loading...

第六章 大數據流程 - Cupoy

大數據專案的執行,可以為企業帶來價值,帶來了結構、可衡量的步驟、並且可以在日常的基礎上進行有效管理。此外,流程通過遵循類似的程序和步驟,將大數據專業知識嵌入組織中,將其作為組織的 “實踐” 嵌入。分析這件事情,變得越來越不依賴於個人,因此大大增加了長期獲取價值的機會。 大數據流程可以細分為三個主要子流程: 數據分析流程 - Data analysis process(控制); 數據治理流程 - Data governance process(合規); 數據管理流程 - Data management process(品質)。 數據分析流程  第1步 - 確定業務目標 ( DETERMINE THE BUSINESS OBJECTIVE ) 數據分析流程的第一步必須在有數據之前發生 - 需要確定大數據專案的目標和業務目標。因為這世界上的數據集之絕對數量是很龐大的,可能會很快失去焦點。因此,第一步對於確定專案的範圍至關重要。 在大數據專案中,業務目標(以及它的潛在問題)通常可以細分為六種類型的問題。每一種類型都有自己的方式來處理問題的結果和最終結果需要解釋的方式: 1) 描述型的業務目標 ( Descriptive business objective ) 2) 探索型的業務目標 ( Exploratory business objective ) 3) 推理型的業務目標 ( Inferential business objective ) 4) 預測型的業務目標 ( Predictive business objective ) 5) 因果型的業務目標 ( Causal business objective ) 6) 機理型的業務目標 ( Mechanistic business objective ) 第2步 - 數據識別 ( DATA IDENTIFICATION ) 數據分析過程的第二步是確定需要處理哪些數據集。通常,這是最重要和最困難的步驟之一。 如何確定分析問題所需的數據集並提供業務目標的答案?大多數數據分析從識別原始數據開始。原始數據是尚未處理的數據,直接來自源頭。 為了識別滿足業務目標的必要數據,可以繪製數據標識圖,其從處理的數據向原始(源)數據反向工作。 第3步 - 數據收集和來源 ( DATA COLLECTION AND SOURCING ) 在確定哪些數據是實現業務成果所需之後,下一步是確保獲得數據以進行處理。雖然這聽起來是一個相對簡單的步驟,但在實踐中它往往是一個不同的步驟。 第4步 - 數據審查 ( DATA REVIEW )  在所需數據集可用之後,將啟動數據審查步驟。數據審查是探索數據集的過程,通常包括檢查各種數據集的結構和變量。在此過程中,確定數據集是否已經損壞,是否存在缺失值或是否存在多個(互相衝突)相同變量的集合。例如,可能是來自兩個不同財務系統的特定區域的銷售數據具有不同值的情況。 第5步 - 數據清理 ( DATA CLEANSING ) 數據清理是一個過程,它主要去修改或刪除資料庫中不正確、不完整、格式不正確或重複的數據。數據清理可以通過數據清理工具以互動交互式的方式執行,也可以通過腳本 ( Script ) 進行批量處理。清理後,數據集應與系統中的其他類似數據集保持一致,隨時可用於數據處理。 第6步 - 模型構建 ( MODEL BUILDING ) 數據分析過程的下一步是生成統計模型,該模型可用於將結果發現給業務目標。模型構建是定義和改進可應用於(清理的)數據集的統計模型的迭代過程。 可以將數學公式或稱為演算法的模型應用於數據以識別變量之間的關係,例如相關性或因果關係。一般而言,可以開發模型以基於數據中的其他變量來評估數據中的特定變量,其中一些殘餘誤差取決於模型精度(即,數據=模型+誤差, Data = Model + Error )。 第7步 - 數據處理 ( DATA PROCESSING ) 數據處理步驟專用於執行實際分析任務,其通常涉及運行一個或多個(統計)演算法。這個步驟可以是迭代的,特別是如果數據分析是探索性的,那麼重複分析直到發現適當的模式或相關性。 根據所需的過程類型,數據處理步驟可以很簡單,就像查詢數據集的平均值、眾數或中位數一樣簡單。另一方面,它可以像組合多個複雜演算法般的一樣複雜,比方說進行人臉識別、DNA排序或金融市場預測的演算法。數據處理階段的持續時間因要求而異。如第4章所述,大多數大數據解決方案將使用某種形式的分散式處理(最常見的是Hadoop軟體框架)來減少必要的處理時間。 第8步 - 傳達結果 ( COMMUNICATING THE RESULTS ) 大數據分析過程以傳達最終結果而告終。雖然這是任何分析專案,在邏輯上的最後一步,但其重要性不容低估。明確溝通對於合理的數據分析至關重要。 數據治理流程 數據治理流程是企業遵循的一個定義流程,以確保它們在整個生命週期中控制其數據。由於 “大數據” 是一項戰略資產,大多數組織需要建立控制措施。數據治理流程可確保在整個企業中正式管理重要數據資產,並且可以信任數據以進行決策。通常,數據治理中使用的流程包括對數據品質導致的任何不利事件的責任。 數據治理流程與數據管理流程之間存在密切關係,數據治理流程在戰略級別設置策略和職責的情況下,數據管理流程在操作級別上執行和監控這些策略。 數據管理流程 數據管理流程是一個單獨的流程,可以保證日常操作級別的數據品質,主要目標是確保數據品質。通過分析大數據可以獲得的價值,在很大程度上取決於輸入數據的品質。即使使用最複雜的大數據解決方案,一般的 “Garbage-In-Garbage-Out” 規則仍然適用。如果數據集損壞或錯誤,數據分析可能會導致無效結果或結論。 數據管理流程是一個實際和可操作的流程(符合數據治理流程的戰略指示),每天監控數據品質。 該流程包括以下活動: 指定指標和績效指標 ( SPECIFY METRICS AND PERFORMANCE INDICATORS ) 數據改進和驗證 ( DATA IMPROVEMENT AND VALIDATION ) 溝通和教育數據管理 ( COMMUNICATE AND EDUCATE ON DATA MANAGEMENT )

大數據專案的執行,可以為企業帶來價值,帶來了結構、可衡量的步驟、並且可以在日常的基礎上進行有效管理。此外,流程通過遵循類似的程序和步驟,將大數據專業知識嵌入組織中,將其作為組織的 “實踐” 嵌入。分析這件事情,變得越來越不依賴於個人,因此大大增加了長期獲取價值的機會。 大數據流程可以細分為三個主要子流程: 數據分析流程 - Data analysis process(控制); 數據治理流程 - Data governance process(合規); 數據管理流程 - Data management process(品質)。 數據分析流程  第1步 - 確定業務目標 ( DETERMINE THE BUSINESS OBJECTIVE ) 數據分析流程的第一步必須在有數據之前發生 - 需要確定大數據專案的目標和業務目標。因為這世界上的數據集之絕對數量是很龐大的,可能會很快失去焦點。因此,第一步對於確定專案的範圍至關重要。 在大數據專案中,業務目標(以及它的潛在問題)通常可以細分為六種類型的問題。每一種類型都有自己的方式來處理問題的結果和最終結果需要解釋的方式: 1) 描述型的業務目標 ( Descriptive business objective ) 2) 探索型的業務目標 ( Exploratory business objective ) 3) 推理型的業務目標 ( Inferential business objective ) 4) 預測型的業務目標 ( Predictive business objective ) 5) 因果型的業務目標 ( Causal business objective ) 6) 機理型的業務目標 ( Mechanistic business objective ) 第2步 - 數據識別 ( DATA IDENTIFICATION ) 數據分析過程的第二步是確定需要處理哪些數據集。通常,這是最重要和最困難的步驟之一。 如何確定分析問題所需的數據集並提供業務目標的答案?大多數數據分析從識別原始數據開始。原始數據是尚未處理的數據,直接來自源頭。 為了識別滿足業務目標的必要數據,可以繪製數據標識圖,其從處理的數據向原始(源)數據反向工作。 第3步 - 數據收集和來源 ( DATA COLLECTION AND SOURCING ) 在確定哪些數據是實現業務成果所需之後,下一步是確保獲得數據以進行處理。雖然這聽起來是一個相對簡單的步驟,但在實踐中它往往是一個不同的步驟。 第4步 - 數據審查 ( DATA REVIEW )  在所需數據集可用之後,將啟動數據審查步驟。數據審查是探索數據集的過程,通常包括檢查各種數據集的結構和變量。在此過程中,確定數據集是否已經損壞,是否存在缺失值或是否存在多個(互相衝突)相同變量的集合。例如,可能是來自兩個不同財務系統的特定區域的銷售數據具有不同值的情況。 第5步 - 數據清理 ( DATA CLEANSING ) 數據清理是一個過程,它主要去修改或刪除資料庫中不正確、不完整、格式不正確或重複的數據。數據清理可以通過數據清理工具以互動交互式的方式執行,也可以通過腳本 ( Script ) 進行批量處理。清理後,數據集應與系統中的其他類似數據集保持一致,隨時可用於數據處理。 第6步 - 模型構建 ( MODEL BUILDING ) 數據分析過程的下一步是生成統計模型,該模型可用於將結果發現給業務目標。模型構建是定義和改進可應用於(清理的)數據集的統計模型的迭代過程。 可以將數學公式或稱為演算法的模型應用於數據以識別變量之間的關係,例如相關性或因果關係。一般而言,可以開發模型以基於數據中的其他變量來評估數據中的特定變量,其中一些殘餘誤差取決於模型精度(即,數據=模型+誤差, Data = Model + Error )。 第7步 - 數據處理 ( DATA PROCESSING ) 數據處理步驟專用於執行實際分析任務,其通常涉及運行一個或多個(統計)演算法。這個步驟可以是迭代的,特別是如果數據分析是探索性的,那麼重複分析直到發現適當的模式或相關性。 根據所需的過程類型,數據處理步驟可以很簡單,就像查詢數據集的平均值、眾數或中位數一樣簡單。另一方面,它可以像組合多個複雜演算法般的一樣複雜,比方說進行人臉識別、DNA排序或金融市場預測的演算法。數據處理階段的持續時間因要求而異。如第4章所述,大多數大數據解決方案將使用某種形式的分散式處理(最常見的是Hadoop軟體框架)來減少必要的處理時間。 第8步 - 傳達結果 ( COMMUNICATING THE RESULTS ) 大數據分析過程以傳達最終結果而告終。雖然這是任何分析專案,在邏輯上的最後一步,但其重要性不容低估。明確溝通對於合理的數據分析至關重要。 數據治理流程 數據治理流程是企業遵循的一個定義流程,以確保它們在整個生命週期中控制其數據。由於 “大數據” 是一項戰略資產,大多數組織需要建立控制措施。數據治理流程可確保在整個企業中正式管理重要數據資產,並且可以信任數據以進行決策。通常,數據治理中使用的流程包括對數據品質導致的任何不利事件的責任。 數據治理流程與數據管理流程之間存在密切關係,數據治理流程在戰略級別設置策略和職責的情況下,數據管理流程在操作級別上執行和監控這些策略。 數據管理流程 數據管理流程是一個單獨的流程,可以保證日常操作級別的數據品質,主要目標是確保數據品質。通過分析大數據可以獲得的價值,在很大程度上取決於輸入數據的品質。即使使用最複雜的大數據解決方案,一般的 “Garbage-In-Garbage-Out” 規則仍然適用。如果數據集損壞或錯誤,數據分析可能會導致無效結果或結論。 數據管理流程是一個實際和可操作的流程(符合數據治理流程的戰略指示),每天監控數據品質。 該流程包括以下活動: 指定指標和績效指標 ( SPECIFY METRICS AND PERFORMANCE INDICATORS ) 數據改進和驗證 ( DATA IMPROVEMENT AND VALIDATION ) 溝通和教育數據管理 ( COMMUNICATE AND EDUCATE ON DATA MANAGEMENT )