logo
Loading...

第七章 大數據職能 - Cupoy

在企業中推動大數據專案,企圖成為數據導向企業時,就是一種數位轉型,大數據管理與大數據導向的組織至關重要。大數據組織的設計是需要由用戶主導,並從一開始就參與企業的各個層面。必須擁有一些真正瞭解大數據價值的擁護者,並且可以幫助開發場景和制定大數據戰略。 大數據卓越中心(BDCoE)是一項企業職能部門,它將組織從零知識轉變為擁有大數據技術和流程的全功能實踐,以提供強大的業務成果。大數據卓越中心是組織識別新技術、學習新技能並開發適當流程的地方,隨後部署在整個組織的其他業務部門。 大數據卓越中心由五個主要支柱組成,它們共同構成了從集中功能中獲取價值的結構。 大數據團隊 ( BIG DATA TEAMS ) 這是重要的因素:大數據分析師、大數據科學家和大數據工程師的品質,對於通過大數據創造成功至關重要。最後,大數據是知識領域,知識將來自人。大數據專業人員需要是具有數據處理的認證和經驗豐富的從業人員。 大數據實驗室 ( BIG DATA LABS ) 大數據實驗室提到大數據卓越中心的工作環境。數據 “科學” 與實驗室之間的明顯聯繫是有目的的,因為環境應該是一個創造性的空間來實驗和運行測試數據與數據分析,以達到預期的效果。 精心設計的大數據實驗室包含開放式工作空間,允許通信和協作以及孤立的工作可能性,數據分析師可以在不分心的情況下 “咀嚼數字”。大數據實驗室的第二個重要要求是讓其電腦硬體與大數據處理可以兼容。通常,大數據實驗室所要求的硬體,必須要具有比通常大得多的記憶體,才足夠進行數據處理。 大數據概念驗證 ( BIG DATA PROOF-OF-CONCEPTS ) 概念驗證(POC)是可以提供給內部業務部門和外部客戶的展示解決方案。POC應顯示出明確的投資回報,並清楚地展示大數據卓越中心在實現結果方面的能力。 敏捷方法論 ( AGILE METHODOLOGY )  敏捷性以及快速失敗或實現快速結果的能力對於發揮大數據的潛力至關重要。 通常在兩到三周的衝刺中,敏捷工作方法提供了快速、透明地產生結果的工具。快速失敗的能力是一個關鍵的大數據機會 - 提供價值的商業和技術路線圖需要比傳統的瀑布式環境 ( waterfall environment ) 更頻繁地需要改變。(  瀑布式環境通常是指按部就班的一種環境,一步步地走下去,因為不會經常的回頭審查,所以被形容成像瀑布一般,水流下而不會回頭。 ) 收費模式 ( CHARGING MODELS ) 大數據卓越中心的核心是收費模式,以證明中心的人員、流程和技術(有時是大型)的投資報酬。為了顯示價值,需要設計一種明確的方法來向其他業務部門或外部客戶收取所提供服務的費用。可以基於數量或用戶、處理的數據、報告的頻率或基於訂閱來設計計費模型。 一個健全而明確的收費模式可以顯示出大數據卓越中心對企業的價值。 大數據團隊的角色和職責 大數據分析師 ( BIG DATA ANALYST ) 大數據分析師的職責是從大數據集中獲取、處理和匯總資訊,以發現業務價值。與數據科學家不同,大數據分析師更多的是通才,通常必須瞭解R、Python、HTML、SQL、C ++和JavaScript。他們需要更熟悉數據檢索和儲存系統、數據可視化和使用ETL工具的數據倉庫,基於Hadoop的分析和商業智能概念。通常在數學、統計學、機器學習和編程方面擁有強大的背景。 大數據分析師參與數據處理和數據可視化。如果有來自利益相關者的數據洞察請求,數據分析師必須查詢資料庫。他們負責處理數據,確保品質並進行管理。他們必須解釋數據並有效地傳達相關資訊。 大數據科學家 ( BIG DATA SCIENTIST ) 大數據科學家是一個涉及演算法和統計模型的開發和部署的角色,以預測基於大數據集提供商業價值的未來結果。近年來,數據科學家的角色越來越受歡迎,並且對這個工作角色有著巨大的需求。 大數據科學家的工作角色是一個高級角色,需要深入理解演算法和數據處理操作。具有此角色的人員有望成為R、SAS、Python、SQL、MatLab、Hive,Pig和Spark的專家。數據科學家通常在統計學和數學等量化科目中擁有較高學位,並且在大數據技術和分析工具方面具有很高的實力。 數據科學家的角色不僅僅是數據處理。他們可以理解業務挑戰,為數據創建一些有價值,並且可操作的見解,以及將他們的發現傳達給業務。此外,數據科學家的角色需要創造性思維和解決問題的技能,這些技能是設計、開發和部署可從大數據中檢索價值的演算法所必需的。 大數據工程師 ( BIG DATA ENGINEER ) 大數據工程師負責設計、構建和管理從大數據集中獲取價值所需的底層資訊基礎架構。數據工程師確保企業的大數據生態系統順利運行。大數據工程師是電腦工程師,他們必須瞭解Pig、Hadoop、MapReduce、Hive、MySQL、Cassandra、MongoDB、NoSQL、SQL、數據流和程式的編寫等。數據工程師必須熟練掌握R、Python、Ruby、C ++、Perl、Java、SAS、SPSS和Matlab。其他必備技能包括ETL工具、數據API、數據建模和數據倉庫解決方案的知識。 大數據工程師通常也被稱為 “大數據架構師”。由於兩個工作角色本質上非常相似(例如,管理大數據基礎架構),因此本手冊使用的術語是大數據工程師。 其他大數據角色 ( OTHER BIG DATA ROLES ) 由於大數據領域正在快速增長,因此存在更多大數據角色。例子包括機器學習工程師、MIS報告執行官 ( 負責產生各種報告 ),大數據解決方案專家等。這些角色中的大多數需要特定大數據平台或工具的專業知識。然而,操作任何大數據卓越中心最重要的角色可以通過上面討論的三個角色來概括。 大數據的組織成功因素 (1) 建立如何創造價值的願景:第一個里程碑是清楚地瞭解您的組織正在嘗試使用大數據實現的目標。如果沒有關於組織想要使用該數據完成什麼樣的行動計劃的清晰視圖,那麼您的組織每天捕獲數TB的數據的這一件事是毫無意義的。 (2) 要想成功實現大數據,從小處著手:構建大數據功能需要時間。對大數據團隊的一次性大額投資不會立即產生結果。因此,建議採取可控增長的小起點。首先,定義一些相對簡單的大數據專案,這些專案不會花費太多時間或數據來運行。例如,在線零售商可能首先確定每個客戶查看的產品,以便公司可以在他們不購買時發送後續報價 ( follow-up offer )。像這樣的一些直觀例子,允許組織查看數據可以執行的操作。更重要的是,這種方法產生的結果很容易測試,以查看大數據提供的返回類型。 (3) 從一開始就建立大數據流程:從一開始就明確誰負責什麼。設計有效的數據治理和數據管理流程,指定誰負責數據定義、創建、驗證、管理和驗證 - 業務、IT或大數據卓越中心。 4) 建立一個大數據卓越中心:集中的大數據卓越中心提供了一個統一點,其中結合了大數據實踐和技術的專業知識。大數據卓越中心可與業務部門合作,確定哪些專案應優先考慮、哪些數據具有戰略重要性。因此,它作為業務的戰略合作對手,將當前和實際業務需求轉換為可實施與可操作的大數據專案。 5) 評估您對大數據的準備情況:為了確定可能出現的潛在差距和風險,請進行大數據準備評估。這是對您的IT環境和內部技能的準備情況,所作的評估,以實施大數據專案的組織,並授權現有團隊的成員作為整個組織的公民數據科學家 ( citizen data scientists ),以便將大數據的強大功能用於驅動你的企業前進。

在企業中推動大數據專案,企圖成為數據導向企業時,就是一種數位轉型,大數據管理與大數據導向的組織至關重要。大數據組織的設計是需要由用戶主導,並從一開始就參與企業的各個層面。必須擁有一些真正瞭解大數據價值的擁護者,並且可以幫助開發場景和制定大數據戰略。 大數據卓越中心(BDCoE)是一項企業職能部門,它將組織從零知識轉變為擁有大數據技術和流程的全功能實踐,以提供強大的業務成果。大數據卓越中心是組織識別新技術、學習新技能並開發適當流程的地方,隨後部署在整個組織的其他業務部門。 大數據卓越中心由五個主要支柱組成,它們共同構成了從集中功能中獲取價值的結構。 大數據團隊 ( BIG DATA TEAMS ) 這是重要的因素:大數據分析師、大數據科學家和大數據工程師的品質,對於通過大數據創造成功至關重要。最後,大數據是知識領域,知識將來自人。大數據專業人員需要是具有數據處理的認證和經驗豐富的從業人員。 大數據實驗室 ( BIG DATA LABS ) 大數據實驗室提到大數據卓越中心的工作環境。數據 “科學” 與實驗室之間的明顯聯繫是有目的的,因為環境應該是一個創造性的空間來實驗和運行測試數據與數據分析,以達到預期的效果。 精心設計的大數據實驗室包含開放式工作空間,允許通信和協作以及孤立的工作可能性,數據分析師可以在不分心的情況下 “咀嚼數字”。大數據實驗室的第二個重要要求是讓其電腦硬體與大數據處理可以兼容。通常,大數據實驗室所要求的硬體,必須要具有比通常大得多的記憶體,才足夠進行數據處理。 大數據概念驗證 ( BIG DATA PROOF-OF-CONCEPTS ) 概念驗證(POC)是可以提供給內部業務部門和外部客戶的展示解決方案。POC應顯示出明確的投資回報,並清楚地展示大數據卓越中心在實現結果方面的能力。 敏捷方法論 ( AGILE METHODOLOGY )  敏捷性以及快速失敗或實現快速結果的能力對於發揮大數據的潛力至關重要。 通常在兩到三周的衝刺中,敏捷工作方法提供了快速、透明地產生結果的工具。快速失敗的能力是一個關鍵的大數據機會 - 提供價值的商業和技術路線圖需要比傳統的瀑布式環境 ( waterfall environment ) 更頻繁地需要改變。(  瀑布式環境通常是指按部就班的一種環境,一步步地走下去,因為不會經常的回頭審查,所以被形容成像瀑布一般,水流下而不會回頭。 ) 收費模式 ( CHARGING MODELS ) 大數據卓越中心的核心是收費模式,以證明中心的人員、流程和技術(有時是大型)的投資報酬。為了顯示價值,需要設計一種明確的方法來向其他業務部門或外部客戶收取所提供服務的費用。可以基於數量或用戶、處理的數據、報告的頻率或基於訂閱來設計計費模型。 一個健全而明確的收費模式可以顯示出大數據卓越中心對企業的價值。 大數據團隊的角色和職責 大數據分析師 ( BIG DATA ANALYST ) 大數據分析師的職責是從大數據集中獲取、處理和匯總資訊,以發現業務價值。與數據科學家不同,大數據分析師更多的是通才,通常必須瞭解R、Python、HTML、SQL、C ++和JavaScript。他們需要更熟悉數據檢索和儲存系統、數據可視化和使用ETL工具的數據倉庫,基於Hadoop的分析和商業智能概念。通常在數學、統計學、機器學習和編程方面擁有強大的背景。 大數據分析師參與數據處理和數據可視化。如果有來自利益相關者的數據洞察請求,數據分析師必須查詢資料庫。他們負責處理數據,確保品質並進行管理。他們必須解釋數據並有效地傳達相關資訊。 大數據科學家 ( BIG DATA SCIENTIST ) 大數據科學家是一個涉及演算法和統計模型的開發和部署的角色,以預測基於大數據集提供商業價值的未來結果。近年來,數據科學家的角色越來越受歡迎,並且對這個工作角色有著巨大的需求。 大數據科學家的工作角色是一個高級角色,需要深入理解演算法和數據處理操作。具有此角色的人員有望成為R、SAS、Python、SQL、MatLab、Hive,Pig和Spark的專家。數據科學家通常在統計學和數學等量化科目中擁有較高學位,並且在大數據技術和分析工具方面具有很高的實力。 數據科學家的角色不僅僅是數據處理。他們可以理解業務挑戰,為數據創建一些有價值,並且可操作的見解,以及將他們的發現傳達給業務。此外,數據科學家的角色需要創造性思維和解決問題的技能,這些技能是設計、開發和部署可從大數據中檢索價值的演算法所必需的。 大數據工程師 ( BIG DATA ENGINEER ) 大數據工程師負責設計、構建和管理從大數據集中獲取價值所需的底層資訊基礎架構。數據工程師確保企業的大數據生態系統順利運行。大數據工程師是電腦工程師,他們必須瞭解Pig、Hadoop、MapReduce、Hive、MySQL、Cassandra、MongoDB、NoSQL、SQL、數據流和程式的編寫等。數據工程師必須熟練掌握R、Python、Ruby、C ++、Perl、Java、SAS、SPSS和Matlab。其他必備技能包括ETL工具、數據API、數據建模和數據倉庫解決方案的知識。 大數據工程師通常也被稱為 “大數據架構師”。由於兩個工作角色本質上非常相似(例如,管理大數據基礎架構),因此本手冊使用的術語是大數據工程師。 其他大數據角色 ( OTHER BIG DATA ROLES ) 由於大數據領域正在快速增長,因此存在更多大數據角色。例子包括機器學習工程師、MIS報告執行官 ( 負責產生各種報告 ),大數據解決方案專家等。這些角色中的大多數需要特定大數據平台或工具的專業知識。然而,操作任何大數據卓越中心最重要的角色可以通過上面討論的三個角色來概括。 大數據的組織成功因素 (1) 建立如何創造價值的願景:第一個里程碑是清楚地瞭解您的組織正在嘗試使用大數據實現的目標。如果沒有關於組織想要使用該數據完成什麼樣的行動計劃的清晰視圖,那麼您的組織每天捕獲數TB的數據的這一件事是毫無意義的。 (2) 要想成功實現大數據,從小處著手:構建大數據功能需要時間。對大數據團隊的一次性大額投資不會立即產生結果。因此,建議採取可控增長的小起點。首先,定義一些相對簡單的大數據專案,這些專案不會花費太多時間或數據來運行。例如,在線零售商可能首先確定每個客戶查看的產品,以便公司可以在他們不購買時發送後續報價 ( follow-up offer )。像這樣的一些直觀例子,允許組織查看數據可以執行的操作。更重要的是,這種方法產生的結果很容易測試,以查看大數據提供的返回類型。 (3) 從一開始就建立大數據流程:從一開始就明確誰負責什麼。設計有效的數據治理和數據管理流程,指定誰負責數據定義、創建、驗證、管理和驗證 - 業務、IT或大數據卓越中心。 4) 建立一個大數據卓越中心:集中的大數據卓越中心提供了一個統一點,其中結合了大數據實踐和技術的專業知識。大數據卓越中心可與業務部門合作,確定哪些專案應優先考慮、哪些數據具有戰略重要性。因此,它作為業務的戰略合作對手,將當前和實際業務需求轉換為可實施與可操作的大數據專案。 5) 評估您對大數據的準備情況:為了確定可能出現的潛在差距和風險,請進行大數據準備評估。這是對您的IT環境和內部技能的準備情況,所作的評估,以實施大數據專案的組織,並授權現有團隊的成員作為整個組織的公民數據科學家 ( citizen data scientists ),以便將大數據的強大功能用於驅動你的企業前進。