logo
Loading...

第一章 大數據的介紹 - Cupoy

大數據在過去幾年中迅速發展的主要原因是它提供了長期的企業價值,企業可以利用以下五種方式從大數據中獲取價值: 1) 創造透明度 ( Creating transparency ):使用數據來確定未來的決策,會使組織變得更加透明,並打破不同部門之間的壁壘。大數據跨越不同的邊界進行分析,可以識別各種不同的效率。例如,在制造型的企業中,大數據可以幫助確定研發、工程和生產部門的改進機會,從而更快地將新產品推向市場。 2) 數據驅動的發現 (Data driven discovery ):隨著企業以數位形式創建和儲存越來越多的交易數據,因此,可以獲得更多的執行結果的數據。大數據可以利用發現數據集中的模式或趨勢,提供可能尚未確定的新見解。例如,在保險行業,大數據可以幫助確定有利可圖的產品,並提供更好的計算保費的方法。 3) 分段和定制 (Segmentation and customization):大數據分析的結果,提供了一個改進的機會,可以定制某個產品的市場對特定客戶群的影響,從而增加收入。有關客戶行為的數據,可以構建相應的客戶配置文件,因此就更有針對性。例如,在線零售商可以在其網站上定制產品,以匹配當前客戶的需求,因此提高其轉換率。( 譯注:轉換率提高的意思在於網站流量提高,也同時帶動下單的數量 ) 4) 自動化的力量 (The power of automation):分析大數據集的基礎演算法,可用於通過自動化決策取代手動決策和勞動密集型計算。自動化可以優化企業流程並提高準確性或響應時間。例如,零售商可以利用大數據演算法做出購買決策或確定多少庫存,這將會提供最佳回報率。 5) 創新和新產品 (Innovation and new products):大數據可以發現識別新產品需求或增加當前產品或服務設計的模式。通過分析採購數據或搜索量,組織可以識別出自身可能都還不知道的產品需求。例如,大學院校可能會研究他們的網站流量和搜索量,用來預測班級的註冊,並相應地分配教學資源。 一般我們常談的大數據可以分為兩種,第一種是指數據本身,數據很多很多樣而且變化很快。第二種與技術有關,是指一個知識領域,它探索技巧、技能和技術 ( techniques, skills and technology ),從大量數據中推斷出有價值的見解。 大數據本身的特徵通常被稱為四個V: 1)量體 ( Volume ) - 數據量是指需要分析和處理的數據集的大小,現在通常大於 “太字節”和 “千兆字節” ( terabytes and petabytes )。與傳統的儲存和處理能力相比,大量的數據需要獨特和不同的處理技術。換句話說,這意味著大數據中的數據量太大,無法使用常規筆記型電腦或桌上型電腦進行處理。大量數據集的一個例子就是歐洲境內一天的所有信用卡的交易數據。 2)速度 ( Velocity ) - 速度是指數據產生的速度。以這樣極高的速度產生的數據,使得它需要獨特的(分布式、分散式)處理技術。以高速度產生數據的例子就是Twitter消息或Facebook發文,無論何時何地,隨時都有人不斷地發文與按讚。 3)多樣性 ( Variety ) - 多樣性使大數據真的很大。大數據源自各種各樣的來源,通常是三種類型中的一種:結構化、半結構化和非結構化 ( structured, semi structured and unstructured )(如下一節所述)。數據類型的多樣性經常需要不同的處理能力和專業演算法。多樣性數據集的一個例子是在城市的不同位置監控錄影所產生的CCTV聲音和錄影檔案。 4)可信度 ( Veracity ) – 可信度是指正在分析數據的品質。高可信度的數據具有許多對分析有價值的記錄,並且以有意義的方式為整體結果做出貢獻。另一方面,低可信度數據包含高百分比的無意義數據。這些數據的無價值被稱為雜音 ( noise )。高可信度數據集的案例:比方說是來自醫學實驗或試驗的數據。( 譯註:Veracity 也有人翻譯為準確性,也就是說數據的高準確性也代表數據的高品質,也就代表這些數據的高可信度。) 在商業和科學領域,大多數組織都將數據區分成為四種不同的識別模式: 1) 數據分析 ( Data analysis ) 2) 解析 ( Analytics ) 3) 商業智能(Business Intelligence) 4) 大數據 ( Big Data ) 1) 數據分析 ( Data analysis ) 數據分析是一個檢查、清理、轉換和建模數據 ( inspecting, cleansing, transforming, and modeling data ) 的過程,目的是發現有用的資訊,提出結論並支持決策。數據分析在不同的商業、科學和社會科學領域,有多種方面和方法,包括各種名稱下的各種技術。 數據分析 - 從字面意義上說 - 已經存在了幾個世紀(如第1.2節所述)。數據分析的主要目的是審查現有數據,以描述過去發生的模式。因此,它也經常被稱為描述性數據分析 ( descriptive data analysis )。數據分析的一個例子是回顧過去幾年不同商店的銷售模式。                     2) 解析 ( Analytics ) 解析是數據中有意義模式的發現、解釋和交流 ( discovery, interpretation, and communication )。在具有資訊被記錄的場域,解析依賴於統計,電腦程式編寫和運算研究的同步應用,來量化性能。 解析包括越來越多的數據科學能力,這其中包括統計學、數學、機器學習、預測建模、數據挖掘、認知計算和人工智慧等 組織需要考慮使用四種類型的解析:     1) 描述型解析 ( Descriptive analytics ):描述型解析或數據挖掘是大數據價值鏈的底層,但它們對於模式的揭開   ( uncovering patterns ),讓洞察力發現 ( that offer insight ),是非常有價值的。描述型分析的一個簡單例子是審  查過去幾個月訪問該公司網站的人數。描述型解析在銷售周期中非常有用,例如,為了發現季節性趨勢並相應地調  整採購決策。     2) 診斷型解析 ( Diagnostic analytics ):診斷型解析用於發現或確定發生事件的原因。例如,在社交媒體營銷活動中,診斷型解析可用於確定某些廣告轉換率提高的原因。診斷型解析為組織提供了有價值的見解,因為它可以幫助他們理解哪些決策會影響公司的績效。     3) 預測型解析 ( Predictive analytics ):預測型解析使用大數據來識別過去的模式以預測未來。根據現有數據集中的趨勢或模式,預測演算法計算某個事件發生的概率。例如,一些公司正在使用預測型解析來進行銷售線索評分,這表明哪些銷售線索將轉化為實際客戶。經過適當調整的預測型解析可用於支持銷售、營銷或其他類型的複雜預測。     4) 指導型解析 ( 規範解析,Prescriptive analytics ):指導型解析是最後和最有價值的解析級別。雖然大數據的解析總體上闡明了一個主題,然而在此時,指導型解析為您提供了類似雷射的焦點來回答特定問題。例如,在醫療保健行業,您可以通過使用指導性解析來衡量臨床肥胖患者的數量,然後添加糖尿病和低密度脂蛋白膽固醇水平等因素,以確定治療重點,從而更好地管理患者人群。相同的指導性模型也可以應用於幾乎任何行業目標群體或問題。( 譯者注:指導型解析是根據預測分析的結果,總結及建議不同結果的優化行動。尤其在大數據時代,指導型解析有助於瞭解現實情況,把握未來機會,確定最佳結果的條件,優化利益或者降低風險。例如Google地圖,當輸入起點和終點,它會計算出數個路線,並把最好的建議呈現在最上面,作為它給使用者的建議。)   3) 商業智能(Business Intelligence) 商業智能(BI)包括企業用於業務資訊數據分析的策略和技術[2]。商業智能使用數據分析 ( analysis ) 和解析技巧 ( analytics techniques ) 來整合和匯總在企業環境中特別有用的資訊。 商業智能的主要挑戰是將不同的企業資訊系統和數據源整合到一個整合的數據倉庫中,在該倉庫中可以執行分析或解析 ( analysis or analytics ) 的操作。數據倉庫是組織中的(大型)集中式資料庫,它結合了來自不同來源的各種不同的資料庫。商業智能的一個例子是建構一個管理儀表板 ( dashboard ),可以顯示出企業不同部門的關鍵效能指標 ( KPI ),既使這些部門分佈於全世界各地。 4)大數據 ( BIG DATA ) 大數據利用數據分析 ( analysis ) 和解析技巧 ( analytics techniques ),並經常使用建立在企業數據倉庫中的數據(如BI中所使用的)。因此,它可以被視為商業智能發展的 “下一步”。 大數據環境中分析的數據大於大多數傳統BI解決方案可以處理的數據,因此需要不同的分散式儲存和處理的解決方案。大數據的特點是其數據源的多樣性,包括非結構化或半結構化數據。例如,大數據解決方案需要能夠處理音頻文件與圖像。

大數據在過去幾年中迅速發展的主要原因是它提供了長期的企業價值,企業可以利用以下五種方式從大數據中獲取價值: 1) 創造透明度 ( Creating transparency ):使用數據來確定未來的決策,會使組織變得更加透明,並打破不同部門之間的壁壘。大數據跨越不同的邊界進行分析,可以識別各種不同的效率。例如,在制造型的企業中,大數據可以幫助確定研發、工程和生產部門的改進機會,從而更快地將新產品推向市場。 2) 數據驅動的發現 (Data driven discovery ):隨著企業以數位形式創建和儲存越來越多的交易數據,因此,可以獲得更多的執行結果的數據。大數據可以利用發現數據集中的模式或趨勢,提供可能尚未確定的新見解。例如,在保險行業,大數據可以幫助確定有利可圖的產品,並提供更好的計算保費的方法。 3) 分段和定制 (Segmentation and customization):大數據分析的結果,提供了一個改進的機會,可以定制某個產品的市場對特定客戶群的影響,從而增加收入。有關客戶行為的數據,可以構建相應的客戶配置文件,因此就更有針對性。例如,在線零售商可以在其網站上定制產品,以匹配當前客戶的需求,因此提高其轉換率。( 譯注:轉換率提高的意思在於網站流量提高,也同時帶動下單的數量 ) 4) 自動化的力量 (The power of automation):分析大數據集的基礎演算法,可用於通過自動化決策取代手動決策和勞動密集型計算。自動化可以優化企業流程並提高準確性或響應時間。例如,零售商可以利用大數據演算法做出購買決策或確定多少庫存,這將會提供最佳回報率。 5) 創新和新產品 (Innovation and new products):大數據可以發現識別新產品需求或增加當前產品或服務設計的模式。通過分析採購數據或搜索量,組織可以識別出自身可能都還不知道的產品需求。例如,大學院校可能會研究他們的網站流量和搜索量,用來預測班級的註冊,並相應地分配教學資源。 一般我們常談的大數據可以分為兩種,第一種是指數據本身,數據很多很多樣而且變化很快。第二種與技術有關,是指一個知識領域,它探索技巧、技能和技術 ( techniques, skills and technology ),從大量數據中推斷出有價值的見解。 大數據本身的特徵通常被稱為四個V: 1)量體 ( Volume ) - 數據量是指需要分析和處理的數據集的大小,現在通常大於 “太字節”和 “千兆字節” ( terabytes and petabytes )。與傳統的儲存和處理能力相比,大量的數據需要獨特和不同的處理技術。換句話說,這意味著大數據中的數據量太大,無法使用常規筆記型電腦或桌上型電腦進行處理。大量數據集的一個例子就是歐洲境內一天的所有信用卡的交易數據。 2)速度 ( Velocity ) - 速度是指數據產生的速度。以這樣極高的速度產生的數據,使得它需要獨特的(分布式、分散式)處理技術。以高速度產生數據的例子就是Twitter消息或Facebook發文,無論何時何地,隨時都有人不斷地發文與按讚。 3)多樣性 ( Variety ) - 多樣性使大數據真的很大。大數據源自各種各樣的來源,通常是三種類型中的一種:結構化、半結構化和非結構化 ( structured, semi structured and unstructured )(如下一節所述)。數據類型的多樣性經常需要不同的處理能力和專業演算法。多樣性數據集的一個例子是在城市的不同位置監控錄影所產生的CCTV聲音和錄影檔案。 4)可信度 ( Veracity ) – 可信度是指正在分析數據的品質。高可信度的數據具有許多對分析有價值的記錄,並且以有意義的方式為整體結果做出貢獻。另一方面,低可信度數據包含高百分比的無意義數據。這些數據的無價值被稱為雜音 ( noise )。高可信度數據集的案例:比方說是來自醫學實驗或試驗的數據。( 譯註:Veracity 也有人翻譯為準確性,也就是說數據的高準確性也代表數據的高品質,也就代表這些數據的高可信度。) 在商業和科學領域,大多數組織都將數據區分成為四種不同的識別模式: 1) 數據分析 ( Data analysis ) 2) 解析 ( Analytics ) 3) 商業智能(Business Intelligence) 4) 大數據 ( Big Data ) 1) 數據分析 ( Data analysis ) 數據分析是一個檢查、清理、轉換和建模數據 ( inspecting, cleansing, transforming, and modeling data ) 的過程,目的是發現有用的資訊,提出結論並支持決策。數據分析在不同的商業、科學和社會科學領域,有多種方面和方法,包括各種名稱下的各種技術。 數據分析 - 從字面意義上說 - 已經存在了幾個世紀(如第1.2節所述)。數據分析的主要目的是審查現有數據,以描述過去發生的模式。因此,它也經常被稱為描述性數據分析 ( descriptive data analysis )。數據分析的一個例子是回顧過去幾年不同商店的銷售模式。                     2) 解析 ( Analytics ) 解析是數據中有意義模式的發現、解釋和交流 ( discovery, interpretation, and communication )。在具有資訊被記錄的場域,解析依賴於統計,電腦程式編寫和運算研究的同步應用,來量化性能。 解析包括越來越多的數據科學能力,這其中包括統計學、數學、機器學習、預測建模、數據挖掘、認知計算和人工智慧等 組織需要考慮使用四種類型的解析:     1) 描述型解析 ( Descriptive analytics ):描述型解析或數據挖掘是大數據價值鏈的底層,但它們對於模式的揭開   ( uncovering patterns ),讓洞察力發現 ( that offer insight ),是非常有價值的。描述型分析的一個簡單例子是審  查過去幾個月訪問該公司網站的人數。描述型解析在銷售周期中非常有用,例如,為了發現季節性趨勢並相應地調  整採購決策。     2) 診斷型解析 ( Diagnostic analytics ):診斷型解析用於發現或確定發生事件的原因。例如,在社交媒體營銷活動中,診斷型解析可用於確定某些廣告轉換率提高的原因。診斷型解析為組織提供了有價值的見解,因為它可以幫助他們理解哪些決策會影響公司的績效。     3) 預測型解析 ( Predictive analytics ):預測型解析使用大數據來識別過去的模式以預測未來。根據現有數據集中的趨勢或模式,預測演算法計算某個事件發生的概率。例如,一些公司正在使用預測型解析來進行銷售線索評分,這表明哪些銷售線索將轉化為實際客戶。經過適當調整的預測型解析可用於支持銷售、營銷或其他類型的複雜預測。     4) 指導型解析 ( 規範解析,Prescriptive analytics ):指導型解析是最後和最有價值的解析級別。雖然大數據的解析總體上闡明了一個主題,然而在此時,指導型解析為您提供了類似雷射的焦點來回答特定問題。例如,在醫療保健行業,您可以通過使用指導性解析來衡量臨床肥胖患者的數量,然後添加糖尿病和低密度脂蛋白膽固醇水平等因素,以確定治療重點,從而更好地管理患者人群。相同的指導性模型也可以應用於幾乎任何行業目標群體或問題。( 譯者注:指導型解析是根據預測分析的結果,總結及建議不同結果的優化行動。尤其在大數據時代,指導型解析有助於瞭解現實情況,把握未來機會,確定最佳結果的條件,優化利益或者降低風險。例如Google地圖,當輸入起點和終點,它會計算出數個路線,並把最好的建議呈現在最上面,作為它給使用者的建議。)   3) 商業智能(Business Intelligence) 商業智能(BI)包括企業用於業務資訊數據分析的策略和技術[2]。商業智能使用數據分析 ( analysis ) 和解析技巧 ( analytics techniques ) 來整合和匯總在企業環境中特別有用的資訊。 商業智能的主要挑戰是將不同的企業資訊系統和數據源整合到一個整合的數據倉庫中,在該倉庫中可以執行分析或解析 ( analysis or analytics ) 的操作。數據倉庫是組織中的(大型)集中式資料庫,它結合了來自不同來源的各種不同的資料庫。商業智能的一個例子是建構一個管理儀表板 ( dashboard ),可以顯示出企業不同部門的關鍵效能指標 ( KPI ),既使這些部門分佈於全世界各地。 4)大數據 ( BIG DATA ) 大數據利用數據分析 ( analysis ) 和解析技巧 ( analytics techniques ),並經常使用建立在企業數據倉庫中的數據(如BI中所使用的)。因此,它可以被視為商業智能發展的 “下一步”。 大數據環境中分析的數據大於大多數傳統BI解決方案可以處理的數據,因此需要不同的分散式儲存和處理的解決方案。大數據的特點是其數據源的多樣性,包括非結構化或半結構化數據。例如,大數據解決方案需要能夠處理音頻文件與圖像。