口述者行在(張金銀),奇點云CEO,阿里巴巴第一個數據倉庫的創(chuàng)建者,阿里巴巴第一個消費者數據平臺TCIF的創(chuàng)建者,阿里云數據智能平臺數加的創(chuàng)始人,2004年以數據技術專家身份加入阿里巴巴以來,12年來一直投身于大數據事業(yè)。2016年離開阿里巴巴,創(chuàng)立奇點云,旨在用「AI驅動的數據中臺」賦能線下,讓商業(yè)更智能。
(奇點云CEO-行在)
2009年,阿里云開啟了中國的云時代。
十年市場教育,中國的公有云市場也已經從無到有,邁過了300億元大關,預計到2021年更是能達到900億元的規(guī)模。
「數據中臺」已經從一個技術詞匯,慢慢轉變成為企業(yè)界的共識:如果想要在信息商業(yè)中擁有一席之地,就必須要借助云計算和數據的力量,完成企業(yè)的數字化轉型。
只是,數據到底在轉型中扮演什么樣的角色,要如何利用好數據,數據上云后如何支持業(yè)務,企業(yè)需要哪些核心能力?這些問題,對于大多數的非技術業(yè)者而言,仍然是知其然不知其所以然。
一般而言,「數據上云」更多強調的是數據的存儲和計算,而要讓數據能夠賦能業(yè)務,則更需要「數據中臺」來進行數據處理,進而支持業(yè)務決策和優(yōu)化運營。
這是「數據中臺」和「數據上云」最大的不同。
數據中臺最終要幫助企業(yè)降本增效
作為數據業(yè)務領域的先行者,阿里云總裁張建鋒,在最新的演講中,把數據智能作為數據處理的核心能力:
今天處理數據絕大部分都不是單純靠算力,算力是基礎,而主要是靠上面的智能化的算法,算法跟各行各業(yè)的業(yè)務有密切相關,所以阿里巴巴通過與各行各業(yè)合作,沉淀了一個完整的智能化平臺。我們認為在基礎設施的云化、核心技術的互聯網化以及在之上疊加大數據+智能化的平臺和能力,完整地組成了阿里云智能的整體能力框架。這是我們核心的能力。
這里面?zhèn)鬟_出了幾個核心信息:
1.云計算為數據智能提供了基礎算力;
2.行業(yè)(經驗轉化而來的)算法是智能處理數據的主要工具;
3.數據+智能的平臺和能力,前提是基礎設施的云化和核心技術的互聯網化;
這是阿里云所認為的數據處理的能力框架,而在目前的市場上,我們通常把這種能力框架稱為「數據中臺」。
輿論往往會更強調技術的作用,強調技術對業(yè)務的推動作用,但事實上,在商業(yè)領域,更多的時候,技術發(fā)展都是跟著業(yè)務走,技術的發(fā)展常常來自于業(yè)務需求和業(yè)務場景的倒逼。
例如,隨著越來越多的企業(yè)把業(yè)務流程上云,日益增長的數據存儲和仍然稀缺的數據應用就成為了企業(yè)的主要矛盾之一,而且,這種矛盾不是一天就能夠解決,需要從業(yè)務、技術、組織幾個不同的領域一起來探尋數據的解決方案。
簡單來說,「數據中臺」就是這一系列解決方案的基礎設施。
數據中臺不是一套軟件系統,也不是一個標準化產品,站在企業(yè)的角度上,數據中臺更多地指向企業(yè)的業(yè)務目標,也即幫助企業(yè)沉淀業(yè)務能力,提升業(yè)務效率,最終完成數字化轉型。直白點說,中臺只講技術,不講業(yè)務,都是大忽悠。
這么多年來,互聯網的發(fā)展都建立在更低成本、更高效率的連接之上,線下也一定會復制線上的發(fā)展邏輯,用更多連接帶來更多的數據。
比如,通過攝像頭,我們就可以低成本建立顧客的Face ID檔案,從而豐富人和店鋪的關系數據,店鋪進而可以根據數據分析結果,給顧客提供更有針對性的服務項目。
更多連接,更低成本,更高效率——所有跟流通相關的線下生意,數據中臺的意義就在于降本增效,別無其他。
數據中臺發(fā)展經歷了四個階段
在數據史上,2015年是一個重要的關口:2015年全年產生的數據量等于歷史上所有人類產生數據的總和,這是數據從乘數型增長全面轉向了指數型增長的方向標,海量數據處理成為全人類的挑戰(zhàn);
同一時間,阿里巴巴向外發(fā)布了DT時代的提法,用Data Technology(DT,數據技術)替代了Information Technology(IT,信息科技),強調數據技術將成為未來商業(yè)的驅動力。
一個標志性的事件是:阿里巴巴用幾百人的運營團隊支撐了幾萬億的GMV,其中60%-70%來源于數據支持的機器決策,機器智能賦能業(yè)務,用更低的成本,更高的效率去服務顧客,提供千人干面的個性化體驗。
未來學家認為,機器智能最終會超越人的智慧,而這兩者的臨界點就被稱為「奇點」。從這點來說,我們可以認為,阿里巴巴已經跨越了奇點,真正成為一家數據公司。
下面我們從數據的角度來梳理下這個過程。
阿里巴巴的數據處理經歷了四個階段,分別是:
一、數據庫階段,主要是OLTP(聯機事務處理)的需求;
二、數據倉庫階段,OLAP(聯機分析處理)成為主要需求;
三、數據平臺階段,主要解決BI和報表需求的技術問題;
四、數據中臺階段,通過系統來對接OLTP(事務處理)和OLAP(報表分析)的需求,強調數據業(yè)務化的能力。
(數據中臺演進的四個階段)
第一個階段是數據庫階段。
淘寶還只是一個簡單的網站,淘寶的整個結構就是前端的一些頁面,加上后端的DB(DataBase,數據庫),只是個簡單的OLTP系統,主要就是交易的事務處理。
這個階段,互聯網黃頁才剛剛出現,數據來源大部分還是傳統商業(yè)的ERP/CRM的結構化數據,數據量并不大,也就是GB的級別。簡單的DB就能滿足需求。
這里要說明的是,OLTP的交易場景和OLAP的分析場景區(qū)別在于,前者強調高并發(fā)、單條數據簡單提取和展示(增刪改查),后者對并發(fā)的要求不高,但是需要打通不同的數據庫,比如ERP、CRM、行為數據等等,并且能夠進行批量的數據處理,也就是通常說的低并發(fā),大批量(批處理)、面向分析(query+計算,用于制作報表)。
隨著淘寶用戶超過100萬,分析需求的比重就越來越大。淘寶需要知道它的交易來自于哪些地區(qū),來自于哪些人,誰在買淘寶的東西等等,于是,就進入了數據處理的第二個階段。
第二個階段是數據倉庫階段。
正如前文所述,OLTP和OLAP對數據存儲和計算的需求非常不一樣,前者處理的是結構化的交易數據,而OLAP對應的是互聯網數據,而互聯網里面數據量最大的是網頁日志,90%以上的數據都是點擊(log)什么的非結構化的數據,而且數據量已經達到了TB的級別。
針對分析需求,就誕生了數據倉庫(DW,DataWarehouse),我2004年加入阿里,用Oracle RAC搭建了阿里巴巴第一個DW,解決大量數據的存儲和計算需求,也就是去把非結構化的數據轉化成結構化數據,存儲下來。
這個階段,DW支持的主要就是BI和報表需求。
順帶提一下,數據庫(DB)這時也在從傳統DB轉向分布式DB。主要原因是以前交易穩(wěn)定,并發(fā)可控,傳統DB能滿足需求,但是后來隨著交易量的增長,并發(fā)越來越不可控,對分布式DB的需求也就出來了。
隨著數據量越來越大,從TB進入了PB級別,原來的技術架構越來越不能支持海量數據處理,這時候就進入了第三個階段。
第三個階段是數據平臺階段,這個階段解決的還是BI和報表需求,但是主要是在解決底層的技術問題,也就是數據庫架構設計的問題。
這在數據庫技術領域被概括為「Shared Everything、Shared Nothing、或Shared Disk」,說的就是數據庫架構設計本身的不同技術思路之爭。
Shared Everything一般是針對單個主機,完全透明共享CPU/MEMORY/IO,并行處理能力是最差的,典型的代表SQLServer。
Shared Disk的代表是Oracle RAC,用戶訪問RAC就像訪問一個數據庫,但是這背后是一個集群,RAC來保證這個集群的數據一致性。
問題在于,Oracle RAC是基于IOE架構的,所有數據用同一個EMC存儲。在海量數據處理上,IOE架構有天然的限制,不適合未來的發(fā)展。阿里巴巴的第一個數據倉庫就是建立在Oracle RAC上,由于數據量增長太快,所以很快就到達20個節(jié)點,當時是全亞洲最大的Oracle RAC集群,但阿里巴巴早年算過一筆賬,如果仍然沿用IOE架構,那么幾年后,阿里的預計營收還遠遠趕不上服務器的支出費用,就是說,如果不去IOE,阿里會破產。
Shared Nothing的代表就是Hadoop。Hadoop的各個處理單元都有自己私有的存儲單元和處理單元,
各處理單元之間通過協議通信,并行處理和擴展能力更好。中間有一個分布式調度系統,會把表從物理存儲上水平分割,分配給多臺服務器。
Hadoop的好處是要增加數據處理的能力和容量,只需要增加服務器就好,成本不高,在海量數據處理和大規(guī)模并行處理上有很大優(yōu)勢。
綜上,用一個關鍵詞來概括第三階段就是「去IOE」,建立Shared Nothing的海量數據處理平臺來解決數據存儲成本增長過快的問題。在阿里巴巴,前期是Hadoop,后期轉向自研的ODPS。
第四階段是數據中臺階段。
這個階段的特征是數據量的指數級增長,從PB邁向了EB級別,未來會到什么量級,我也說不清楚。
主要是因為,2015年之后,IOT(物聯網)發(fā)展起來,帶動了視圖聲(視頻、圖像、聲音)數據的增長,未來90%的數據可能都來自于視圖聲的非結構化數據,這些數據需要視覺計算技術、圖像解析的引擎+視頻解析的引擎+音頻解析的引擎來轉換成結構化數據。5G技術的發(fā)展,可能會進一步放大視圖聲數據的重要性。
線下要想和線上一樣,通過數據來改善業(yè)務,就要和線上一樣能做到行為可監(jiān)測,數據可收集,這是前提。線下最大量的就是視圖聲數據,而這些數據靠人來手工收集,肯定是不靠譜的,依靠IOT技術和算法的進步,最終會通過智能端來自動化獲取數據。
要使用這些數據,光有視覺算法和智能端也不行,要有云來存儲和處理這些數據,以及打通其他領域的數據。
另一方面,從業(yè)務來看,數據也好,數據分析也好,最終都是要為業(yè)務服務的。也就是說,要在系統層面能把OLAP和OLTP去做對接,這個對接不能靠人來完成,要靠智能算法。
目前的數據中臺,最底下的數據平臺還是偏技術的,是中臺技術方案的其中一個組件,主要解決數據存儲和計算的問題;在上面就是一層數據服務層,數據服務層通過服務化API能夠把數據平臺和前臺的業(yè)務層對接;數據中臺里面就沒有人的事情,直接系統去做對接,通過智能算法,能把前臺的分析需求和交易需求去做對接,最終賦能業(yè)務。
綜合上述兩個方面,我認為未來要做好數據中臺,只做云或者只做端都不靠譜,需要把兩者合起來做。智能端負責數據的收集,云負責數據的存儲、計算、賦能。端能夠豐富云,云能夠賦能端。
未來的數據中臺,一定是「AI驅動的數據中臺」,這個中臺包括「計算平臺+算法模型+智能硬件」,不僅要在端上具備視覺數據的收集和分析能力,而且還要能通過Face ID,幫助企業(yè)去打通業(yè)務數據,最終建立線上線下觸達和服務消費者的能力。
真正做到「一切業(yè)務數據化,一切數據業(yè)務化」。
數據中臺需要具備三大能力
那么,數據中臺是怎么來賦能業(yè)務使用數據的呢?這里舉一個TCIF的例子。
現在大家可能都認識到了統一消費者數據的必要性,但是在幾年前,哪怕是在阿里巴巴,消費者的信息也分散在各個業(yè)務中,碎片化、散點化,而業(yè)務當時需要把這些分散的人的數據集中起來,進行人群畫像。道理很明白,人群畫像越清晰,服務就會越精準。
怎么統一消費者數據?
首先,定義埋點規(guī)范,同一個人就用同一個標識,ID打通,也就是所謂的One ID;
其次,還會碰上一家人使用一個登錄帳號的問題,那么就需要建立同人的數據模型,通過一些方式,比如,IP網段是不是一樣,來分辨出具體的那個人,建立AID(Alibaba ID);
再次,每個人還有各種網絡行為,要如何把這些行為結構化,裝到各種框架里面?這個特別難,我們當時主要是跟人類學家合作,一起把行為的分類樹做出來。這個分類樹非常細,甚至能夠把一個人的發(fā)質都結構化了。
最后,就需要通過算法模型,把所有的標簽都貼回到人上面,當時TCIF用上述方式生產出了3000多個消費者標簽。
這些標簽被阿里巴巴的其他產品所使用,比如阿里媽媽的達摩盤就把這些標簽提供給廣告主,讓廣告主能夠通過標簽去建立人群畫像,進行人群細分,以及建立投放用的人群包。
從TCIF的例子來看,數據中臺未來一定需要具備三種能力。
第一是數據模型能力。
在業(yè)務層面,業(yè)務抽象能夠解決80%的共性問題,開放的系統架構來解決20%的個性問題,但同時又要把平臺上的業(yè)務邏輯分開,因為不同的業(yè)務邏輯之間可能有沖突。
這在數據中臺就表現為數據的中心化,也就是數據的高內聚、低耦合,需要對共性問題抽象出業(yè)務的規(guī)則,建立數據模型,一個好的內聚模塊能夠解決一個事情,同時又要降低模塊和模塊之間的耦合度,讓模塊具有良好的可讀性和可維護性。
這里的前提是要有真正懂業(yè)務能沉淀經驗的人,以及要在企業(yè)層面開展數據治理,讓數據能夠準確、適度共享、安全地被使用。
第二是AI算法模型能力。
要實現數據業(yè)務化,前提是做到數據的資產化。要能夠從數據原油里面,去提煉出可以使用的汽油。
比如說數據的標簽化,背后就有投入產出比的考量:通過標簽,廣告主可以非常方便快捷地去建立自己的人群包,實現精準營銷,同時投放的ROI也是可見的、透明的,廣告主可以自己去評估數據資產的使用情況。
第三是行業(yè)的應用能力,也就是我們通常說的數據業(yè)務化能力。
和數據中心化類似,數據業(yè)務化也需要很強的行業(yè)經驗來指導,建立合適的業(yè)務場景,在場景里面去使用數據,從而體現數據的價值,來大大擴展數據在行業(yè)中的應用能力。
在奇點云和某酒類客戶的合作過程中,我們最大的收獲不是幫助客戶完成了數據中臺的搭建,而是通過理解客戶的業(yè)務,把其經驗沉淀到數據中臺,從而賦能客戶更多的端上的創(chuàng)新業(yè)務,帶來了生意的增量。
最后總結一下,未來的數據中臺最重要的不單是數據的存儲和計算能力,而是要能從「存、通、用」的角度和業(yè)務結合,幫助企業(yè)從數據中獲取價值,沉淀數據資產,最終用數據賺錢。
搜索更多: