萬(wàn)物皆為數(shù)
隨著大數(shù)據(jù)落地的不斷深入,越來(lái)越多的企業(yè)意識(shí)到數(shù)據(jù)的價(jià)值。然而眾人統(tǒng)一的認(rèn)知,或者是大部分商業(yè)智能從業(yè)者的認(rèn)知,都局限在結(jié)構(gòu)化數(shù)據(jù)的邏輯。也就是說(shuō)他們認(rèn)為所有的數(shù)據(jù)最終都是可以存儲(chǔ)到數(shù)據(jù)庫(kù)的,或者說(shuō)都是經(jīng)過(guò)采集,清洗,整合后的高質(zhì)量數(shù)據(jù)。
事實(shí)上目前數(shù)據(jù)的定義已經(jīng)完全超越了數(shù)據(jù)庫(kù)的存儲(chǔ)邏輯,不管是關(guān)系型還是最新的NoSQL或者Graph database,目前存儲(chǔ)在數(shù)據(jù)庫(kù)之外的數(shù)據(jù)量是遠(yuǎn)遠(yuǎn)超過(guò)存儲(chǔ)在數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)。
在商業(yè)智能分析中,數(shù)據(jù)源有網(wǎng)頁(yè),pdf,圖片,音頻,視頻等等都具有很重要的價(jià)值。比如在新零售的場(chǎng)景下,我們對(duì)于線下商品展示和商品包裝等相關(guān)數(shù)據(jù)的分析需求日益增加。 商品的銷(xiāo)量與他擺放的位置,以及商品包裝的顏色等有何相關(guān)性?如何分析?我們是需要提前將所有相關(guān)的信息都采集下來(lái)然后清洗并結(jié)構(gòu)化存儲(chǔ)以備分析嗎?
采集和存儲(chǔ)是必須的,但是靠傳統(tǒng)商業(yè)智能清洗和結(jié)構(gòu)化那些數(shù)據(jù),還是比較困難。隨著技術(shù)的發(fā)展,我們可以通過(guò)成熟的相關(guān)分析工具加自定義腳本的方式來(lái)靈活分析上面提到的問(wèn)題,甚至對(duì)基于圖片中色彩模式,物體相似度等的檢索和分析都有第三方支持。
話說(shuō)回來(lái),新時(shí)代的商業(yè)智能,對(duì)于萬(wàn)物皆為數(shù)該如何理解呢?數(shù)據(jù)已經(jīng)不是傳統(tǒng)的數(shù)字或者數(shù)據(jù)庫(kù)的邏輯,數(shù)據(jù)已經(jīng)是所有物品必須添加的一個(gè)新維度或者屬性。 同時(shí)商業(yè)智能分析要突破傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)的思路,在商業(yè)邏輯之下提出各種開(kāi)腦洞的數(shù)據(jù)需求和分析需求。
數(shù)據(jù)架構(gòu)之供應(yīng)鏈思維
商業(yè)智能中數(shù)據(jù)架構(gòu)至關(guān)重要,它是所有商業(yè)分析的基礎(chǔ)。所謂數(shù)據(jù)架構(gòu)就是如何存儲(chǔ)和管理你的數(shù)據(jù),在哪里存儲(chǔ),以及為什么要使用這種管理邏輯。 人們通常會(huì)直接把這個(gè)問(wèn)題局限在傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)建模(關(guān)系和數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì))上,但是數(shù)據(jù)架構(gòu)的核心任務(wù)是設(shè)計(jì)一套數(shù)據(jù)的供應(yīng)鏈邏輯,讓數(shù)據(jù)在整個(gè)生產(chǎn)、采集整合、分發(fā),消費(fèi)等環(huán)節(jié)具備高效的邏輯,這往往不止是一個(gè)數(shù)據(jù)建模的問(wèn)題。
并且數(shù)據(jù)架構(gòu)也需要解決不同商業(yè)場(chǎng)景下對(duì)數(shù)據(jù)分析、數(shù)據(jù)科學(xué)相關(guān)數(shù)據(jù)處理的支持設(shè)計(jì)。所以數(shù)據(jù)架構(gòu)更重要的是梳理和設(shè)計(jì)出來(lái)一套完整的邏輯,在這個(gè)抽象層面之下才是具體的存儲(chǔ)和管理,有了目標(biāo)之后就更容易做出好的數(shù)據(jù)架構(gòu)。
說(shuō)到商業(yè)智能數(shù)據(jù)架構(gòu)不得不說(shuō)一下傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)。本質(zhì)上數(shù)據(jù)倉(cāng)庫(kù)解決的是數(shù)據(jù)湖的問(wèn)題,將不同地方的數(shù)據(jù)整合在一起并實(shí)現(xiàn)關(guān)聯(lián)是數(shù)據(jù)分析的基礎(chǔ)。一般數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的周期都會(huì)比較長(zhǎng),短則半年數(shù)月,長(zhǎng)則幾年。這個(gè)也容易理解,數(shù)據(jù)倉(cāng)庫(kù)搭建過(guò)程中對(duì)于數(shù)據(jù)的打通,清洗,關(guān)聯(lián),建模等都不是一項(xiàng)短時(shí)間能完成的任務(wù),這個(gè)與數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的整體目標(biāo)有關(guān)。如果希望搭建一套完整的滿足各種業(yè)務(wù)分析需求的,還依賴于現(xiàn)有業(yè)務(wù)邏輯和數(shù)據(jù)生產(chǎn)的復(fù)雜系統(tǒng)。
現(xiàn)實(shí)情況是不同的數(shù)據(jù)源甚至是數(shù)據(jù)維度或者片段對(duì)于商業(yè)分析的價(jià)值是不一樣的。而在這個(gè)過(guò)程中,對(duì)于不同數(shù)據(jù)預(yù)判的缺失導(dǎo)致在整個(gè)ETL中的投入過(guò)大。后來(lái)有了hadoop之后,大家還是一個(gè)數(shù)據(jù)中心的思路,什么數(shù)據(jù)都往hadoop里面寫(xiě),后續(xù)要用再來(lái)找。這樣也會(huì)出現(xiàn)一些問(wèn)題,比如在數(shù)據(jù)流的場(chǎng)景下,你會(huì)發(fā)現(xiàn)很多流式數(shù)據(jù)很難持續(xù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,因?yàn)閿?shù)據(jù)采集和數(shù)據(jù)查詢本身就是兩種不同的場(chǎng)景和階段。
整體來(lái)說(shuō)數(shù)據(jù)架構(gòu)的設(shè)計(jì)包含四個(gè)不同的維度,數(shù)據(jù)的生產(chǎn),采集整合,分發(fā),和消費(fèi)。梳理清楚他們之間的邏輯,以實(shí)現(xiàn)通暢的數(shù)據(jù)供應(yīng)鏈的目標(biāo)。 其中任何一部分都可以靈活支持各種方式,例如數(shù)據(jù)的分發(fā),類(lèi)比線下零售體系,我們會(huì)有不同的分發(fā)體系來(lái)支持不同的渠道,比如中心倉(cāng)和地方倉(cāng),電商倉(cāng)和渠道倉(cāng)等邏輯。所以新時(shí)代的數(shù)據(jù)架構(gòu)可以是一個(gè)多條線并行的架構(gòu),不一定是一個(gè)完全中心化的數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)邏輯。
商業(yè)智能和數(shù)據(jù)科學(xué)
傳統(tǒng)商業(yè)智能的核心目標(biāo)是數(shù)據(jù)的復(fù)用性,通過(guò)星型結(jié)構(gòu)和范式模型的抽象來(lái)支持各種數(shù)據(jù)的存儲(chǔ)、查詢和報(bào)表業(yè)務(wù)。本質(zhì)上商業(yè)智能解決了數(shù)據(jù)訪問(wèn)和一部分?jǐn)?shù)據(jù)探索的目的,然而他們能支持的問(wèn)題變化不大所以對(duì)應(yīng)的報(bào)表設(shè)計(jì)相對(duì)固定。但是在數(shù)據(jù)科學(xué)中很難有這種不變的數(shù)據(jù)結(jié)構(gòu)或者計(jì)算模型來(lái)支持各種不同的算法,即使是算法本身也在不斷地演進(jìn)的過(guò)程中。
在商業(yè)智能系統(tǒng)的設(shè)計(jì)過(guò)程中通過(guò)基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)來(lái)描述所有的事物,然而并不關(guān)心背后的業(yè)務(wù)邏輯,往往是通過(guò)通用的描述模型來(lái)實(shí)現(xiàn)的。比如我們并不知道某商品的銷(xiāo)售總額到底代表什么意義,但是針對(duì)這個(gè)度量我們支持求和、平均等等一系列的操作。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)主要是基于需求背后的統(tǒng)一計(jì)算模型和邏輯而抽象出來(lái)的。
數(shù)據(jù)科學(xué)相關(guān)的分析問(wèn)題卻很難用統(tǒng)一的抽象結(jié)構(gòu)和計(jì)算模型來(lái)描述。簡(jiǎn)單來(lái)說(shuō)你需要做更多的統(tǒng)計(jì)學(xué)計(jì)算,比如一些相關(guān)系數(shù)的計(jì)算,從向量到矩陣的基本運(yùn)算等。不止是這些計(jì)算的復(fù)雜度和資源消耗發(fā)生了巨大變化,同時(shí)不同的算法背后能被抽象出來(lái)的標(biāo)準(zhǔn)計(jì)算模型也非常有限。這也就是為什么曾經(jīng)有大量的數(shù)據(jù)科學(xué)家做特征工程的工作,也就是基于不同的算法和對(duì)業(yè)務(wù)的理解來(lái)做特征抽取的工作,然后基于特征抽取來(lái)做各種算法的對(duì)比試驗(yàn)。特征工程本質(zhì)就是從抽象的存儲(chǔ)到抽象的計(jì)算模型的一個(gè)過(guò)渡。
從本質(zhì)上來(lái)說(shuō)數(shù)據(jù)科學(xué)的數(shù)據(jù)架構(gòu)和傳統(tǒng)商業(yè)智能的架構(gòu)設(shè)計(jì)的邏輯可以類(lèi)似。隨著數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能的發(fā)展,很多方法和框架已經(jīng)非常成熟,所以現(xiàn)在企業(yè)在選擇商業(yè)智能和數(shù)據(jù)科學(xué)的時(shí)候還有一條中間的道路就是:將數(shù)據(jù)倉(cāng)庫(kù)(商業(yè)智能)作為數(shù)據(jù)科學(xué)的一個(gè)數(shù)據(jù)可訪問(wèn)性的中間件,然后再基于商業(yè)智能和數(shù)據(jù)科學(xué)來(lái)設(shè)計(jì)出不同的數(shù)據(jù)存儲(chǔ)抽象和數(shù)據(jù)模型抽象來(lái)支持各自的數(shù)據(jù)架構(gòu)。
關(guān)于作者:
趙乾坤 壹看板創(chuàng)始人兼CEO
趙乾坤博士,數(shù)據(jù)挖掘?qū)<?,先后畢業(yè)于華中科技大學(xué)、新加坡南洋理工大學(xué),并于美國(guó)賓夕法尼亞大學(xué)完成搜索引擎相關(guān)的博士后研究。其相關(guān)的研究和應(yīng)用在國(guó)際知名學(xué)術(shù)會(huì)議(WWW,KDD,AAAI,CIKM 等)上發(fā)表了 20 余篇論文和講座,2 項(xiàng)國(guó)際的專(zhuān)利技術(shù)。曾任好耶廣告北京首席架構(gòu)師、西班牙電信大數(shù)據(jù)科學(xué)家、AOLChina 發(fā)起人,后創(chuàng)立脈博網(wǎng)與37degree。有深厚的數(shù)據(jù)挖掘技術(shù)背景和十余年的互聯(lián)網(wǎng)行業(yè)經(jīng)驗(yàn),是大數(shù)據(jù)在傳統(tǒng)企業(yè)和互聯(lián)網(wǎng)廣告應(yīng)用設(shè)計(jì)師和實(shí)踐者。