大數(shù)據(jù)就是任何超過(guò)了一臺(tái)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。–JohnRauser。
大數(shù)據(jù)代表了更多的信息,更多理解信息的角度。
大數(shù)據(jù),又稱(chēng)巨量資料,指的是所涉及的數(shù)據(jù)資料量規(guī)模巨大到無(wú)法通過(guò)人腦甚至主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。
二、大數(shù)據(jù)的分類(lèi)
- 結(jié)構(gòu)化數(shù)據(jù),簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)庫(kù)。也稱(chēng)作行數(shù)據(jù),是由二維表結(jié)構(gòu)來(lái)邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范,主要通過(guò)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理。結(jié)構(gòu)化數(shù)據(jù)標(biāo)記,是一種能讓網(wǎng)站以更好的姿態(tài)展示在搜索結(jié)果當(dāng)中的方式,搜索引擎都支持標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)標(biāo)記。(員工的姓名,年齡等)
- 非結(jié)構(gòu)話數(shù)據(jù),是與結(jié)構(gòu)化數(shù)據(jù)相對(duì)的,不適于由數(shù)據(jù)庫(kù)二維表來(lái)表現(xiàn),包括所有格式的辦公文檔、XML、HTML、各類(lèi)報(bào)表、圖片和咅頻、視頻信息等。支持非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)采用多值字段、了字段和變長(zhǎng)字段機(jī)制進(jìn)行數(shù)據(jù)項(xiàng)的創(chuàng)建和管理,廣泛應(yīng)用于全文檢索和各種多媒體信息處理領(lǐng)域。(員工的聲音,頭像等)
- 半結(jié)構(gòu)化數(shù)據(jù)是一種適于數(shù)據(jù)庫(kù)集成的數(shù)據(jù)模型,也就是說(shuō),適于描述包含在兩個(gè)或多個(gè)數(shù)據(jù)庫(kù)(這些數(shù)據(jù)庫(kù)含有不同模式的相似數(shù)據(jù))中的數(shù)據(jù)。(員工的簡(jiǎn)歷等)
三、大數(shù)據(jù)的特點(diǎn)
1、規(guī)模性(Volume)大數(shù)據(jù)的數(shù)據(jù)量是驚人的,隨著技術(shù)的發(fā)展,數(shù)據(jù)量開(kāi)始爆發(fā)性增長(zhǎng),達(dá)到TB甚至PB級(jí)別。例如,淘寶網(wǎng)平常每天的商品交易數(shù)據(jù)約20TB(1TB=1024GB),全球最大設(shè)計(jì)平臺(tái)Facebook的用戶(hù),每天產(chǎn)生的日志數(shù)據(jù)超過(guò)了300TB(日志數(shù)據(jù)是記錄用戶(hù)操作記錄的,并非發(fā)帖內(nèi)容)。大數(shù)據(jù)如此龐大的數(shù)據(jù)量,是無(wú)法通過(guò)人工處理的。需要智能的算法、強(qiáng)大的數(shù)據(jù)處理平臺(tái)和新的數(shù)據(jù)處理技術(shù)來(lái)處理這些大數(shù)據(jù)。
2、多樣性(Varity) 大數(shù)據(jù)廣泛的數(shù)據(jù)來(lái)源,決定了大數(shù)據(jù)形式的多樣性。大數(shù)據(jù)大體上可以分為三類(lèi),分別是結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)的特點(diǎn)是數(shù)據(jù)間因果關(guān)系強(qiáng),比如息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等;非結(jié)構(gòu)化的數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)間沒(méi)有因果關(guān)系,比如音頻、圖片、視頻等;半結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)間的因果關(guān)系弱。比如網(wǎng)頁(yè)數(shù)據(jù)、郵件記錄等。
3、高速性(Velocity) 大數(shù)據(jù)的交換和傳播是通過(guò)互聯(lián)網(wǎng)、云計(jì)算等方式實(shí)現(xiàn)的,遠(yuǎn)比傳統(tǒng)媒介的信息交換和傳播速度快捷。大數(shù)據(jù)與海量數(shù)據(jù)的重要區(qū)別,除了大數(shù)據(jù)的數(shù)據(jù)規(guī)模更大以外,大數(shù)據(jù)對(duì)處理數(shù)據(jù)的響應(yīng)速度有更嚴(yán)格的要求。實(shí)時(shí)分析而非批量分析,數(shù)據(jù)輸入、處理與丟棄立刻見(jiàn)效,幾乎無(wú)延遲。數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。
4、價(jià)值性(Value) 價(jià)值性是大數(shù)據(jù)的核心特點(diǎn)?,F(xiàn)實(shí)中大量的數(shù)據(jù)是無(wú)效或者低價(jià)值的,大數(shù)據(jù)最大的價(jià)值在于通過(guò)從大量不相關(guān)的各種類(lèi)型的數(shù)據(jù)中,挖掘出對(duì)未來(lái)趨勢(shì)與模式預(yù)測(cè)分析有價(jià)值的數(shù)據(jù)。比如,某寶電商平臺(tái)每天產(chǎn)生的大量交易數(shù)據(jù)(大數(shù)據(jù)),通過(guò)一些算法可以分析出具有某些特征的人喜歡什么類(lèi)型的商品,然后根據(jù)客戶(hù)的特征,給其推薦TA喜歡的商品。
軟件
1.Docker Compose是一個(gè)用來(lái)幫助定義和分享多容器應(yīng)用的工具。有了Compose,就能創(chuàng)建一個(gè)YAML文件來(lái)定義服務(wù),只需要一個(gè)命令,就能夠啟動(dòng)所有東西,也能夠把所有東西銷(xiāo)毀掉。
2.Zeppelin是一個(gè)基于Web的notebook,提供交互數(shù)據(jù)分析和可視化。后臺(tái)支持接入多種數(shù)據(jù)處理引擎,如Spark,Hive等。支持多種語(yǔ)言:Scala(Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。
3.Hadoop是由java語(yǔ)言編寫(xiě)的,在分布式服務(wù)器集群上存儲(chǔ)海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的開(kāi)源框架,其核心部件是HDFS與MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。
4.Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,可以存儲(chǔ)、查詢(xún)和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。
5.Hbase其實(shí)是Hadoop database的簡(jiǎn)稱(chēng),是一種NoSQL數(shù)據(jù)庫(kù),主要適用于海量明細(xì)數(shù)據(jù)(十億、百億)的隨機(jī)實(shí)時(shí)查詢(xún),如日志明細(xì)、交易清單、軌跡行為等。
tips: Hive適合用來(lái)對(duì)一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行分析查詢(xún)。適合用來(lái)進(jìn)行大數(shù)據(jù)的實(shí)時(shí)查詢(xún)。
6.Spark是一種基于內(nèi)存的快速、通用、可擴(kuò)展的大數(shù)據(jù)計(jì)算引擎。它集批處理、實(shí)時(shí)流處理、交互式查詢(xún)、圖計(jì)算與機(jī)器學(xué)習(xí)于一體。
tips: Spark是那么一個(gè)專(zhuān)門(mén)用來(lái)對(duì)那些分布式存儲(chǔ)的大數(shù)據(jù)進(jìn)行處理的工具,它要借助Hadoop HDFS的數(shù)據(jù)存儲(chǔ)。Hadoop的MapReduce是分步對(duì)數(shù)據(jù)進(jìn)行處理的,存取磁盤(pán)的過(guò)程會(huì)影響處理速度。Spark從磁盤(pán)中讀取數(shù)據(jù),把中間數(shù)據(jù)放到內(nèi)存中,完成所有必須的分析處理,將結(jié)果寫(xiě)回集群,所以Spark更快。所以Hadoop + Spack結(jié)合起來(lái)用更好。
7.JupyterLab是一個(gè)集 Jupyter Notebook、文本編輯器、終端以及各種個(gè)性化組件(有VScode內(nèi)味了)于一體的全能IDE。
8.prestoDB是一種開(kāi)源的分布式 SQL 查詢(xún)引擎,從頭開(kāi)始設(shè)計(jì)用于針對(duì)任何規(guī)模的數(shù)據(jù)進(jìn)行快速分析查詢(xún)。它既可支持非關(guān)系數(shù)據(jù)源,例如 Hadoop 分布式文件系統(tǒng) (HDFS)、Amazon S3、Cassandra、MongoDB 和 HBase,又可支持關(guān)系數(shù)據(jù)源,例如 MySQL、PostgreSQL、Amazon Redshift、Microsoft SQL Server 和 Teradata。
9.TensorFlow是一個(gè)端到端開(kāi)源機(jī)器學(xué)習(xí)平臺(tái)。它擁有一個(gè)全面而靈活的生態(tài)系統(tǒng),其中包含各種工具、庫(kù)和社區(qū)資源,可助力研究人員推動(dòng)先進(jìn)機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,并使開(kāi)發(fā)者能夠輕松地構(gòu)建和部署由機(jī)器學(xué)習(xí)提供支持的應(yīng)用。
四、主流的大數(shù)據(jù)架構(gòu)Lambda
Lambda架構(gòu)是其根據(jù)多年進(jìn)行分布式大數(shù)據(jù)系統(tǒng)的經(jīng)驗(yàn)總結(jié)提煉而成,目標(biāo)是設(shè)計(jì)出一個(gè)能滿(mǎn)足實(shí)時(shí)大數(shù)據(jù)系統(tǒng)關(guān)鍵特性的架構(gòu),包括有:高容錯(cuò)、低延時(shí)和可擴(kuò)展等。Lambda架構(gòu)整合離線計(jì)算和實(shí)時(shí)計(jì)算,融合不可變性(Immunability),讀寫(xiě)分離和復(fù)雜性隔離等一系列架構(gòu)原則,可集成Hadoop,Kafka,Storm,Spark,Hbase等各類(lèi)大數(shù)據(jù)組件。
1、Batch View預(yù)運(yùn)算查詢(xún)函數(shù),預(yù)先建立索引,支持隨機(jī)讀取,能很好的解決特別大級(jí)別的數(shù)據(jù)且還需要支持實(shí)時(shí)查詢(xún),要消耗非常龐大的資源的問(wèn)題。
2、Batch Layer執(zhí)行的是批量處理,例如Hadoop或者Spark支持的Map-Reduce方式。利用Batch Layer進(jìn)行預(yù)運(yùn)算的作用實(shí)際上就是將大數(shù)據(jù)變小,從而有效地利用資源,改善實(shí)時(shí)查詢(xún)的性能。
3、Serving Layer是一個(gè)專(zhuān)用的分布式數(shù)據(jù)庫(kù)。Batch Layer通過(guò)對(duì)master dataset執(zhí)行查詢(xún)獲得了batch view,而Serving Layer就要負(fù)責(zé)對(duì)batch view進(jìn)行操作,從而為最終的實(shí)時(shí)查詢(xún)提供支撐。
4、Speed Layer對(duì)更新到Serving layer帶來(lái)的高延遲的一種補(bǔ)充,它是一種增量的計(jì)算,而非重新運(yùn)算。Speed layer與Batch layer非常相似,它們之間最大的區(qū)別是前者只處理最近的數(shù)據(jù),后者則要處理所有的數(shù)據(jù)。
作者:李丹
轉(zhuǎn)載請(qǐng)注明:學(xué)UI網(wǎng)》大數(shù)據(jù)掃盲
藍(lán)藍(lán)設(shè)計(jì)( m.yvirxh.cn )是一家專(zhuān)注而深入的界面設(shè)計(jì)公司,為期望卓越的國(guó)內(nèi)外企業(yè)提供卓越的UI界面設(shè)計(jì)、BS界面設(shè)計(jì) 、 cs界面設(shè)計(jì) 、 ipad界面設(shè)計(jì) 、 包裝設(shè)計(jì) 、 圖標(biāo)定制 、 用戶(hù)體驗(yàn) 、交互設(shè)計(jì)、 網(wǎng)站建設(shè) 、平面設(shè)計(jì)服務(wù)、UI設(shè)計(jì)公司、界面設(shè)計(jì)公司、UI設(shè)計(jì)服務(wù)公司、數(shù)據(jù)可視化設(shè)計(jì)公司、UI交互設(shè)計(jì)公司、高端網(wǎng)站設(shè)計(jì)公司、UI咨詢(xún)、用戶(hù)體驗(yàn)公司、軟件界面設(shè)計(jì)公司