簡介
“大數(shù)據(jù)”作為時(shí)下最火熱的IT行業(yè)的詞匯,隨之?dāng)?shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)量的商業(yè)價(jià)值的利用逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤焦點(diǎn)。
早在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪
著云臺(tái)大數(shù)據(jù)(4張)潮的華彩樂章”。不過,大約從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時(shí)測(cè)量和傳遞著有關(guān)位置、運(yùn)動(dòng)、震動(dòng)、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。且中國物聯(lián)網(wǎng)校企聯(lián)盟認(rèn)為,物聯(lián)網(wǎng)的發(fā)展離不開大數(shù)據(jù),依靠大數(shù)據(jù)提供足夠有利的資源。
隨著云時(shí)代的來臨,大數(shù)據(jù)(Bigdata)也吸引了越來越多的關(guān)注?!吨婆_(tái)》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Bigdata)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)?!?span id="vujio1t" class='hrefStyle'>計(jì)算機(jī)學(xué)報(bào)》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺(tái)需要具備的幾個(gè)重要特性,對(duì)當(dāng)前的主流實(shí)現(xiàn)平臺(tái)———并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)進(jìn)行了分析歸納,指出了各自的優(yōu)勢(shì)及不足,同時(shí)也對(duì)各個(gè)方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進(jìn)行了介紹,對(duì)未來研究做了展望[3]。
對(duì)于“大數(shù)據(jù)”(Bigdata)研究機(jī)構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)”這個(gè)術(shù)語最早期的引用可追溯到apacheorg的開源項(xiàng)目Nutch。當(dāng)時(shí),大數(shù)據(jù)用來描述為更新網(wǎng)絡(luò)搜索索引需要同時(shí)進(jìn)行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce和GoogleFileSystem(GFS)的發(fā)布,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度。
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營過程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。
大數(shù)據(jù)的4個(gè)“V”,或者說特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低,商業(yè)價(jià)值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”——Volume,Variety,Value,Velocity。
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
技術(shù)
大數(shù)據(jù)技術(shù)將被設(shè)計(jì)用于在成本可承受(economically)的條件下,通過非??焖伲╲elocity)的采集、發(fā)現(xiàn)和分析,從大量化(volumes)、多類別(variety)的數(shù)據(jù)中提取價(jià)值(value),將是IT 領(lǐng)域新一代的技術(shù)與架構(gòu)。企業(yè)用以分析的數(shù)據(jù)越全面,分析的結(jié)果就越接近于真實(shí)。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個(gè)細(xì)節(jié)相融合。
一些相關(guān)技術(shù)
分析技術(shù):
數(shù)據(jù)處理:自然語言處理技術(shù)
統(tǒng)計(jì)和分析:A/B test; top N排行榜;地域占比;文本情感分析
數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類
模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真
大數(shù)據(jù)技術(shù):
數(shù)據(jù)采集:ETL工具
數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫;NoSQL;SQL等
基礎(chǔ)架構(gòu)支持:云存儲(chǔ);分布式文件系統(tǒng)等
計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等
存儲(chǔ)
結(jié)構(gòu)化數(shù)據(jù):
海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低
非結(jié)構(gòu)化數(shù)據(jù):
圖片、視頻、word、pdf、ppt等文件存儲(chǔ)
不利于檢索、查詢和存儲(chǔ)
半結(jié)構(gòu)化數(shù)據(jù):
轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)
按照非結(jié)構(gòu)化存儲(chǔ)
解決方案:
Hadoop(MapReduce技術(shù))
流計(jì)算(twitter的storm和yahoo!的S4)
大數(shù)據(jù)的應(yīng)用
企業(yè)
IBM:
IBM大數(shù)據(jù)提供的服務(wù)包括數(shù)據(jù)分析,文本分析,藍(lán)色云杉(混搭供電合作的網(wǎng)絡(luò)平臺(tái));業(yè)務(wù)事件處理;IBM Mashup Center的計(jì)量,監(jiān)測(cè),和商業(yè)化服務(wù)(MMMS)
IBM的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的InfoSphere bigInsights,基于Apache Hadoop。
該產(chǎn)品組合包括:
打包的Apache Hadoop的軟件和服務(wù),代號(hào)是bigInsights核心,用于開始大數(shù)據(jù)分析
軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡單、直觀的提取、批注相關(guān)信息
為金融,風(fēng)險(xiǎn)管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案
微軟:
2011年1月與惠普(具體而言是HP數(shù)據(jù)庫綜合應(yīng)用部門) 合作目標(biāo)是開發(fā)了一系列能夠提升生產(chǎn)力和提高決策速度的設(shè)備。
EMC:
EMC 斬獲了紐交所和Nasdaq;
大數(shù)據(jù)解決方案已包括40多個(gè)產(chǎn)品。
Oracle:
Oracle大數(shù)據(jù)機(jī)與Oracle Exalogic中間件云服務(wù)器、Oracle Exadata數(shù)據(jù)庫云服務(wù)器以及Oracle Exalytics商務(wù)智能云服務(wù)器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。
政府
政府職能變革
重視應(yīng)用大數(shù)據(jù)技術(shù),盤活各地云計(jì)算中心資產(chǎn):把原來大規(guī)模投資產(chǎn)業(yè)園、物聯(lián)網(wǎng)產(chǎn)業(yè)園從政績工程,改造成智慧工程;
在安防領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提高應(yīng)急處置能力和安全防范能力;
在民生領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提升服務(wù)能力和運(yùn)作效率,以及個(gè)性化的服務(wù),比如醫(yī)療、衛(wèi)生、教育等部門;
解決在金融,電信領(lǐng)域等中數(shù)據(jù)分析的問題:一直得到得極大的重視,但受困于存儲(chǔ)能力和計(jì)算能力的限制,只局限在交易數(shù)型數(shù)據(jù)的統(tǒng)計(jì)分析;
內(nèi)容來自百科網(wǎng)