大數(shù)據(jù) (巨量數(shù)據(jù)集合[IT行業(yè)術語])
大數(shù)據(jù)(big data),指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調查)這樣捷徑,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
1.定義
對于“大數(shù)據(jù)”(Big data)研究機構Gartner給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型和價值密度低四大特征。
大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術。
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關注。分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化數(shù)據(jù)和半結構化數(shù)據(jù),這些數(shù)據(jù)在下載到關系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)需要特殊的技術,以有效地處理大量的容忍經(jīng)過時間內的數(shù)據(jù)。適用于大數(shù)據(jù)的技術,包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
2.應用
洛杉磯警察局和加利福尼亞大學合作利用大數(shù)據(jù)預測犯罪的發(fā)生。
google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。
統(tǒng)計學家內特.西爾弗(Nate Silver)利用大數(shù)據(jù)預測2012美國選舉結果。
麻省理工學院利用手機定位數(shù)據(jù)和交通數(shù)據(jù)建立城市規(guī)劃。
梅西百貨的實時定價機制。根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達7300萬種貨品進行實時調價。
醫(yī)療行業(yè)早就遇到了海量數(shù)據(jù)和非結構化數(shù)據(jù)的挑戰(zhàn),而近年來很多國家都在積極推進醫(yī)療信息化發(fā)展,這使得很多醫(yī)療機構有資金來做大數(shù)據(jù)分析。
3.意義
現(xiàn)在的社會是一個高速發(fā)展的社會,科技發(fā)達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數(shù)據(jù)就是這個高科技時代的產(chǎn)物。 阿里巴巴創(chuàng)辦人馬云來臺演講中就提到,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology數(shù)據(jù)科技,顯示大數(shù)據(jù)對于阿里巴巴集團來說舉足輕重。
有人把數(shù)據(jù)比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在“大”,而在于“有用”。價值含量、挖掘成本比數(shù)量更為重要。對于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)是贏得競爭的關鍵。
大數(shù)據(jù)的價值體現(xiàn)在以下幾個方面:
1)對大量消費者提供產(chǎn)品或服務的企業(yè)可以利用大數(shù)據(jù)進行精準營銷
2) 做小而美模式的中小微企業(yè)可以利用大數(shù)據(jù)做服務轉型
3) 面臨互聯(lián)網(wǎng)壓力之下必須轉型的傳統(tǒng)企業(yè)需要與時俱進充分利用大數(shù)據(jù)的價值
不過,“大數(shù)據(jù)”在經(jīng)濟發(fā)展中的巨大意義并不代表其能取代一切對于社會問題的理性思考,科學發(fā)展的邏輯不能被湮沒在海量數(shù)據(jù)中。著名經(jīng)濟學家路德維?!ゑT·米塞斯曾提醒過:“就今日言,有很多人忙碌于資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經(jīng)濟意義的了解?!边@確實是需要警惕的。
在這個快速發(fā)展的智能硬件時代,困擾應用開發(fā)者的一個重要問題就是如何在功率、覆蓋范圍、傳輸速率和成本之間找到那個微妙的平衡點。企業(yè)組織利用相關數(shù)據(jù)和分析可以幫助它們降低成本、提高效率、開發(fā)新產(chǎn)品、做出更明智的業(yè)務決策等等。例如,通過結合大數(shù)據(jù)和高性能的分析,下面這些對企業(yè)有益的情況都可能會發(fā)生:
1)及時解析故障、問題和缺陷的根源,每年可能為企業(yè)節(jié)省數(shù)十億美元。
2)為成千上萬的快遞車輛規(guī)劃實時交通路線,躲避擁堵。
3)分析所有SKU,以利潤最大化為目標來定價和清理庫存。
4)根據(jù)客戶的購買習慣,為其推送他可能感興趣的優(yōu)惠信息。
5)從大量客戶中快速識別出金牌客戶。
6)使用點擊流分析和數(shù)據(jù)挖掘來規(guī)避欺詐行為。
4.趨勢
趨勢一:數(shù)據(jù)的資源化
何為資源化,是指大數(shù)據(jù)成為企業(yè)和社會關注的重要戰(zhàn)略資源,并已成為大家爭相搶奪的新焦點。因而,企業(yè)必須要提前制定大數(shù)據(jù)營銷戰(zhàn)略計劃,搶占市場先機。
趨勢二:與云計算的深度結合
大數(shù)據(jù)離不開云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎設備,是產(chǎn)生大數(shù)據(jù)的平臺之一。自2013年開始,大數(shù)據(jù)技術已開始和云計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興計算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營銷發(fā)揮出更大的影響力。
趨勢三:科學理論的突破
隨著大數(shù)據(jù)的快速發(fā)展,就像計算機和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)很有可能是新一輪的技術革命。隨之興起的數(shù)據(jù)挖掘、機器學習和人工智能等相關技術,可能會改變數(shù)據(jù)世界里的很多算法和基礎理論,實現(xiàn)科學技術上的突破。
趨勢四:數(shù)據(jù)科學和數(shù)據(jù)聯(lián)盟的成立
未來,數(shù)據(jù)科學將成為一門專門的學科,被越來越多的人所認知。各大高校將設立專門的數(shù)據(jù)科學類專業(yè),也會催生一批與之相關的新的就業(yè)崗位。與此同時,基于數(shù)據(jù)這個基礎平臺,也將建立起跨領域的數(shù)據(jù)共享平臺,之后,數(shù)據(jù)共享將擴展到企業(yè)層面,并且成為未來產(chǎn)業(yè)的核心一環(huán)。
趨勢五:數(shù)據(jù)泄露泛濫
未來幾年數(shù)據(jù)泄露事件的增長率也許會達到100%,除非數(shù)據(jù)在其源頭就能夠得到安全保障。可以說,在未來,每個財富500強企業(yè)都會面臨數(shù)據(jù)攻擊,無論他們是否已經(jīng)做好安全防范。而所有企業(yè),無論規(guī)模大小,都需要重新審視今天的安全定義。在財富500強企業(yè)中,超過50%將會設置首席信息安全官這一職位。企業(yè)需要從新的角度來確保自身以及客戶數(shù)據(jù),所有數(shù)據(jù)在創(chuàng)建之初便需要獲得安全保障,而并非在數(shù)據(jù)保存的最后一個環(huán)節(jié),僅僅加強后者的安全措施已被證明于事無補。
趨勢六:數(shù)據(jù)管理成為核心競爭力
數(shù)據(jù)管理成為核心競爭力,直接影響財務表現(xiàn)。當“數(shù)據(jù)資產(chǎn)是企業(yè)核心資產(chǎn)”的概念深入人心之后,企業(yè)對于數(shù)據(jù)管理便有了更清晰的界定,將數(shù)據(jù)管理作為企業(yè)核心競爭力,持續(xù)發(fā)展,戰(zhàn)略性規(guī)劃與運用數(shù)據(jù)資產(chǎn),成為企業(yè)數(shù)據(jù)管理的核心。數(shù)據(jù)資產(chǎn)管理效率與主營業(yè)務收入增長率、銷售收入增長率顯著正相關;此外,對于具有互聯(lián)網(wǎng)思維的企業(yè)而言,數(shù)據(jù)資產(chǎn)競爭力所占比重為36.8%,數(shù)據(jù)資產(chǎn)的管理效果將直接影響企業(yè)的財務表現(xiàn)。
趨勢七:數(shù)據(jù)質量是BI(商業(yè)智能)成功的關鍵
采用自助式商業(yè)智能工具進行大數(shù)據(jù)處理的企業(yè)將會脫穎而出。其中要面臨的一個挑戰(zhàn)是,很多數(shù)據(jù)源會帶來大量低質量數(shù)據(jù)。想要成功,企業(yè)需要理解原始數(shù)據(jù)與數(shù)據(jù)分析之間的差距,從而消除低質量數(shù)據(jù)并通過BI獲得更佳決策。
趨勢八:數(shù)據(jù)生態(tài)系統(tǒng)復合化程度加強
大數(shù)據(jù)的世界不只是一個單一的、巨大的計算機網(wǎng)絡,而是一個由大量活動構件與多元參與者元素所構成的生態(tài)系統(tǒng),終端設備提供商、基礎設施提供商、網(wǎng)絡服務提供商、網(wǎng)絡接入服務提供商、數(shù)據(jù)服務使能者、數(shù)據(jù)服務提供商、觸點服務、數(shù)據(jù)服務零售商等等一系列的參與者共同構建的生態(tài)系統(tǒng)。而今,這樣一套數(shù)據(jù)生態(tài)系統(tǒng)的基本雛形已然形成,接下來的發(fā)展將趨向于系統(tǒng)內部角色的細分,也就是市場的細分;系統(tǒng)機制的調整,也就是商業(yè)模式的創(chuàng)新;系統(tǒng)結構的調整,也就是競爭環(huán)境的調整等等,從而使得數(shù)據(jù)生態(tài)系統(tǒng)復合化程度逐漸增強。