有考網(wǎng)有考網(wǎng)合作機(jī)構(gòu)>南京培訓(xùn)學(xué)校>南京秦淮新街口達(dá)內(nèi)IT教育培訓(xùn)
南京秦淮新街口達(dá)內(nèi)IT教育培訓(xùn)
全國統(tǒng)一學(xué)習(xí)專線 8:30-21:00
位置:有考網(wǎng) > 計(jì)算機(jī)類>大數(shù)據(jù)> 大數(shù)據(jù)的概念與特點(diǎn)  正文

大數(shù)據(jù)的概念與特點(diǎn)

發(fā)布時(shí)間:2021-12-23 16:02:22來源:轉(zhuǎn)載

隨著互聯(lián)網(wǎng)的飛速發(fā)展,特別是近年來隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計(jì)算以及多種傳感器的廣泛應(yīng)用,以數(shù)量龐大,種類眾多,時(shí)效性強(qiáng)為特征的非結(jié)構(gòu)化數(shù)據(jù)不斷涌現(xiàn),數(shù)據(jù)的重要性愈發(fā)凸顯,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、分析技術(shù)難以實(shí)時(shí)處理大量的非結(jié)構(gòu)化信息,大數(shù)據(jù)的概念應(yīng)運(yùn)而生。今天我們來說說大數(shù)據(jù)的概念與特點(diǎn)。

大數(shù)據(jù)的概念與特點(diǎn)

大數(shù)據(jù)是一個(gè)較為抽象的概念,正如信息學(xué)領(lǐng)域大多數(shù)新興概念,大數(shù)據(jù)至今尚無確切、統(tǒng)一的定義。在維基百科中關(guān)于大數(shù)據(jù)的定義為:大數(shù)據(jù)是指利用常用軟件工具來獲取、管理和處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間的數(shù)據(jù)集。

IDC在對(duì)大數(shù)據(jù)作出的定義為:

大數(shù)據(jù)一般會(huì)涉及2種或2種以上數(shù)據(jù)形式。它要收集超過100TB的數(shù)據(jù),并且是高速、實(shí)時(shí)數(shù)據(jù)流;或者是從小數(shù)據(jù)開始,但數(shù)據(jù)每年會(huì)增長60%以上。這個(gè)定義給出了量化標(biāo)準(zhǔn),但只強(qiáng)調(diào)數(shù)據(jù)量大,種類多,增長快等數(shù)據(jù)本身的特征。研究機(jī)構(gòu)Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。這也是一個(gè)描述性的定義,在對(duì)數(shù)據(jù)描述的基礎(chǔ)上加入了處理此類數(shù)據(jù)的一些特征,用這些特征來描述大數(shù)據(jù)。

大數(shù)據(jù)有四個(gè)基本特征:

數(shù)據(jù)規(guī)模大( Volume) ,數(shù)據(jù)種類多( Variety) ,數(shù)據(jù)要求處理速度快( Velocity) ,數(shù)據(jù)價(jià)值密度低( Value),即所謂的四V特性。

這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。大數(shù)據(jù)的概念與“海量數(shù)據(jù)”不同,后者只強(qiáng)調(diào)數(shù)據(jù)的量,而大數(shù)據(jù)不僅用來描述大量的數(shù)據(jù),還更進(jìn)一步指出數(shù)據(jù)的復(fù)雜形式、數(shù)據(jù)的時(shí)間特性以及對(duì)數(shù)據(jù)的分析、處理等專業(yè)化處理,較終獲得有價(jià)值信息的能力。

(一)數(shù)據(jù)量大

大數(shù)據(jù)聚合在一起的數(shù)據(jù)量是非常大的,根據(jù)IDC的定義至少要有超過100TB的可供分析的數(shù)據(jù),數(shù)據(jù)量大是大數(shù)據(jù)的基本屬性。導(dǎo)致數(shù)據(jù)規(guī)模激增的原因有很多,首先是隨著互聯(lián)網(wǎng)絡(luò)的廣泛應(yīng)用,使用網(wǎng)絡(luò)的人、企業(yè)、機(jī)構(gòu)增多,數(shù)據(jù)獲取、分享變得相對(duì)容易,以前,只有少量的機(jī)構(gòu)可以通過調(diào)查、取樣的方法獲取數(shù)據(jù),同時(shí)發(fā)布數(shù)據(jù)的機(jī)構(gòu)也很有限,人們難以短期內(nèi)獲取大量的數(shù)據(jù),而現(xiàn)在用戶可以通過網(wǎng)絡(luò)非常方便的獲取數(shù)據(jù),同時(shí)用戶在有意的分享和無意的點(diǎn)擊、瀏覽都可以的提供大量數(shù)據(jù);其次是隨著各種傳感器數(shù)據(jù)獲取能力的大幅提高,使得人們獲取的數(shù)據(jù)越來越接近原始事物本身,描述同一事物的數(shù)據(jù)量激增。

(二)數(shù)據(jù)類型多樣

數(shù)據(jù)類型繁多,復(fù)雜多變是大數(shù)據(jù)的重要特性。以往的數(shù)據(jù)盡管數(shù)量龐大,但通常是事先定義好的結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是將事物向便于人類和計(jì)算機(jī)存儲(chǔ)、處理、查詢的方向抽象的結(jié)果,結(jié)構(gòu)化在抽象的過程中,忽略一些在特定的應(yīng)用下可以不考慮的細(xì)節(jié),抽取了有用的信息。

(三)數(shù)據(jù)處理速度快

要求數(shù)據(jù)的處理,是大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一。隨著各種傳感器和互聯(lián)網(wǎng)絡(luò)等信息獲取、傳播技術(shù)的飛速發(fā)展普及,數(shù)據(jù)的產(chǎn)生、發(fā)布越來越容易,產(chǎn)生數(shù)據(jù)的途徑增多,個(gè)人甚至成為了數(shù)據(jù)產(chǎn)生的主體之一,數(shù)據(jù)呈爆炸的形式增長,新數(shù)據(jù)不斷涌現(xiàn),增長的數(shù)據(jù)量要求數(shù)據(jù)處理的速度也要相應(yīng)的提升,才能使得大量的數(shù)據(jù)得到有效的利用,否則不斷激增的數(shù)據(jù)不但不能為解決問題帶來優(yōu)勢(shì),反而成了解決問題的負(fù)擔(dān)。

更多培訓(xùn)課程: 南京大數(shù)據(jù) 更多學(xué)校信息: 南京秦淮新街口達(dá)內(nèi)IT教育培訓(xùn) 咨詢電話:

相關(guān)內(nèi)容: 大數(shù)據(jù)的概念 大數(shù)據(jù)的特點(diǎn) 達(dá)內(nèi)IT教育

同類文章
相關(guān)熱詞