發(fā)布時間:2021-11-05 16:05:17來源:有考培訓(xùn)網(wǎng)綜合
上海哪里有好的大數(shù)據(jù)培訓(xùn)機(jī)構(gòu)?大數(shù)據(jù)組件有哪些?大數(shù)據(jù)的組件有很多,且隨著時間的推移有些組件不再流行,這里不能一一列舉,只列舉一些常見的組件:
上海哪里有好的大數(shù)據(jù)培訓(xùn)機(jī)構(gòu)?
“職坐標(biāo)”平臺是海同科技以14年教學(xué)經(jīng)驗傾心打造的以“項目實訓(xùn)”模式為核心的教學(xué)平臺。與2000+企業(yè),包括阿里、華為、海信、交通銀行、今日頭條等企業(yè)進(jìn)行人才服務(wù)合作;同時,也與300+高校達(dá)成合作,為全國高校師生提供優(yōu)質(zhì)課程資源、督學(xué)服務(wù)和平臺支持。
Hadoop:一種分布式系統(tǒng)基礎(chǔ)架構(gòu)包含Hdfs、MapReduce、Yarn三大組件;
Hadoop-Hdfs:一種分布式文件系統(tǒng),具有高容錯、高伸縮的特點;
Hadoop-MapReduce:一種分布式編程模型,是基于Yarn的大數(shù)據(jù)并行處理系統(tǒng);
Hadoop-Yarn:是一種用于作業(yè)調(diào)度和集群資源管理的框架;
Hive:一種基于Hadoop的數(shù)據(jù)倉庫系統(tǒng),它實現(xiàn)了使用類SQL的查詢語言,能夠方便地進(jìn)行數(shù)據(jù)匯總、特定查詢和分析文件系統(tǒng)中的大數(shù)據(jù),在大數(shù)據(jù)平臺中Hive主要主要解決數(shù)據(jù)處理和計算問題,一般是配合其他組件使用;
Hbase:一種分布的、可伸縮的大數(shù)據(jù)存儲庫(注意,Hive不能算存儲庫),通常Hdfs為其提供高可靠性的底層存儲支持,它主要被用來解決實時數(shù)據(jù)查詢問題,支持隨機(jī)、實時的讀寫訪問;
Pig:是一個平臺,用來分析大數(shù)據(jù)集,Pig平臺是由一種表達(dá)數(shù)據(jù)分析程序的高級語言和對這些程序進(jìn)行評估的基礎(chǔ)設(shè)施一起組成;
Sqoop:是一種傳輸批量數(shù)據(jù)的工具,主要用于Hadoop和結(jié)構(gòu)化數(shù)據(jù)庫之間的數(shù)據(jù)傳輸;
Kettle:是一種完成數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(ETL)過程的工具,它支持圖形化的GUI設(shè)計界面,然后可以以工作流的形式流轉(zhuǎn),在做一些簡單或復(fù)雜的數(shù)據(jù)抽取、質(zhì)量檢測、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)過濾等方面有著比較穩(wěn)定的表現(xiàn);
Flume:是一種分布式、有用且可靠的服務(wù),該服務(wù)常用于收集、匯總、移動大量數(shù)日志數(shù)據(jù);
Logstash:一個開源數(shù)據(jù)收集引擎,具有實時管道功能,它可以動態(tài)地將來自不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一起來,并將數(shù)據(jù)標(biāo)準(zhǔn)化到你所選擇的目的地,與ElasticSearch、Kibana并稱ELK;
Zookeeper:一個分布式的、開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),該服務(wù)用于維護(hù)配置信息、提供分布式同步以及分組等事務(wù);
Mahout:一種基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的分布式計算框架算法集,實現(xiàn)了多種MapReduce模式的數(shù)據(jù)挖掘算法;
Spark:一種開源的數(shù)據(jù)分析集群計算框架,建立與分布式文件系統(tǒng)(Hdfs)只上(常與Hive相結(jié)合),與Hadoop一樣,用語構(gòu)建大規(guī)模、低延遲的數(shù)據(jù)分析應(yīng)用,Spark采用scala語言實現(xiàn),使用scala作為應(yīng)用框架;
Storm:一種分布式的、高容錯的實時計算系統(tǒng),它屬于流處理平臺,多用于實時計算并更新數(shù)據(jù)庫;
Shark:即前面提到的Hive On Spark,一個專為Spark打造的大規(guī)模數(shù)據(jù)倉庫系統(tǒng),兼容Hive,無需修改現(xiàn)有的數(shù)據(jù)或者查詢,就可以用100倍的速度執(zhí)行HiveSql,Shark支持Hive查詢語言、無存儲、序列化格式及自定義函數(shù),與現(xiàn)有的數(shù)據(jù)倉庫系統(tǒng)(Hive)無縫集成,是一個更快、更強(qiáng)大的替代方案;
Hue:一個開源的Hadoop UI系統(tǒng),能夠做HiveSql編輯器、搜索引擎Solr的各種圖表以及與Oozie集成,可進(jìn)行workflow的編輯、查看;
Oozie:一種任務(wù)調(diào)度框架,可與Hue集成,用來完成工作流的設(shè)計、錄入、觸發(fā)與監(jiān)控等;
Phoenix:一個構(gòu)建在大數(shù)據(jù)存儲庫(Hbase)只上的Sql中間層,完全使用java編寫,提供了一個客戶端可嵌入的JDBC(數(shù)據(jù)庫連接,由java編寫的類及接口組成)驅(qū)動,它的查詢引擎會將Sql轉(zhuǎn)換成一個或多個Hbase scan,并編排執(zhí)行以生成標(biāo)準(zhǔn)的數(shù)據(jù)庫連接(JDBC)結(jié)果集,Phoenix直接使用Hbase API、協(xié)同處理器與自定義過濾器,對于簡單的查詢來說,其性能量級是毫秒,對于百萬級別的行數(shù)來說,其性能量級是秒;
Tez:一個基于作業(yè)調(diào)度和集群資源管理的框架(Yarn)之上的DAG(有向無環(huán)圖)計算框架,他把MapReduce拆分成若干個子過程,同時又把若干個MapReduce組合成一個較大的DAG(有向無環(huán)圖)任務(wù),減少了MapReduce之間的文件存儲(落地),同時合理組合其子過程,減少任務(wù)運行時間;
Kafka:一個分布式、支持分區(qū)的(partition)、多副本的(replica),基于zookeeper協(xié)調(diào)的分布式消息系統(tǒng),它的較大的特性就是可以實時的處理大量數(shù)據(jù)以滿足各種需求場景;
Ambari:作為Hadoop集群的一個供應(yīng)、管理和監(jiān)視的開源框架,該開源框架提供一個直觀的操作工具和一系列健壯的Hadoop API,可吟唱負(fù)責(zé)的Hadoop相關(guān)操作,使集群操作大大簡化;
CDH:是Hadoop眾多分支中的一種,由Cloudera維護(hù),基于穩(wěn)定版本的Apache Hadoop構(gòu)建,提供了Hadoop的核心可擴(kuò)展存儲(HDFS)和分布式計算(MR),還提供了WEB頁面進(jìn)行管理、監(jiān)控。
更多培訓(xùn)課程: 浦東新區(qū)大數(shù)據(jù) 更多學(xué)校信息: 上海浦東新區(qū)職坐標(biāo)IT培訓(xùn) 咨詢電話: