程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> Facebook推高效查詢引擎Presto

Facebook推高效查詢引擎Presto

編輯:關於PHP編程

在Facebook總部的一次開發者會議上,這個社交網絡巨頭的工程師透露,他們正在使用新的自主研發的查詢引擎Presto,在已有的250PB的龐大數據倉庫上進行交互式分析。

據Martin Traverso工程師透露,有超過850名Facebook工程師每天用它來掃描超過320TB的數據。在以前,我們的科學家和分析師一直依靠Hive來做數據分析。但Hive是專為批處理設計的。但隨著數據越來越多,Hive已不能滿足我們的需求。雖然我們還有其他比Hive更快的工具,但它們要麼在功能有所限制要麼就太簡單,以至於無法操作我們龐大的數據倉庫。而在過去的幾個月中,我們一直使用Presto來填補這方面的空白。

Hive是Facebook在幾年前專為Hadoop打造的一款數據倉庫工具。因為它主要依賴MapReduce進行運行,所以隨著年齡的上升,其在速度上已不能滿足日益增長的數據要求。浏覽一個完整的數據集可能要花費幾分到幾小時,這完全是不切實際的。

Traverso還表示,使用Presto進行簡單的查詢只需要幾百毫秒,即使是非常復雜的查詢,也只需數分鐘即可完成,它在內存中運行,並且不會向磁盤寫入。

雖然看起來Presto如同Facebook版的Cloudera Impala SQL查詢引擎,或與Hortonworks在Stinger項目中所做的事情相似,但這是按照Facebook規模為實現更快操作而定制的版本。Presto並不會與其他商業產品進行競爭,但它會很快讓大數據行業產生不小的震動。並且Facebook打算在今年秋天以開源的形式發布Presto。

Facebook的工程經理Ravi Murthy表示,隨著用戶量地不斷增長,數據倉庫也在快速增長,它比四年前要大4000倍。Murthy 也表示,在接下來幾年,數據將會達到艾字節。因此,為了適應這種數據規模,我們不得不重新考慮許多東西。

Presto則是其中之一,除了提高查詢速度,在CPU使用效率上,這個引擎比Hive高效7倍。另外一個正在進行的項目是縮減Facebook數據中心的分析數據空間。

對於Facebook最新推出的查詢引擎Presto,微博上的各位大神又有哪些看法呢?

 

原EMC中國研究院大數據實驗室負責人大數據皮東:Facebook最新的交互式大數據查詢系統Presto,類似於Cloudera的Impala和Hortonworks的Stinger,解決Facebook迅速膨脹的海量數據倉庫快速查詢需求。Facebook針對Exabyte規模數據正在開發新一代大數據系統,Presto是其中的數據倉庫交互查詢系統,應該還有海量存儲系統。在這個級別,很多設計需要考慮!

新浪CTO兼聯席總裁許良傑Jack:社交網絡和社會化媒體催生了真正的大數據(Big Data)平台。新浪微博也不例外……

英國利茲大學計算機及語言學研究員,搜索項目博士後研究員vinW:1. presto秋季會開源;2.比hive快七倍;3.基於內存

Launch_Bruce:FaceBook不是搜索引擎,對實時性的要求更高,即使當初推出Hive,也只能是權宜之計。這屬於Hadoop的基因,Hadoop必將會讓很多沒有深度思索盲目上馬的項目最後舉步維艱。但是顯然Hadoop成功的生態系統也會害了不少人。

TeslaElon:加油!Big Data會衍生出很多商業機會。尤其是與最大的電商平台阿裡巴巴以及最大的視頻平台YOKU潛在的合作值得期待。另外Sina投資了不少微博上的火爆應用,很多機會,後面看Sina研發和管理以及銷售如何做好。

搬運大數據的亨利:大約五年以前做大數據分析,我們的MPP產品就已經有這些策略了。當時,最大的問題是大數據在互聯網,但這些明星企業不愛花錢購買只愛造輪子。還是電信客戶好,他們願意花錢采購而不是造輪子。

英文來自:gigaom.com

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved