程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> 如何用Java平台訪問開源雲存儲?

如何用Java平台訪問開源雲存儲?

編輯:關於JAVA

盡管雲計算這一術語並不新鮮(Amazon在2006年就開始提供它的雲服務),但從2008年起它才開始真正成為流行詞,這期間,Google和Amazon的雲服務逐漸獲得了公眾的關注。 Google的App Engine使用戶能夠在Google基礎設施上構建和托管 Web 應用程序。

連同S3,AmazonWeb Services還包括Elastic Cloud Compute (EC2)計算Web服務,該服務可以在Amazon的基礎設施上托管應用程序。其他公司也開始蠢蠢欲動,准備與Amazon和Google一決高下,其中就包括 Microsoft®的 Azure,甚至 Sun Microsystems(其雲計算還沒有正式推向市場)也想分一杯羹。例如IBM最近宣布,它將提供某些產品供開發人員在AmazonEC2 環境中使用。

AmazonSimple Storage Service (S3)是一個公開的服務,Web應用程序開發人員可以使用它存儲數字資產,包括圖片、視頻、音樂和文檔。S3提供一個 RESTful API以編程方式實現與該服務的交互。通過本文,您將了解如何使用開源的JetS3t庫利用Amazon的S3雲服務存儲和檢索數據。

面向開源的S3雲平台介紹

雲是一個抽象的概念,表示松散連接在一起的計算機組,這些計算機共同執行某項任務或者服務,就像是使用一個單獨的實體完成一樣。此概念背後的架構也很抽象:每個雲提供者都可以根據各自情況隨意設計它的產品。軟件即服務(Software as a Service,SaaS)是一個與雲相關的概念,表示雲向用戶提供某種服務。雲模型可以降低用戶成本,因為他們無需購買軟件和硬件也可以運行 — 服務提供者已經為用戶提供了必要的組件。

以Amazon的S3產品為例。顧名思義,這是一個公開的服務,使 Web 開發人員能夠存儲數字資產(如圖片、視頻、音樂和文檔等),以便在應用程序中使用。使用S3時,它就像一個位於 Internet 的機器,有一個包含數字資產的硬盤驅動。實際上,它涉及到許多機器(位於各個地理位置),其中包含數字資產(或者數字資產的某些部分)。Amazon還處理所有復雜的服務請求,可以存儲數據並檢索數據。您只需要付少量的費用(大約每月 15 美分 /GB)就可以在Amazon的服務器上存儲數據,1 美元即可通過Amazon服務器傳輸數據。

Amazon的S3服務沒有重復開發,它公開了RESTful API,使您能夠使用任何支持 HTTP 通信的語言訪問S3。 JetS3t項目是一個開源Java庫,可以抽象出使用S3的RESTful API的細節,將API公開為常見的Java方法和類。編寫的代碼越少越好,難道不是嗎?充分利用其他人的成果也是不錯的。在本文中您將看到,JetS3t使S3和Java語言的工作變得更加簡單,從根本上提高了效率。

S3開源應用模式介紹

理論上,S3是一個全球存儲區域網絡(SAN),它表現為一個超大的硬盤,您可以在其中存儲和檢索數字資產。但是,從技術上講,Amazon的架構有一些不同。您通過S3存儲和檢索的資產被稱為對象。對象存儲在存儲段(bucket)中。您可以用硬盤進行類比:對象就像是文件,存儲段就像是文件夾(或目錄)。與硬盤一樣,對象和存儲段也可以通過統一資源標識符(Uniform Resource IdentifIEr,URI)查找。

例如,在我的硬盤中,我有一個名為 whitepaper.pdf 的文件,它位於主目錄中名為 documents 的文件夾中。相應的,該pdf文件的URI為/home/aglover/documents/whitepaper.pdf 。在S3中,URI有一點不同。首先,存儲段只能是頂級的 — 無法像嵌套硬盤中的文件夾(或目錄)一樣進行嵌套。其次,存儲段必須遵循 Internet 命名法則;句點旁邊沒有斜槓,名稱不包括下劃線等等。最後,由於存儲段名稱已經是Amazon域內的 (s3.amazonaws.com) 公共URI的一部分,存儲段名稱必須在所有S3中是惟一的。(好消息是每個帳戶只能包含 100 個存儲段,因此不用擔心別人占用了所有的好名字)。

存儲段在S3中是URI的根。也就是說,存儲段的名稱將是指向S3中某個對象的URI的一部分。例如,如果我有一個名為 agdocs 的存儲段以及一個名為 whitepaper.pdf 的對象,URI將是:http://agdocs.s3.amazonaws.com/whitepaper.pdf 。

S3還提供了指定存儲段和對象的所有者和權限的能力,就像對待硬件的文件和文件夾一樣。在S3中定義對象或存儲段時,您可以指定一個訪問控制策略,注明誰可以訪問您的S3資產以及如何訪問(例如,讀和寫權限)。相應地,您可以通過許多方式提供對您的對象的訪問,使用RESTful API只是其中一種。

這裡Amazon有一個神奇的DNS魔術,用戶不用擔心S3資產的 URL 。通過 Domain Name System (DNS) 和 CNAME(canonical name的縮寫)記錄,您可以將自定義程度更高的 URL 映射到S3的 URL 。這樣一來,您就隱藏了您(或您的應用程序)依賴S3的事實!

開始使用開源S3和JetS3t

要開始使用S3,您需要一個帳戶。S3不是免費的,因此在創建帳戶時您必須向Amazon提供一種支付手段(比如信用卡號碼)。不用擔心:不收初裝費;您只需要為使用付費。對於本文的示例,只需要支付不到 1 美元的費用。

在創建帳戶的過程中,您還需要創建憑據:訪問密鑰和秘密密鑰(就像用戶名和密碼)。(您還可以獲取 x.509 證書;但是,只有在使用Amazon的 SOAPAPI時才需要使用該證書)。和任何訪問信息一樣,都必須保管好您的秘密密鑰。因為任何人使用您的憑據訪問S3時,您都將為此付費。因此,每當創建存儲段或對象時,默認的行為是讓所有內容都私有;您必須顯式獲取對外部世界的訪問。

有了訪問密鑰和秘密密鑰,您可以下載 JetS3t並使用它通過RESTful API與S3交互。

使用編程手段通過 JetS3t 登錄S3可以分為兩步。首先,必須創建一個 AWSCredentials 對象,然後將它傳遞到 S3Service 對象。AWSCredentials 對象非常簡單。它將訪問密鑰和秘密密鑰視為 String。S3Service 對象實際上是一個接口類型。因為S3同時提供RESTful API和一個 SOAP API,JetS3t 庫可以提供兩種實現類型:RestS3Service 和 SoapS3Service。就本文而言(包括大部分S3事務),RESTful API的簡潔性讓它成為一個很好的選擇。

創建一個連接的 RestS3Service 實例很簡單,如清單 1 所示:

步驟 1. 創建一個 JetS3t 的 RestS3Service 實例

def awsAccessKey = "blahblah"

def awsSecretKey = "blah-blah"

def awsCredentials = new AWSCredentials(awsAccessKey, awsSecretKey)

def s3Service = new RestS3Service(awsCredentials)

現在可以執行一些有趣的操作了:例如,創建存儲段、添加一個影片,然後獲取一個有時間限制的URL 。實際上,這聽起來像一個業務流程,不是嗎?這是一個與發布有限資產(比如影片)有關的業務流程。

創建存儲段

對於虛構的電影業務,我將創建一個稱為 bc50i 的存儲段。借助 JetS3t,該流程很簡單。通過 S3Service 類型,您有幾個選項。我更喜歡使用 getOrCreateBucket 調用,如清單 2 所示。顧名思義,調用該方法可能返回一個存儲段實例(表示為 S3Bucket 類型的實例)或在S3中創建代碼段。

S3平台詳細使用步驟簡介

步驟 2. 在S3服務器上創建存儲段

def bucket = s3Service.getOrCreateBucket("bc50i")

不要被我這個簡單的代碼示例所蒙蔽。JetS3t 庫的擴展性非常強。例如,您可以快速確定擁有多少存儲段 —— 只需通過 listAllBuckets 調用請求一個S3 Service 實例即可。該方法返回一個 S3Bucket 實例數組。對於任何存儲段實例,您可以詢問它的名稱和創建日期。更重要的是,您可以通過JetS3t 的 AccessControlList 類型控制與之相關的權限。例如,我可以獲取 bc50i 存儲段實例,並允許任何人可以公開讀取和編寫,如清單 3 所示:

步驟 3. 修改存儲段的訪問控制列表

def bucket.acl = AccessControlList.REST_CANNED_PUBLIC_READ_WRITE

當然,通過 API,您也可以隨意刪除存儲段。Amazon甚至允許您指定創建存儲段的地理位置。Amazon簡化了存儲實際數據的復雜性,但是您可以告訴Amazon要將存儲段(及其內部所有的對象)放在美國或歐洲(當前可用選項)。

向存儲段添加對象

使用JetS3t 的API創建S3對象就像操作存儲段一樣簡單。JetS3t 庫也很智能,可以負責處理與S3存儲段內文件相關的內容類型。例如,我想向S3上傳一段影片nerfwars2.mp4,以便用戶能夠在有限的時間內觀看。創建一個S3對象與創建常見的 Java.io.File 類型一樣簡單,並能將S3Object 類型與存儲段關聯,如清單 4 所示:

步驟 4. 創建一個S3對象

def s3obj = new S3Object(bucket, new File("/path/to/nerfwars2.mp4"))

使用文件和存儲段初始化 S3Object 之後,要做的所有事情就是通過 putObject 方法上傳,如清單 5 所示:

步驟 5. 上傳影片

s3Service.putObject(bucket, s3obj)

使用清單 5 可以完成上傳。現在影片位於Amazon服務器了,影片的鍵就是它的名稱。當然,您可以根據需要重寫該名稱以調用其他對象。實際上,JetS3t API(以及 AmazonS3RESTful API)公開了許多信息,供您創建對象時使用。我們知道,您還可以提供訪問控制列表。S3中的任何對象都可以保存API允許您創建的其他元數據。之後可以通過該元數據的S3API(以及派生的 JetS3t)查詢任何對象。

創建對象的URL

到現在為止,我的S3實例有一個包含影片的存儲段。實際上,我的影片可以通過以下URI獲取:http://bc50i.s3.amazonaws.com/nerfwars2.mp4 。但是,只有我才能獲取。(在本例中,我只能通過編程方式訪問它,因為與所有內容關聯的默認訪問控制被設置為拒絕任何未授權訪問)。我的目的是為選擇的用戶提供一種方式查看新影片(在有限的時間內),直到我開始收取訪問費用(S3也會提供幫助)。

創建一個公共 URL 是S3提供的一個便捷功能;實際上,使用 S3,您可以創建一個公共 URL,但只在一段時間內有效(例如,24 小時內)。對於我剛剛存儲在S3服務器上的影片,我將創建一個 48 小時內有效的 URL 。然後我將向選定的用戶提供該 URL,以便他們下載並觀看(假定他們在兩天內下載)。

處理帶有效期的文件

要創建一個針對S3對象的時間敏感型URL,您可以使用 JetS3t 的createSignedGetUrl 方法,這是一個 S3Service 類型的靜態方法。該方法采用一個存儲段名稱、一個對象鍵(在本例中是影片名,還記得嗎?)、一些憑證(以 JetS3t 的AWSCredentials 對象的形式)、截止日期。如果您了解所需的存儲段和對象鍵,則可以通過清單 6 中的 Groovy 代碼快速獲取 URL:

步驟 6. 創建一個時間敏感型URL

def now = new Date()

def url = S3Service.createSignedGetUrl(

bucket.getName(), s3obj.key, awsCredentials, now + 2)

使用 Groovy,我可以通過 + 2 語法輕松指定一個 48 小時的限定日期。得到的 URL 如下所示(只有一行):

https://bc50i.s3.amazonaws.com/nerfwars2.mp4?AWSAccessKeyId=1asd06A5MR2&Expires=1234738280&Signature=rZvk8Gkms=

如果您的帶寬和存儲需求不穩定,則S3能提供很多幫助。例如,想想我演示的業務模型 — 影片在一年中特定的時間發布。在傳統的存儲模型中,您需要在某處機架上購買許多空間(或提供通向它的硬件和管道),很可能下載量很大,但隨後會相對降低。但是,您不能根據需要付費。使用 S3,該模型將根據需要付費 — 公司僅在需要時為存儲和帶寬付費。更重要的是,S3的安全特性可以幫助您進一步指定人們何時可以下載視頻,甚至可以指定誰可以下載。

使用S3實現這些需求非常容易。在高水平上,創建一個受限的影片公共下載需要 4 個步驟:

1.登錄S3。

2.創建存儲段。

3.向存儲段添加所需的視頻(或對象)。

4.創建一個指向該視頻的時間敏感型 URL 。

就是這樣!

使用後記:便利的按需付費模式

與傳統存儲模型相比,S3的隨需付費模型有很多明顯的優勢。例如,在自己的硬盤上存儲音樂收藏,我必須預先花 130 美元購買一個 500GB 的存儲單元。我沒有500GB 的數據可以存儲,因此我為自己不需要的空間花費了 25 美分 /GB(雖然很便宜)。我還需要維護設備並支付電費。如果我使用 Amazon,我不需要預先為不重要的資產支付 130 美元。我只需要支付 10 美分 /GB,無需為管理和維護存儲硬件付費。

現在想想在整個企業范圍內實現這些服務的好處。以 Twitter 為例,在S3上為100 萬個用戶帳戶存儲圖片。通過按照使用付費的方式,Twitter 不需要花費大量資金購買硬件基礎設施來存儲和提供圖片服務,也不需要支出人力和部件成本來配置和維護圖片。

雲的好處還不止這些。您還可以實現低延遲和高可用性。假設存儲在Amazon雲中的資產遍布全世界,那麼為各個位置提供內容的速度將會更快。更重要的是,由於您的資產分布在各種機器上,您的數據在一些機器(或部分網絡)癱瘓時也能保持高可用性。

一言以蔽之,AmazonS3的好處很簡單:低成本、高可用性、安全。除非您是一個 SAN 專家,喜歡維護硬件資產來存儲數據內容,但是Amazon可能比您做的更好。在資金緊張的時候,為什麼還要將自己的資金提前預支在硬件上呢(不要忘了,硬件會隨時間貶值)?

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved