程式師世界 >> 編程語言 >> JAVA編程 >> JAVA綜合教程 >> Web系統大規模並發——電商秒殺與搶購，web電商秒搶購

Web系統大規模並發——電商秒殺與搶購，web電商秒搶購

編輯：JAVA綜合教程

Web系統大規模並發——電商秒殺與搶購，web電商秒搶購

電商的秒殺和搶購，對我們來說，都不是一個陌生的東西。然而，從技術的角度來說，這對於 Web系統是一個巨大的考驗。當一個Web系統，在一秒鐘內收到數以萬計甚至更多請求時，系統的優化和穩定至關重要。這次我們會關注秒殺和搶購的技術實現和優化，同時，從技術層面揭開，為什麼我們總是不容易搶到火車票的原因？

一、大規模並發帶來的挑戰

在過去的工作中，我曾經面對過5w每秒的高並發秒殺功能，在這個過程中，整個Web系統遇到了很多的問題和挑戰。如果Web系統不做針對性的優化，會輕而易舉地陷入到異常狀態。我們現在一起來討論下，優化的思路和方法哈。

1. 請求接口的合理設計

一個秒殺或者搶購頁面，通常分為2個部分，一個是靜態的HTML等內容，另一個就是參與秒殺的Web後台請求接口。

通常靜態HTML等內容，是通過CDN的部署，一般壓力不大，核心瓶頸實際上在後台請求接口上。這個後端接口，必須能夠支持高並發請求，同時，非常重要的一點，必須盡可能“快”，在最短的時間裡返回用戶的請求結果。為了實現盡可能快這一點，接口的後端存儲使用內存級別的操作會更好一點。仍然直接面向 MySQL之類的存儲是不合適的，如果有這種復雜業務的需求，都建議采用異步寫入。

當然，也有一些秒殺和搶購采用“滯後反饋”，就是說秒殺當下不知道結果，一段時間後才可以從頁面中看到用戶是否秒殺成功。但是，這種屬於“偷懶”行為，同時給用戶的體驗也不好，容易被用戶認為是“暗箱操作”。

2. 高並發的挑戰：一定要“快”

我們通常衡量一個Web系統的吞吐率的指標是QPS（Query Per Second，每秒處理請求數），解決每秒數萬次的高並發場景，這個指標非常關鍵。舉個例子，我們假設處理一個業務請求平均響應時間為100ms，同時，系統內有20台Apache的Web服務器，配置MaxClients為500個（表示Apache的最大連接數目）。

那麼，我們的Web系統的理論峰值QPS為（理想化的計算方式）：

20*500/0.1 = 100000 （10萬QPS）

咦？我們的系統似乎很強大，1秒鐘可以處理完10萬的請求，5w/s的秒殺似乎是“紙老虎”哈。實際情況，當然沒有這麼理想。在高並發的實際場景下，機器都處於高負載的狀態，在這個時候平均響應時間會被大大增加。

就Web服務器而言，Apache打開了越多的連接進程，CPU需要處理的上下文切換也越多，額外增加了CPU的消耗，然後就直接導致平均響應時間增加。因此上述的MaxClient數目，要根據CPU、內存等硬件因素綜合考慮，絕對不是越多越好。可以通過Apache自帶的abench來測試一下，取一個合適的值。然後，我們選擇內存操作級別的存儲的Redis，在高並發的狀態下，存儲的響應時間至關重要。網絡帶寬雖然也是一個因素，不過，這種請求數據包一般比較小，一般很少成為請求的瓶頸。負載均衡成為系統瓶頸的情況比較少，在這裡不做討論哈。

那麼問題來了，假設我們的系統，在5w/s的高並發狀態下，平均響應時間從100ms變為250ms（實際情況，甚至更多）：

20*500/0.25 = 40000 （4萬QPS）

於是，我們的系統剩下了4w的QPS，面對5w每秒的請求，中間相差了1w。

然後，這才是真正的惡夢開始。舉個例子，高速路口，1秒鐘來5部車，每秒通過5部車，高速路口運作正常。突然，這個路口1秒鐘只能通過4部車，車流量仍然依舊，結果必定出現大塞車。（5條車道忽然變成4條車道的感覺）

同理，某一個秒內，20*500個可用連接進程都在滿負荷工作中，卻仍然有1萬個新來請求，沒有連接進程可用，系統陷入到異常狀態也是預期之內。

其實在正常的非高並發的業務場景中，也有類似的情況出現，某個業務請求接口出現問題，響應時間極慢，將整個Web請求響應時間拉得很長，逐漸將Web服務器的可用連接數占滿，其他正常的業務請求，無連接進程可用。

更可怕的問題是，是用戶的行為特點，系統越是不可用，用戶的點擊越頻繁，惡性循環最終導致“雪崩”（其中一台Web機器掛了，導致流量分散到其他正常工作的機器上，再導致正常的機器也掛，然後惡性循環），將整個Web系統拖垮。

3. 重啟與過載保護

如果系統發生“雪崩”，貿然重啟服務，是無法解決問題的。最常見的現象是，啟動起來後，立刻掛掉。這個時候，最好在入口層將流量拒絕，然後再將重啟。如果是redis/memcache這種服務也掛了，重啟的時候需要注意“預熱”，並且很可能需要比較長的時間。

秒殺和搶購的場景，流量往往是超乎我們系統的准備和想象的。這個時候，過載保護是必要的。如果檢測到系統滿負載狀態，拒絕請求也是一種保護措施。在前端設置過濾是最簡單的方式，但是，這種做法是被用戶“千夫所指”的行為。更合適一點的是，將過載保護設置在CGI入口層，快速將客戶的直接請求返回。

二、作弊的手段：進攻與防守

秒殺和搶購收到了“海量”的請求，實際上裡面的水分是很大的。不少用戶，為了“搶“到商品，會使用“刷票工具”等類型的輔助工具，幫助他們發送盡可能多的請求到服務器。還有一部分高級用戶，制作強大的自動請求腳本。這種做法的理由也很簡單，就是在參與秒殺和搶購的請求中，自己的請求數目占比越多，成功的概率越高。

這些都是屬於“作弊的手段”，不過，有“進攻”就有“防守”，這是一場沒有硝煙的戰斗哈。

1. 同一個賬號，一次性發出多個請求

部分用戶通過浏覽器的插件或者其他工具，在秒殺開始的時間裡，以自己的賬號，一次發送上百甚至更多的請求。實際上，這樣的用戶破壞了秒殺和搶購的公平性。

這種請求在某些沒有做數據安全處理的系統裡，也可能造成另外一種破壞，導致某些判斷條件被繞過。例如一個簡單的領取邏輯，先判斷用戶是否有參與記錄，如果沒有則領取成功，最後寫入到參與記錄中。這是個非常簡單的邏輯，但是，在高並發的場景下，存在深深的漏洞。多個並發請求通過負載均衡服務器，分配到內網的多台Web服務器，它們首先向存儲發送查詢請求，然後，在某個請求成功寫入參與記錄的時間差內，其他的請求獲查詢到的結果都是“沒有參與記錄”。這裡，就存在邏輯判斷被繞過的風險。

應對方案：

在程序入口處，一個賬號只允許接受1個請求，其他請求過濾。不僅解決了同一個賬號，發送N個請求的問題，還保證了後續的邏輯流程的安全。實現方案，可以通過Redis這種內存緩存服務，寫入一個標志位（只允許1個請求寫成功，結合watch的樂觀鎖的特性），成功寫入的則可以繼續參加。

或者，自己實現一個服務，將同一個賬號的請求放入一個隊列中，處理完一個，再處理下一個。

2. 多個賬號，一次性發送多個請求

很多公司的賬號注冊功能，在發展早期幾乎是沒有限制的，很容易就可以注冊很多個賬號。因此，也導致了出現了一些特殊的工作室，通過編寫自動注冊腳本，積累了一大批“僵屍賬號”，數量龐大，幾萬甚至幾十萬的賬號不等，專門做各種刷的行為（這就是微博中的“僵屍粉“的來源）。舉個例子，例如微博中有轉發抽獎的活動，如果我們使用幾萬個“僵屍號”去混進去轉發，這樣就可以大大提升我們中獎的概率。

這種賬號，使用在秒殺和搶購裡，也是同一個道理。例如，iPhone官網的搶購，火車票黃牛黨。

應對方案：

這種場景，可以通過檢測指定機器IP請求頻率就可以解決，如果發現某個IP請求頻率很高，可以給它彈出一個驗證碼或者直接禁止它的請求：

3. 多個賬號，不同IP發送不同請求

所謂道高一尺，魔高一丈。有進攻，就會有防守，永不休止。這些“工作室”，發現你對單機IP請求頻率有控制之後，他們也針對這種場景，想出了他們的“新進攻方案”，就是不斷改變IP。

有同學會好奇，這些隨機IP服務怎麼來的。有一些是某些機構自己占據一批獨立IP，然後做成一個隨機代理IP的服務，有償提供給這些“工作室”使用。還有一些更為黑暗一點的，就是通過木馬黑掉普通用戶的電腦，這個木馬也不破壞用戶電腦的正常運作，只做一件事情，就是轉發IP包，普通用戶的電腦被變成了IP代理出口。通過這種做法，黑客就拿到了大量的獨立IP，然後搭建為隨機IP服務，就是為了掙錢。

應對方案：

說實話，這種場景下的請求，和真實用戶的行為，已經基本相同了，想做分辨很困難。再做進一步的限制很容易“誤傷“真實用戶，這個時候，通常只能通過設置業務門檻高來限制這種請求了，或者通過賬號行為的”數據挖掘“來提前清理掉它們。

僵屍賬號也還是有一些共同特征的，例如賬號很可能屬於同一個號碼段甚至是連號的，活躍度不高，等級低，資料不全等等。根據這些特點，適當設置參與門檻，例如限制參與秒殺的賬號等級。通過這些業務手段，也是可以過濾掉一些僵屍號。

4. 火車票的搶購

看到這裡，同學們是否明白你為什麼搶不到火車票？如果你只是老老實實地去搶票，真的很難。通過多賬號的方式，火車票的黃牛將很多車票的名額占據，部分強大的黃牛，在處理驗證碼方面，更是“技高一籌“。

高級的黃牛刷票時，在識別驗證碼的時候使用真實的人，中間搭建一個展示驗證碼圖片的中轉軟件服務，真人浏覽圖片並填寫下真實驗證碼，返回給中轉軟件。對於這種方式，驗證碼的保護限制作用被廢除了，目前也沒有很好的解決方案。

因為火車票是根據身份證實名制的，這裡還有一個火車票的轉讓操作方式。大致的操作方式，是先用買家的身份證開啟一個搶票工具，持續發送請求，黃牛賬號選擇退票，然後黃牛買家成功通過自己的身份證購票成功。當一列車廂沒有票了的時候，是沒有很多人盯著看的，況且黃牛們的搶票工具也很強大，即使讓我們看見有退票，我們也不一定能搶得過他們哈。

最終，黃牛順利將火車票轉移到買家的身份證下。

解決方案：

並沒有很好的解決方案，唯一可以動心思的也許是對賬號數據進行“數據挖掘”，這些黃牛賬號也是有一些共同特征的，例如經常搶票和退票，節假日異常活躍等等。將它們分析出來，再做進一步處理和甄別。

三、高並發下的數據安全

我們知道在多線程寫入同一個文件的時候，會存現“線程安全”的問題（多個線程同時運行同一段代碼，如果每次運行結果和單線程運行的結果是一樣的，結果和預期相同，就是線程安全的）。如果是MySQL數據庫，可以使用它自帶的鎖機制很好的解決問題，但是，在大規模並發的場景中，是不推薦使用MySQL 的。秒殺和搶購的場景中，還有另外一個問題，就是“超發”，如果在這方面控制不慎，會產生發送過多的情況。我們也曾經聽說過，某些電商搞搶購活動，買家成功拍下後，商家卻不承認訂單有效，拒絕發貨。這裡的問題，也許並不一定是商家奸詐，而是系統技術層面存在超發風險導致的。

1. 超發的原因

假設某個搶購場景中，我們一共只有100個商品，在最後一刻，我們已經消耗了99個商品，僅剩最後一個。這個時候，系統發來多個並發請求，這批請求讀取到的商品余量都是99個，然後都通過了這一個余量判斷，最終導致超發。（同文章前面說的場景）

在上面的這個圖中，就導致了並發用戶B也“搶購成功”，多讓一個人獲得了商品。這種場景，在高並發的情況下非常容易出現。

2. 悲觀鎖思路

解決線程安全的思路很多，可以從“悲觀鎖”的方向開始討論。

悲觀鎖，也就是在修改數據的時候，采用鎖定狀態，排斥外部請求的修改。遇到加鎖的狀態，就必須等待。

雖然上述的方案的確解決了線程安全的問題，但是，別忘記，我們的場景是“高並發”。也就是說，會很多這樣的修改請求，每個請求都需要等待“鎖”，某些線程可能永遠都沒有機會搶到這個“鎖”，這種請求就會死在那裡。同時，這種請求會很多，瞬間增大系統的平均響應時間，結果是可用連接數被耗盡，系統陷入異常。

3. FIFO隊列思路

那好，那麼我們稍微修改一下上面的場景，我們直接將請求放入隊列中的，采用FIFO（First Input First Output，先進先出），這樣的話，我們就不會導致某些請求永遠獲取不到鎖。看到這裡，是不是有點強行將多線程變成單線程的感覺哈。

然後，我們現在解決了鎖的問題，全部請求采用“先進先出”的隊列方式來處理。那麼新的問題來了，高並發的場景下，因為請求很多，很可能一瞬間將隊列內存“撐爆”，然後系統又陷入到了異常狀態。或者設計一個極大的內存隊列，也是一種方案，但是，系統處理完一個隊列內請求的速度根本無法和瘋狂湧入隊列中的數目相比。也就是說，隊列內的請求會越積累越多，最終Web系統平均響應時候還是會大幅下降，系統還是陷入異常。

4. 樂觀鎖思路

這個時候，我們就可以討論一下“樂觀鎖”的思路了。樂觀鎖，是相對於“悲觀鎖”采用更為寬松的加鎖機制，大都是采用帶版本號（Version）更新。實現就是，這個數據所有請求都有資格去修改，但會獲得一個該數據的版本號，只有版本號符合的才能更新成功，其他的返回搶購失敗。這樣的話，我們就不需要考慮隊列的問題，不過，它會增大CPU的計算開銷。但是，綜合來說，這是一個比較好的解決方案。