Hazelcast集群分裂問題與JVM GC優化全攻略

zero comment

Ai Finance Tech

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

深入分析SeaTunnel叢集「腦裂」問題：Hazelcast配置與JVM GC優化全紀錄

叢集配置一覽

| 項目 | 說明 |
|————–|—————————|
| 數量 | 3台伺服器 |
| 規格 | 阿里雲 ECS 16核64GB |
| Slot模式 | 靜態50個slot |
| ST記憶體配置 | -Xms32g -Xmx32g -XX:MaxMetaspaceSize=8g |

異常問題回顧

自四月起，SeaTunnel叢集三次出現「腦裂」現象，均涉及某節點進入腦裂或自動關機。

核心日誌如下：

主節點狀況

Hazelcast監控線程輸出**Slow Operation**日誌。

主節點慢操作日誌

60秒Hazelcast心跳逾時後，發現198節點**離開叢集**。

節點離開叢集日誌

198工作節點狀況

發現已無法從Hazelcast叢集其他節點獲得心跳，逾時超過60000ms。

心跳逾時日誌

**嘗試重新連接叢集**

嘗試重連

此後，任何對該節點的請求（如狀態查詢、任務提交）都會卡死，無回應。

請求卡死

此時整個叢集進入死鎖，所有健康檢查接口失效。**服務於早高峰時段宕機**，觀察到腦裂後，緊急重啟叢集。

死鎖示意圖

調參後，甚至出現**節點自動關機**的新問題。

自動關機日誌
自動關機詳情

問題分析

Hazelcast叢集網絡建立失敗，疑因以下原因：

– 叢集ECS主機NTP時間不同步
– 叢集ECS主機出現網絡抖動
– SeaTunnel出現FULL GC，JVM停頓導致網絡建立失敗

前兩項經運維同事確認，**網絡無異常**，阿里雲NTP服務正常，三台伺服器時鐘同步。

第三項，異常前198節點最後一條Hazelcast健康檢查日誌，`cluster time`為-100毫秒，影響有限。

cluster time 日誌

後續啟動加上JVM GC日誌參數，觀察到最嚴重時FULL GC長達27秒。三台節點互ping，極易導致Hazelcast超過60秒心跳逾時。

進一步發現，當同步14億行ClickHouse表時，運行一段時間後極易出現FULL GC異常。

FULL GC異常日誌

解決方案

提升ST叢集心跳逾時設置

Hazelcast叢集故障檢測器負責判斷成員是否失聯或崩潰。根據FLP理論，非同步系統無法區分節點是崩潰還是單純變慢，因此採用**不可靠故障檢測器**。

Hazelcast內建兩種故障檢測器：`Deadline Failure Detector` 及 `Phi Accrual Failure Detector`。預設為Deadline模式，亦可啟用Ping故障檢測（預設關閉）。

**Deadline Failure Detector** 以絕對逾時判斷節點失聯，參數如下：

hazelcast:
properties:
hazelcast.heartbeat.failuredetector.type: deadline
hazelcast.heartbeat.interval.seconds: 5
hazelcast.max.no.heartbeat.seconds: 120

**Phi-accrual Failure Detector** 根據心跳間隔動態調整判斷門檻，參數如下：

hazelcast:
properties:
hazelcast.heartbeat.failuredetector.type: phi-accrual
hazelcast.heartbeat.interval.seconds: 1
hazelcast.max.no.heartbeat.seconds: 60
hazelcast.heartbeat.phiaccrual.failuredetector.threshold: 10
hazelcast.heartbeat.phiaccrual.failuredetector.sample.size: 200
hazelcast.heartbeat.phiaccrual.failuredetector.min.std.dev.millis: 100

為提升準確性，根據社群建議，將`hazelcast.yml`設為phi-accrual，並將逾時調至180秒：

hazelcast:
properties:
hazelcast.heartbeat.failuredetector.type: phi-accrual
hazelcast.heartbeat.interval.seconds: 1
hazelcast.max.no.heartbeat.seconds: 180
hazelcast.heartbeat.phiaccrual.failuredetector.threshold: 10
hazelcast.heartbeat.phiaccrual.failuredetector.sample.size: 200
hazelcast.heartbeat.phiaccrual.failuredetector.min.std.dev.millis: 100

GC配置優化

SeaTunnel預設採用G1 GC，記憶體越大，YoungGC/MixedGC回收效果越難理想，容易觸發FULL GC（Java 8 FULL GC為單執行緒，極慢）。

多節點同時FULL GC，極易導致叢集網絡異常。目標是讓YoungGC/MixedGC多用多執行緒回收，盡量避免FULL GC。

**未優化前參數：**

-Xms32g
-Xmx32g
-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=/tmp/seatunnel/dump/zeta-server
-XX:MaxMetaspaceSize=8g
-XX:+UseG1GC
-XX:+PrintGCDetails
-Xloggc:/alidata1/za-seatunnel/logs/gc.log
-XX:+PrintGCDateStamps

嘗試提高GC停頓目標：

-XX:MaxGCPauseMillis=5000

MixedGC會根據此參數及歷史GC時長，分多次STW回收，減少單次停頓。

**第一次優化後參數：**

-Xms32g
-Xmx32g
…（同上）…
-XX:MaxGCPauseMillis=5000

Mixed GC日誌及停頓時間均在預期範圍，但FULL GC仍每次約20秒，僅有輕微改善。觀察發現MixedGC時old區未能有效清理，殘留大量資料。

Old區殘留

**第二次優化參數：**

-Xms42g
-Xmx42g
-XX:GCTimeRatio=4
-XX:G1ReservePercent=15
-XX:G1HeapRegionSize=32M

記憶體提升至42G，GC執行緒CPU比重提升、預留空間加大，Heap Region Size設32MB，優化大物件回收。

**第二次優化後參數：**

-Xms42g
-Xmx42g
…（同上）…
-XX:GCTimeRatio=4
-XX:G1ReservePercent=15
-XX:G1HeapRegionSize=32M

Full GC次數明顯減少，但仍未達零FULL GC理想。

進一步發現parallel intersection階段耗時多且經常abort。

parallel intersection耗時

**第三次優化參數：**

-XX:ConcGCThreads=12
-XX:InitiatingHeapOccupancyPercent=50

並行GC執行緒由4提升至12，old區並行標記門檻由45%提升至50%，提前觸發標記，提升MixedGC效率。

**最終優化參數：**

-Xms42g
-Xmx42g
…（同上）…
-XX:InitiatingHeapOccupancyPercent=50
-XX:+UseStringDeduplication
-XX:ConcGCThreads=12

優化成效

自4月26日優化後，**未再出現腦裂**，服務監控一切正常。4月30日JVM調優後，五一期間三節點**零FULL GC**，健康檢查無異常。

雖然犧牲部分應用執行緒吞吐，但叢集穩定性大幅提升，為Zeta大規模內部推廣打下基礎。

優化後監控1
優化後監控2
優化後監控3

編輯評論：技術調優的本質與「腦裂」啟示

這篇案例充分展現了現代分布式系統中，基礎設施穩定性與參數調優的複雜性。SeaTunnel叢集「腦裂」問題並非單一技術bug，而是多個層面（網絡、時鐘同步、JVM GC、Hazelcast心跳機制）交互作用的結果。作者逐步排查，證明了**系統性思維**的重要性——不是一味加大記憶體、加強網絡就能解決，反而要精細理解每一環節的行為。

尤其值得關注的是Hazelcast的故障檢測設計。FLP理論告訴我們，在異步分布式系統無法區分「慢」與「死」——這種不確定性正是分布式工程師的夢魘。phi-accrual檢測能根據現場實際變動自適應，這種「容錯而不過於敏感」的設計哲學，對於香港金融、物流等高可用場景有極大啟發。

GC調優部分，作者並未單靠硬件堆疊，而是通過多次實驗、細緻調整G1參數，最終找到適合自己業務負載的平衡點。這種「以業務場景為核心」的調優路線，正是本地IT界應該學習的地方——不是一味追求零GC停頓，而是在吞吐、延遲、可維護性之間找到最佳trade-off。

最後，這個案例提醒我們：**分布式系統的穩定運營，離不開對底層細節的深刻理解和持續優化**。在雲端架構日益普及的香港，這種技術細節和工程實踐的積累，才是企業數碼轉型的真正護城河。

#hazelcast #jvmgarbagecollection #seatunnel alibaba alicloud

Hazelcast集群分裂問題與JVM GC優化全攻略

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

chatgpt

✈️ Trip.com「內地快閃」機票＋酒店半價！

Hazelcast集群分裂問題與JVM GC優化全攻略

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年！

chatgpt

Related Articles

南韓攜手美國造船 對抗中國急起直追

台積電熊本廠延期至2029年投產

中國AI芯片維修熱潮：禁售Nvidia GPU悄然回歸

✈️ Trip.com「內地快閃」機票＋酒店半價！

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

南韓攜手美國造船對抗中國急起直追