Kafka 副本間如何實現數據同步?

閱讀:518 2023-11-16 20:16:37

哈嘍大家好,我是咸魚

 

最近這段時間比較忙,將近一周沒更新文章,再不更新我那為數不多的粉絲量就要庫庫往下掉了 T﹏T

 

剛好最近在學 Kafka,于是決定寫篇跟 Kafka 相關的文章(文中有不對的地方歡迎大家指出)

 

考慮到有些小伙伴可能是第一次接觸 Kafka ,所以先簡單介紹一下什么是 Kafka 吧!

 

Kafka 介紹

 

Kafka 是一個高吞吐的分布式消息系統,不但像傳統消息隊列(RaabitMQ、RocketMQ等)那樣能夠【異步處理、流量消峰、服務解耦】

圖片圖片

還能夠把消息持久化到磁盤上,用于批量消費。除此之外由于 Kafka 被設計成分布式系統,吞吐量和可用性大大提高

?

Kafka 角色

  • kafka 客戶端
  •  

生產者(producer):也叫發布者,負責創建消息

消費者(consumer):也叫訂閱者,負責消費(讀取)消息

  • Kafka 服務端(broker)

  • leader:對外提供讀寫服務

  • follower:不提供服務,負責向 leader 同步數據

 

Topic(主題)和 partition(分區)

topic 就是消息發布的地方,消費者通過訂閱 topic 來消費到對應的消息

 

為了提高吞吐量,實現 topic 的負載均衡,Kafka 在 topic 下又引用了分區(partition)的概念,每個 topic 可以被劃分成多個分區

 

分區允許消息在 Topic 下水平分割和存儲,每個分區都是一個有序且不可變的消息隊列,消費者可以以并行的方式消費同一個 topic 中的消息

 

PS:topic 是邏輯上的概念,消息真正是存儲到 partition 中去的

圖片圖片

 

例如某個 topic 下被劃分成 n 個分區,那么這個 topic 的并發度就提高 n,同時可以支持 n 個 consumer 并行消費該 topic 中的消息

 

log(日志)

對于每一個 topic ,Kafka 都會維護一個分區日志

圖片圖片

 

每個分區都是一個有序的、不可變的消息隊列,且可以持續地添加消息。消息在分區中分配了唯一的序列號,被稱為偏移量(Offset)

 

offset 用來唯一的標識分區中每一條記錄

 

Kafka 會保留所有分區中的消息,不會自動刪除消息。消息的保留策略由 Kafka 配置參數控制,消息可以在一定時間或達到一定大小后過期,過期的消息會被刪除

 

消費者在 Kafka 中只保留自己的 Offset,用于標識它在分區中的位置。通常情況下,當 消費者消費消息時,它的 Offset 會線性增加,表示它已經消費了這些消息

 

消費者可以選擇將 Offset 重置為更舊的值,從而重新開始讀取消息

 

每個消費者實例唯一負責一個分區,Kafka 只保證分區內的記錄是有序的,而不保證主題中不同分區的順序

 

Kafka 集群

 

Kafka 是分布式架構,有集群(cluster)的概念

 

Kafka 中的一個實例被稱為 broker,它接收生產者的消息并存入磁盤,消費者連接 broker 消費消息

 

多個 broker 組成一個 Kafka cluster,集群內某個 broker 會成為集群控制器(cluster controller),負責管理整個 Kafka 集群,包括分配分區給 broker,監控 broker 等

 

分區被復制成了多個副本(replica)然后均分在不同的 broker 上 ,其中一個副本 Leader,其他的是 Follower

 

創建副本的單位是 topic 的 分區

 

正常情況下,每個分區都有一個 leader 和零或多個 followers 。這樣即使某個 broker 發生故障,其他 broker上的副本仍然可以繼續提供服務

圖片圖片

 

那如何將所有的副本均勻分布在不同 broker 上呢?

分配副本的算法如下:

  • 將所有 broker(假設共 n 個 broker)和待分配的分區排序
  • 將第 i 個分區分配到第(i mod n)個 broker上
  • 將第 i  個分區的第 j 個副本分配到第((i + j) mode n)個 broker 上

 

Kafka 如何實現數據同步

 

我們先來看下 Kafka 中的 ISR(In-Sync Replicas) 機制

 

既然每個 leader 下面都有至少一個 follower,于是便有了 ISR,ISR 就是 Kafka 動態維護的一組同步副本集合

 

ISR 中所有的 follower 都與 leader 保持同步狀態,而且 leader 也在 ISR 列表中,只有在自己 ISR 列表中的副本才能參與 leader 競選

 

當生產者寫入數據時,leader 更新數據,follower 是怎么知道 leader 更新然后去同步數據的呢?

follower 會通過定期向 leader  發送 fetch 請求來實現數據同步,這個是由 fetcher 線程來負責的

 

當一個副本被選舉成為 follower 后,會啟動副本的 fetcher 線程,隨后 Follower 會定期向 Leader 發送心跳請求,以保持連接,并發送 fetch 請求來獲取最新的數據。

 

如果 follower 發現自己的 LEO(Log End Offset,日志結束偏移量)與 Leader 的 LEO 有差距時,會觸發同步數據請求,以便將自身日志同步至 Leader 的對應位置,確保與 Leader 的數據保持一致

 

如果一個 follower 在指定時間內(配置字段為 replica.lag.time.max.ms)沒有發送 fecth 請求或者沒有追上 leader 的 LEO,就會從 ISR 中移除

 

最后總結一下:

  • Kafka 中的 topic 是邏輯概念,每個 topic 可以被劃分為多個分區,而分區才是存儲消息的實體
  • 每一個分區會被復制成多個副本,然后選取其中一個副本當作 leader,剩下的則是 follower
  • follower 會定期去向 leader 發送 fetch 請求來保證數據的同步
  • leader 不會關心 follower 的數據是不是同步好了的,只要你在指定時間內沒有找我來 fetch ,我就把你從 ISR 中剔除出去(事實證明主動點也并非壞事)
相關文章
{{ v.title }}
{{ v.description||(cleanHtml(v.content)).substr(0,100)+'···' }}
你可能感興趣
推薦閱讀 更多>
推薦商標

{{ v.name }}

{{ v.cls }}類

立即購買 聯系客服
主站蜘蛛池模板: 国产精品无码MV在线观看| 亚洲AV无码精品无码麻豆| 无码成A毛片免费| 久久人妻av无码中文专区| 无码av免费毛片一区二区| 岛国av无码免费无禁网站| 国产亚洲精品无码专区| 无码午夜人妻一区二区不卡视频| 亚洲自偷自偷偷色无码中文| 无码专区人妻系列日韩精品少妇| 国产亚洲精久久久久久无码77777| 亚洲色无码国产精品网站可下载| 中文字幕无码日韩专区免费| 内射中出无码护士在线| 中文无码热在线视频| 亚洲AV人无码综合在线观看| 无码国模国产在线无码精品国产自在久国产| 久久久久久AV无码免费网站下载| 韩国免费a级作爱片无码| 韩国无码AV片在线观看网站| 亚洲av极品无码专区在线观看| 国产成人无码18禁午夜福利p| 国产午夜无码福利在线看网站| 亚洲Av永久无码精品黑人| 日韩精品中文字幕无码一区| 亚洲AV无码乱码国产麻豆穿越| 熟妇人妻中文av无码| 国产福利电影一区二区三区久久老子无码午夜伦不| 精品无码国产污污污免费网站| 国产午夜无码精品免费看| 亚洲av无码精品网站| 亚洲AV无码专区在线播放中文 | 蜜臀AV无码精品人妻色欲| 日韩精品无码一区二区三区不卡 | 亚洲精品无码久久久久A片苍井空 亚洲精品无码久久久久YW | 自慰系列无码专区| 无码专区国产精品视频| 国产成人无码网站| 超清无码无卡中文字幕| 国产午夜精品无码| av无码久久久久不卡免费网站|