六月婷婷综合激情-六月婷婷综合-六月婷婷在线观看-六月婷婷在线-亚洲黄色在线网站-亚洲黄色在线观看网站

明輝手游網(wǎng)中心：是一個免費提供流行視頻軟件教程、在線學習分享的學習平臺！

文章發(fā)布全站軟件文章熱門搜索：片尾跳過旋轉(zhuǎn) MP4 歌曲片頭資訊首頁騰訊視頻愛奇藝暴風影音酷狗音樂酷我音樂影音大全軟件下載軟件教程電腦系統(tǒng)下載聊天工具辦公軟件殺毒教程系統(tǒng)工具圖形圖像電腦學習應用軟件網(wǎng)絡軟件蘋果應用注冊碼網(wǎng)站教程技術開發(fā)安卓教程其它教程您當前所在位置：網(wǎng)視手游站 -> 應用軟件 -> RocksDB上鎖機制的案例詳細說明
RocksDB上鎖機制的案例詳細說明發(fā)表時間：2023-08-26 來源：明輝站整理相關軟件相關文章人氣： [摘要]RocksDB作為一個開源的存儲引擎支持事務的ACID特性，而要支持ACID中的I(Isolation),并發(fā)控制這塊是少不了的，本文主要討論RocksDB的鎖機制實現(xiàn)，細節(jié)會涉及到源碼分析，希望通過本文讀者可以深入了解RocksDB并發(fā)控制原理。文章主要從以下4方面展開，首先會介紹RocksDB... RocksDB作為一個開源的存儲引擎支持事務的ACID特性，而要支持ACID中的I(Isolation),并發(fā)控制這塊是少不了的，本文主要討論RocksDB的鎖機制實現(xiàn)，細節(jié)會涉及到源碼分析，希望通過本文讀者可以深入了解RocksDB并發(fā)控制原理。文章主要從以下4方面展開，首先會介紹RocksDB鎖的基本結構，然后我會介紹RocksDB行鎖數(shù)據(jù)結構設計下，鎖空間開銷，接著我會介紹幾種典型場景的上鎖流程，最后會介紹鎖機制中必不可少的死鎖檢測機制。 1.行鎖數(shù)據(jù)結構 RocksDB鎖粒度最小是行，對于KV存儲而言，鎖對象就是key，每一個key對應一個LockInfo結構。所有key通過hash表管理，查找鎖時，直接通過hash表定位即可確定這個key是否已經(jīng)被上鎖。但如果全局只有一個hash表，會導致這個訪問這個hash表的沖突很多，影響并發(fā)性能。RocksDB首先按Columnfamily進行拆分，每個Columnfamily中的鎖通過一個LockMap管理，而每個LockMap再拆分成若干個分片，每個分片通過LockMapStripe管理，而hash表(std::unordered_map<std::string, LockInfo>)則存在于Stripe結構中，Stripe結構中還包含一個mutex和condition_variable，這個主要作用是，互斥訪問hash表，當出現(xiàn)鎖沖突時，將線程掛起，解鎖后，喚醒掛起的線程。這種設計很簡單但也帶來一個顯而易見的問題，就是多個不相關的鎖公用一個condition_variable，導致鎖釋放時，不必要的喚醒一批線程，而這些線程重試后，發(fā)現(xiàn)仍然需要等待，造成了無效的上下文切換。對比我們之前討論的InnoDB鎖機制，我們發(fā)現(xiàn)InnoDB是一個page里面的記錄復用一把鎖，而且復用是有條件的，同一個事務對一個page的若干條記錄加鎖才能復用；而且鎖等待隊列是精確等待，精確到記錄級別，不會導致的無效的喚醒。雖然RocksDB鎖設計比較粗糙，但也做了一定的優(yōu)化，比如在管理LockMaps時，通過在每個線程本地緩存一份拷貝lock_maps_cache_，通過全局鏈表將每個線程的cache鏈起來，當LockMaps變更時(刪除columnfamily)，則全局將每個線程的copy清空，由于columnfamily改動很少，所以大部分訪問LockMaps操作都是不需要加鎖的，提高了并發(fā)效率。相關數(shù)據(jù)結構如下： struct LockInfo { bool exclusive; //排它鎖或是共享鎖 autovector<TransactionID> txn_ids; //事務列表，對于共享鎖而言，同一個key可以對應多個事務 // Transaction locks are not valid after this time in us uint64_t expiration_time; } struct LockMapStripe { // Mutex must be held before modifying keys map std::shared_ptr<TransactionDBMutex> stripe_mutex; // Condition Variable per stripe for waiting on a lock std::shared_ptr<TransactionDBCondVar> stripe_cv; // Locked keys mapped to the info about the transactions that locked them. std::unordered_map<std::string, LockInfo> keys; } struct LockMap { const size_t num_stripes_; //分片個數(shù) std::atomic<int64_t> lock_cnt{0}; //鎖數(shù)目 std::vector<LockMapStripe> lock_map_stripes_; //鎖分片 } class TransactionLockMgr { using LockMaps = std::unordered_map<uint32_t, std::shared_ptr<LockMap>>; LockMaps lock_maps_; // Thread-local cache of entries in lock_maps_. This is an optimization // to avoid acquiring a mutex in order to look up a LockMap std::unique_ptr<ThreadLocalPtr> lock_maps_cache_; } 2.行鎖空間代價由于鎖信息是常駐內(nèi)存，我們簡單分析下RocksDB鎖占用的內(nèi)存。每個鎖實際上是unordered_map中的一個元素，則鎖占用的內(nèi)存為key_length+8+8+1，假設key為bigint，占8個字節(jié)，則100w行記錄，需要消耗大約22M內(nèi)存。但是由于內(nèi)存與key_length正相關，導致RocksDB的內(nèi)存消耗不可控。我們可以簡單算算RocksDB作為MySQL存儲引擎時，key_length的范圍。對于單列索引，最大值為2048個字節(jié)，具體可以參考max_supported_key_part_length實現(xiàn)；對于復合索引，索引最大長度為3072個字節(jié)，具體可以參考max_supported_key_length實現(xiàn)。假設最壞的情況，key_length=3072，則100w行記錄，需要消耗3G內(nèi)存，如果是鎖1億行記錄，則需要消耗300G內(nèi)存，這種情況下內(nèi)存會有撐爆的風險。因此RocksDB提供參數(shù)配置max_row_locks，確保內(nèi)存可控，默認RDB_MAX_ROW_LOCKS設置為1G，對于大部分key為bigint場景，極端情況下，也需要消耗22G內(nèi)存。而在這方面，InnoDB則比較友好，hash表的key是(space_id, page_no)，所以無論key有多大，key部分的內(nèi)存消耗都是恒定的。前面我也提到了InnoDB在一個事務需要鎖大量記錄場景下是有優(yōu)化的，多個記錄可以公用一把鎖，這樣也間接可以減少內(nèi)存。 3.上鎖流程分析前面簡單了解了RocksDB鎖數(shù)據(jù)結構的設計以及鎖對內(nèi)存資源的消耗。這節(jié)主要介紹幾種典型場景下，RocksDB是如何加鎖的。與InnoDB一樣，RocksDB也支持MVCC，讀不上鎖，為了方便，下面的討論基于RocksDB作為MySQL的一個引擎來展開，主要包括三類，基于主鍵的更新，基于二級索引的更新，基于主鍵的范圍更新等。在展開討論之前，有一點需要說明的是，RocksDB與InnoDB不同，RocksDB的更新也是基于快照的，而InnoDB的更新基于當前讀，這種差異也使得在實際應用中，相同隔離級別下，表現(xiàn)有所不一樣。對于RocksDB而言，在RC隔離級別下，每個語句開始都會重新獲取一次快照；在RR隔離級別下，整個事務中只在第一個語句開始時獲取一次快照，所有語句共用這個快照，直到事務結束。 3.1.基于主鍵的更新這里主要接口是TransactionBaseImpl::GetForUpdate 1).嘗試對key加鎖，如果鎖被其它事務持有，則需要等待 2).創(chuàng)建snapshot 3).調(diào)用ValidateSnapshot，Get key,通過比較Sequence判斷key是否被更新過 4).由于是加鎖后，再獲取snapshot，所以檢查一定成功。 5).執(zhí)行更新操作這里有一個延遲獲取快照的機制，實際上在語句開始時，需要調(diào)用acquire_snapshot獲取快照，但為了避免沖突導致的重試，在對key加鎖后，再獲取snapshot，這就保證了在基于主鍵更新的場景下，不會存在ValidateSnapshot失敗的場景。堆棧如下： 1-myrocks::ha_rocksdb::get_row_by_rowid 2-myrocks::ha_rocksdb::get_for_update 3-myrocks::Rdb_transaction_impl::get_for_update 4-rocksdb::TransactionBaseImpl::GetForUpdate { //加鎖 5-rocksdb::TransactionImpl::TryLock 6-rocksdb::TransactionDBImpl::TryLock 7-rocksdb::TransactionLockMgr::TryLock //延遲獲取快照，與acquire_snapshot配合使用 6-SetSnapshotIfNeeded() //檢查key對應快照是否過期 6-ValidateSnapshot 7-rocksdb::TransactionUtil::CheckKeyForConflict 8-rocksdb::TransactionUtil::CheckKey 9-rocksdb::DBImpl::GetLatestSequenceForKey //第一次讀取 //讀取key 5-rocksdb::TransactionBaseImpl::Get 6-rocksdb::WriteBatchWithIndex::GetFromBatchAndDB 7-rocksdb::DB::Get 8-rocksdb::DBImpl::Get 9-rocksdb::DBImpl::GetImpl //第二次讀取 } 3.2.基于主鍵的范圍更新 1).創(chuàng)建Snapshot，基于迭代器掃描主鍵 2).通過get_row_by_rowid，嘗試對key加鎖 3).調(diào)用ValidateSnapshot，Get key,通過比較Sequence判斷key是否被更新過 4).如果key被其它事務更新過(key對應的SequenceNumber比Snapshot要新)，觸發(fā)重試 5).重試情況下，會釋放老的快照并釋放鎖，通過tx->acquire_snapshot(false)，延遲獲取快照(加鎖后，再拿snapshot) 5).再次調(diào)用get_for_update，由于此時key已經(jīng)被加鎖，重試一定可以成功。 6).執(zhí)行更新操作 7).跳轉(zhuǎn)到1，繼續(xù)執(zhí)行，直到主鍵不符合條件時，則結束。 3.3.基于二級索引的更新這種場景與3.2類似，只不過多一步從二級索引定位主鍵過程。 1).創(chuàng)建Snapshot，基于迭代器掃描二級索引 2).根據(jù)二級索引反向找到主鍵，實際上也是調(diào)用get_row_by_rowid，這個過程就會嘗試對key加鎖 3).繼續(xù)根據(jù)二級索引遍歷下一個主鍵，嘗試加鎖 4).當返回的二級索引不符合條件時，則結束 3.4 與InnoDB加鎖的區(qū)別前面我們說到了RocksDB與InnoDB的一點區(qū)別是，對于更新場景，RocksDB仍然是快照讀，而InnoDB是當前讀，導致行為上的差異。比如在RC隔離級別下的范圍更新場景，比如一個事務要更新1000條記錄，由于是邊掃描邊加鎖，可能在掃描到第999條記錄時，發(fā)現(xiàn)這個key的Sequence大于掃描的快照(這個key被其它事務更新了)，這個時候會觸發(fā)重新獲取快照，然后基于這個快照拿到最新的key值。InnoDB則沒有這個問題，通過當前讀，掃描過程中，如果第999條記錄被更新了，InnoDB可以直接看到最新的記錄。這種情況下，RocksDB和InnoDB看到的結果是一樣的。在另外一種情況下，假設也是掃描的范圍中，新插入了key，這key的Sequence毫無疑問會比掃描的Snapshot要大，因此在Scan過程中這個key會被過濾掉，也就不存在所謂的沖突檢測了，這個key不會被找到。更新過程中，插入了id為1和900的兩條記錄，最后第900條記錄由于不可見，所以更新不到。而對于InnoDB而言，由于是當前讀，新插入的id為900的記錄可以被看到并更新，所以這里是與InnoDB有區(qū)別的地方。除了更新基于快照這個區(qū)別以外，RocksDB在加鎖上也更簡潔，所有加鎖只涉及唯一索引，具體而言，在更新過程中，只對主鍵加鎖；更新列涉及唯一約束時，需要加鎖；而普通二級索引，則不用加鎖，這個目的是為了避免唯一約束沖突。這里面，如果更新了唯一約束(主鍵，或者唯一索引)，都需要加鎖。而InnoDB則是需要對每個索引加鎖，比如基于二級索引定位更新，則二級索引也需要加鎖。之所以有這個區(qū)別是，是因為InnoDB為了實現(xiàn)RR隔離級別。這里稍微講下隔離級別，實際上MySQL中定義的RR隔離級別與SQL標準定義的隔離級別有點不一樣。SQL標準定義RR隔離級別解決不可重復讀的問題，Serializable隔離級別解決幻讀問題。不可重復讀側重講同一條記錄值不會修改；而幻讀則側重講兩次讀返回的記錄條數(shù)是固定的，不會增加或減少記錄數(shù)目。MySQL定義RR隔離級別同時解決了不可重復讀和幻讀問題，而InnoDB中RR隔離級別的實現(xiàn)就是依賴于GAP鎖。而RocksDB不支持GAP鎖(僅僅支持唯一約束檢查，對不存在的key加鎖)，因為基于快照的機制可以有效過濾掉新插入的記錄，而InnoDB由于當前讀，導致需要通過間隙鎖禁止其它插入，所以二級索引也需要加鎖，主要是為了鎖間隙，否則兩次當前讀的結果可能不一樣。當然，對RC割裂級別，InnoDB普通二級索引也是沒有必要加鎖的。 4.死鎖檢測算法死鎖檢測采用DFS((Depth First Search,深度優(yōu)先算法)，基本思路根據(jù)加入等待關系，繼續(xù)查找被等待者的等待關系，如果發(fā)現(xiàn)成環(huán)，則認為發(fā)生了死鎖，當然在大并發(fā)系統(tǒng)下，鎖等待關系非常復雜，為了將死鎖檢測帶來的資源消耗控制在一定范圍，可以通過設置deadlock_detect_depth來控制死鎖檢測搜索的深度，或者在特定業(yè)務場景下，認為一定不會發(fā)生死鎖，則關閉死鎖檢測，這樣在一定程度上有利于系統(tǒng)并發(fā)的提升。需要說明的是，如果關閉死鎖，最好配套將鎖等待超時時間設置較小，避免系統(tǒng)真發(fā)生死鎖時，事務長時間hang住。死鎖檢測基本流程如下： 1.定位到具體某個分片，獲取mutex 2.調(diào)用AcquireLocked嘗試加鎖 3.若上鎖失敗，則觸發(fā)進行死鎖檢測 4.調(diào)用IncrementWaiters增加一個等待者 5.如果等待者不在被等待者map里面，則肯定不會存在死鎖，返回 6.對于被等待者，沿著wait_txn_map_向下檢查等待關系，看看是否成環(huán) 7.若發(fā)現(xiàn)成環(huán)，則將調(diào)用DecrementWaitersImpl將新加入的等待關系解除，并報死鎖錯誤。相關的數(shù)據(jù)結構： class TransactionLockMgr { // Must be held when modifying wait_txn_map_ and rev_wait_txn_map_. std::mutex wait_txn_map_mutex_; // Maps from waitee -> number of waiters. HashMap<TransactionID, int> rev_wait_txn_map_; // Maps from waiter -> waitee. HashMap<TransactionID, autovector<TransactionID>> wait_txn_map_; DecrementWaiters // IncrementWaiters // } struct TransactionOptions { bool deadlock_detect = false; //是否檢測死鎖 int64_t deadlock_detect_depth = 50; //死鎖檢測的深度 int64_t lock_timeout = -1; //等待鎖時間，線上一般設置為5s int64_t expiration = -1; //持有鎖時間， } 以上就是RocksDB上鎖機制的實例詳解的詳細內(nèi)容，更多請關注php中文網(wǎng)其它相關文章！微信分享學習教程快速掌握從入門到精通的SQL知識。標簽：RocksDB上鎖機制的案例詳細說明* 上一篇：mysql中對表的設置圖文說明教程下一篇：原生JDBC是如何使用的？	推薦資訊總人氣榜 1PS提示：因為圖層已鎖定，無法編輯圖層的處理方法 2picacg蘋果版怎么找不到\|picacg ios版是不是下架了介紹 3Adobe Illustrator CS5 序列號大全 4ACDsee注冊碼免費分享（含ACDsee18、ACDsee10等版本） 5Potato(土豆聊天)怎么換頭像\|Potato app更改頭像方法介紹 6PDF瀏覽器能看3D文件嗎？PDF瀏覽器看3D文件圖文詳細教程 7Potato(馬鈴薯聊天)怎么注冊不了\|Potato不能注冊處理方法介紹 8最新的Adobe Illustrator CS4序列號大全 9Intel i7-9700K性能跑分曝光：同代提升約12% 10qq郵件是否已讀怎么看 QQ郵箱已經(jīng)發(fā)出去的郵件怎么知道對方是否已經(jīng)查看 11AMD推土機架構回顧：雖隕落卻是Zen成功的墊腳石 12XP系統(tǒng)怎么清除緩存？ 1Redis的事務設置的命令與執(zhí)行設置（代碼） 2防范SQL注入的5種完成方式 3mysql的加密方法 4一個小時學會MySQL數(shù)據(jù)庫圖文詳細教程分享 5詳細說明MySQL完成主從復制過程_Mysql案例詳細說明 6對于mysql exists與not exists區(qū)分 7本文教你SQL：7從子表里刪除數(shù)據(jù) 8存儲過程基礎與提高 9SQL Server 2005探密 10教你在SQL Server 2000數(shù)據(jù)庫中使用分區(qū) 11查看mysql數(shù)據(jù)庫大小、表大小與最后更改時間 12對于MySQL 的高可用性：Keepalived 雙主熱備最新教程本月人氣 1酷狗音樂賬號被盜如何辦？酷狗賬號被盜找到方法 2酷狗音樂如何聯(lián)系人工客服？酷狗聯(lián)系人工客服方法 3酷狗如何找到密碼？酷狗找到密碼圖文說明教程 4百度視頻如何下載？百度視頻下載視頻方法 5虎牙直播如何直播手機游戲？容易方法 6虎牙直播如何選頻道？虎牙直播選頻道的方法 7優(yōu)酷集福氣搶2018元活動如何玩？ 8手機影音先鋒如何用？影音先鋒使用圖文說明教程詳細說明 9手機影音先鋒如何搜片？ 10影音先鋒如何看片？手機影音先鋒如何看片？ 11手機影音先鋒看片圖文說明教程 12美拍小視頻如何合并？美拍小視頻合并方法 1支付寶不能交水電費了嗎支付寶為什么不能交水電費了 2人人車怎么收費人人車收費規(guī)范 3平板電腦wifi無線網(wǎng)絡設置圖文說明教程【圖文詳細說明】 4ios9 bug隱藏無用應用方法 53星版iphone6s與臺積電版iphone6s續(xù)航哪一個好 6百度專車怎么收費百度專車收費規(guī)范介紹 7華為pay與微信支付哪一個好微信支付與huawei pay比較區(qū)別 8酷狗怎么設置伴唱并錄音酷狗伴唱設置圖文說明教程 9中興grand x max+怎么？中興grand x max+設置評測 10小皮助手安裝失敗怎么辦小皮助手安卓模擬器安裝失敗處理方法 11獵豹瀏覽器搶票不受12306新版驗證碼影響 12滴滴打屁怎么用滴滴打屁app使用圖文說明教程
相關文章 MySQL的事務隔離級別案例圖文說明教程如何查詢2個表中同一字段的不同數(shù)據(jù)值 MyBatis含糊查詢的sql拼接的2種方法詳細說明xtrabackup的備份原理內(nèi)連接、左外連接、右外連接、交叉連接它們的區(qū)別是什么重裝mysql出現(xiàn)無法start service的問題的處理方法 MySQL中對于加密與解密的案例詳細說明 ubuntu下對于mysql 5.6版本的刪除/安裝/編碼設置文件設置的詳細說明對于MySQL5.7 mysql command line client使用命令詳細說明對于mysql5.7.18的安裝并更改初始密碼的圖文說明教程 mysql5.7.18在Centos7.3下如何安裝并更改初始密碼的方法詳細說明對于mysql中替代null的IFNULL()與COALESCE()函數(shù)詳細說明

主站蜘蛛池模板：中文字幕在线视频第一页 | 在线播放高清国语自产拍免费 | 亚洲精品在线看 | 涩涩涩涩涩涩涩 | 日本美女高清在线观看免费 | 亚洲欧美手机在线观看 | 欧美一级特黄特色大片 | 天天影视色香欲性综合网网站 | 在线观看亚洲国产 | 性色午夜视频免费男人的天堂 | 桃花岛在线播放免费观看 | 最新狠狠色狠狠色综合 | 五月婷婷六月丁香综合 | 小明精品国产一区二区三区 | 日日做日日摸夜夜爽 | 全黄大片 | 色偷偷亚洲女人天堂观看欧 | 日韩国产成人资源精品视频 | 婷婷六月综合网 | 伊人天天 | 夜夜偷天天爽夜夜爱 | 日韩在线免费看网站 | 一级黄色片免费播放 | 日韩视频在线观看 | 一级做a爰片性色毛片视频图片 | 亚洲综合色就色手机在线观看 | 亚洲狠狠| 天堂影视网| 色婷婷在线视频观看 | 三级亚洲| 日本精品视频网站 | 字幕网中文aⅴ资源站 | 欧美在线看欧美高清视频免费 | 亚洲33p| 午夜在线亚洲男人午在线 | 日本天堂网在线 | 日韩大片免费观看视频播放 | 欧美在线资源 | 羞羞答答免费人成黄页在线观看国产 | 亚洲福利视频一区二区 | 亚洲97i蜜桃网 |