主要論述是因為計算 URE(uncorrectable read error or Non-recoverable read errors per bits read) 這個參數. 不過我認為他犯了一個很基礎的錯誤, 誤將機率當作一定會發生.
“平均每讀取12.5TB,就會讀到1位元壞掉、且無法修復的資料。”
不止他, 有些外國網站或文章也提到同樣的事情
ex: RAID failures
很抱歉的是, 我沒有查到 URE 的定義, 或是廠商怎麼測量他的, 目前只有在 WD 的 Datacenter Capacity HDD內. 找到一小段話. “No non-recoverable errors during operating tests or after non-operating tests”.
不過這個小標並沒有標在該標的位置, 所以我不確定是不是講該段. 不過也有可能是講整個測試過程.
當然, 如果是像原文講到 4TB Raid5 重建出錯的機率是 72.6% 的數字, 那做 Raid 的廠商早就罵翻天了. 合理的 failure rate 的應該是如何呢?
我認為這一篇比較合理 RAID array failure probabilities
這篇採用的是 MTBF, 所以估出來的數字是這樣
In terms of probability of failure over the life of the array (3 years):
RAID0 – 10.5%
RAID5 – 0.000105%
RAID10 – 0.0000525%
RAID6 – 0.00000000000105%
合理多了, 不是嗎?
那 URE 的定義是什麼呢? 為什麼明明沒有還是要生出一個數字.
我認為應該和泛科學這篇講核電廠危機的是相關的從好像不太準的千萬分之一,到有點危言聳聽的24%,核災機率到底怎麼算?
應該是從讀取, 線路, 元件, 控制器, 等等這一串, 每一個部份都有其出問題的機率, 綜合起來就是 10^-16 ~ 10^-18 了. 但是是不是會出問題呢? 不一定. 但是廠商就保證二個 bit 在這個區間不會出現 URE 了
這根本是一個對廠商放水的數字呀…
ref. http://www.raidtips.com/raid5-ure.aspx
發佈留言