Your SlideShare is downloading. ×
最強のハードディスクはどれだ?
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

最強のハードディスクはどれだ?

223
views

Published on

ハードディスクのデータセットに対するデータ解析

ハードディスクのデータセットに対するデータ解析

Published in: Technology

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
223
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
3
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 最強のハードディスク はどれだ? Tokyo.R #43 1 @gepuro
  • 2. http://blog.gepuro.net/ 自己紹介 • @gepuro • R言語、Python • 4月からサラリーマン 2
  • 3. https://www.backblaze.com/hard-drive-test-data.html からダウンロードできる 4万台以上のハードディスクに 関するデータが公開されてる 3
  • 4. 82種のハードディスク 2013年から2014年の2年間の データセット 4 毎日のSMART+故障情報 date serial_number model capacity_bytes failure 2014/1/1 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0 2014/1/2 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0 2014/1/3 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0 2014/1/4 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0
  • 5. 全部で約4GB gepuro@ubuntu1404$ du -h 2013 740M 2013 gepuro@ubuntu1404$ du -h 2014 2.9G 2014 5
  • 6. データ解析図 データの扱い方 6 打切り 故障 暦日
  • 7. ワイブル分布 • 確率密度関数 –𝑓 𝑡 = 𝑚 𝜂 𝑡 𝜂 𝑚−1 exp − 𝑡 𝜂 𝑚 • 累積分布関数 –𝐹 𝑡 = 1 − exp − 𝑡 𝜂 𝑚 7
  • 8. 8 p.d.f. ワイブル分布 𝜂 = 10 𝑚 = 0.5 𝑚 = 1 𝑚 = 1.5 𝑚 = 2 𝑡
  • 9. 9 p.d.f. 𝑡 ワイブル分布 m = 1 𝜂 = 10 𝜂 = 20 𝜂 = 30 𝜂 = 40
  • 10. http://blog.gepuro.net/archives/118 前処理はブログで 10
  • 11. データ数と故障数(故障数3以上) 11
  • 12. 12 打切り率
  • 13. ワイブルプロット 13 モデル: ST4000DM000 𝑚 = 0.7875 𝜂 = 35500 モデル: HGST MS5C4040ALE640 𝑚 = 0.7628 𝜂 = 119300
  • 14. 14 確率密度関数 モデル: ST4000DM000 𝑚 = 0.7875 𝜂 = 35500 モデル: HGST MS5C4040ALE640 𝑚 = 0.7628 𝜂 = 119300
  • 15. 15 モデル: ST4000DM000 B1ライフ : 103.1日 モデル: HGST MS5C4040ALE640 B1ライフ: 286.8日 B1ライフ F(t)が1%に達するまでの値 全体の1%が壊れるまでは、何日か。
  • 16. 16 ワイブルプロットへの当てはまり
  • 17. 日立のHDDが最強 17 B1ライフ一覧
  • 18. SMARTも使いたいなあ。 • Power-On Hours • Temperature • など まとめ • 4万台以上のハードディスクの データが公開 • ワイブル分布でB1ライフを推定 • 日立製のHDDが最強 18
  • 19. おまけ 19
  • 20. 20 𝒎の一覧
  • 21. 21 𝜼 の一覧
  • 22. 22 𝜼 の一覧(外れ値を抜いた)
  • 23. ワイブル分布 • 確率密度関数 – 𝑓 𝑡 = 𝑚 𝜂 𝑡 𝜂 𝑚−1 exp − 𝑡 𝜂 𝑚 • 累積分布関数 – 𝐹 𝑡 = 1 − exp − 𝑡 𝜂 𝑚 • 最尤法でパラメータ推定 – 𝐿 𝑚, 𝜂 = 𝑖=1 𝑛 𝑓(𝑡) 𝛿 1 − 𝐹 𝑡 1−𝛿 • 𝛿 = 1なら故障, 𝛿 = 0なら打切り 23
  • 24. ワイブル確率紙1 • 𝐹 𝑡 = 1 − exp − 𝑡 𝜂 𝑚 • log log 1 1−𝐹(𝑡) = 𝑚 ∗ log 𝑡 − 𝑚 ∗ log 𝜂 • log log 1 1−𝐹 𝑡 ≡ 𝑌 • log 𝑡 ≡ 𝑋, 𝑚 ∗ log 𝜂 ≡ 𝐵 • 𝑌 = 𝑚𝑋 − 𝐵 24
  • 25. ワイブル確率紙2 • 𝐻 𝑡 = 0 𝑡 𝜆 𝑥 𝑑𝑥 = − log 1 − 𝐹 𝑡 • log 𝐻 𝑡 = log log 1 1−𝐹 𝑡 • 𝜆 𝑡 = 𝑓 𝑡 𝑡 ∞ 𝑓 𝑡 = 𝑓(𝑡) 1−𝐹(𝑡) 25
  • 26. log 𝐻 𝑡 ≡ 𝑌 = 𝑚X − 𝐵による最小二乗法で推定 累積ハザード法による推定 データ𝐭 故障𝜹 順位 逆順位 累積ハザード 𝑯 𝒕 3 0 6 1 6 10 0 5 1 5 23 1 4 1 4 1 4 = 0.25 33 0 3 1 3 35 1 2 1 2 1 4 + 1 2 = 0.75 40 1 1 1 1 1 4 + 1 2 + 1 1 = 1.75 26