◆なるべく切れない回線とはなんですか?
「落ちないシステムなんてない」
「切れない回線なんてない」
エンジニアの方なら理解してくれると思います。
しかし、理解はしつつも回線断を体験したことがある人はあまりいないのではないでしょうか。
じつはその「わずか」の中にあなたが含まれないのは、わりと運が良いだけなのかもしれません。
今日もたくさんの回線が切れています。今もどこかで切れています。月額5000円のベストエフォート回線でも、月額1000万円の10G専有回線でも、切れるときはいつでも切れます。明日もたくさん切れるでしょう。明後日も。来年も。10年後も。古来電信回線から今後5Gになっても、人類が通信をし続ける限りは切れ続けます。その時に切れるのは、もしかするとあなたに関係があるネットワークかもしれませんし、運良くそんな事態には遭遇しないのかもしれません。または気づいていないだけかもしれません。
冗長・迂回設計の話はとても奥が深く面白い技術ですが、こと最も脆弱な物理レベルで「気を付けるべきこと」というのはあまり見たことがありません。
というわけで、なるべく切れないために と なるべく早く復旧させるために どうすれば良いか。物理層というより物理で殴るレベルの、とても低いレイヤーについて、個人的に思ったことを書いていこうと思います
◆うちには関係ねーし?
キラキラステキベンチャーオフィスで働いているそこのあなた!
「実行環境も開発環境もクラウドにあるから関係ねーよ家でも仕事できるし」なんておもっていませんか?
じつはそのオフィスに引かれているのはギガフレッツ1本だったりしないでしょうか?
じつはクラウドへ接続できるのは社内オンプレVPNだけだったりしないでしょうか?
じつはファイルサーバは社内においてたりしないでしょうか?
堅実大企業の自前ビルで情シスやっているそこのあなた!
「さすがに複数キャリアバックアップ組んでるから関係ねーよ基幹はDCだし」なんでおもっていませんか?
じつはその物理回線はまったく同じ経路に敷設されていたりしないでしょうか?
じつはそのDCの内部構成を把握できてなかったりしないでしょうか?
じつは入館システムだけクラウドだったりしないでしょうか?
「今日は出資元獲得のプレゼン!」
「今日は待望のリリース日!」
「本番系で障害発生中!」
そういう時にヤツらはやってきます。
オフィスの通信回線が全滅したとき
あなたの会社は仕事をつづけることができますか?
それともすべて放り出して休むことができますか?
◆なにが切れますか?
切れることへの対策を行うために、なにが切れるのかを考えてみましょう。本稿では、ネットワークのうちのアクセス区画。さらに最も末端で最も脆弱で最も身近な部分にフォーカスします。場合により無限の構成がありますが、簡素化した物理構成はおおよそ以下のようになります
(Impressの資料がわかりやすいので引用させて頂きます。非常にすばらしい記事なのでリンク先もぜひ参照してください)
Image Credit:Impress とう道の地下迷宮、都内に総延長290km~ネット社会を支える知られざるトンネル網
NTTビル/GC局
「NTTビル」「所内」とも、全国に数千箇所あるセンターです。DC並の規模のビルから、平屋のプレハブまでさまざまなものがあります。基本はNTT-GC局のことを指し、ほとんどのキャリアはこの内のラックを借りて通信事業を行っています。GoogleMapで「NTTビル」等で検索すれば場所がわかります。大型のNTTビル間やキャリアのネットワークセンタ間をコアネットワークと呼び、地域GC局間をエリアネットワークと呼ぶことが多いです。"アクセス区間"という定義は場合により、「あなたの建物からコア手前のエッジ設備まで」の全てを指す場合と「あなたの建物からGC局まで」のラストマンワイルのみを指す場合があります。SLAを確認する時は気をつけましょう。
光ファイバ/ダークファイバ
GC局からあなたの家の最寄りの電柱まで引いてある光ファイバです。1本の光ケーブルには数十芯〜数百芯の光ファイバが入っており、そのうち使用していないものをダークファイバと呼びます。また、スプリッタにより1本の光ファイバに複数回線を乗せることもできます。アクセス区間のダークファイバと言ったとき、ほぼNTTのものを指すと考えて良いでしょう。
ほとんどは架空(電柱と電柱の間)ケーブルですが、無電柱化=共同溝化されたエリアでは地下を通ることができます。距離は都市部では数百メートルから数キロ、北海道などのごく限られた部分のみ長くても40キロ程度になります。
クロージャ/AO
電柱にぶらがっている黒い/灰色い箱です。上図には局外スプリッタと記載がある部分になります。内部には光接続点やスプリッタがあります。
引込線/ドロップケーブル
クロージャから建物内へ入っていく光ファイバケーブルです。小規模ならば数芯のテープ光ケーブルであり、クロージャ内部で物理または融着して光ファイバと接続されています。建物内部には光コネクタ/光ローゼットがあります。
建物
光コネクタからONUまでの光ケーブルや、ONU、ルータ、スイッチなどなど。つまりあなたのネットワークファシリティです!
◆なんで切れますか?
さて、なにが切れるか分かったところで、これらがなぜ切れるのかを改めて考えてみましょう。
- 装置異常
- 自前装置故障/作業影響 (作業や劣化により自社装置が壊れる)
- キャリア装置故障/作業影響 (作業や劣化によりキャリア装置が壊れる)
- 天災 (天災により機器が壊れる)
- 電源 (電源喪失)
- トラフィック影響
- 外部からの攻撃 (DDoS等により疎通不可に陥る)
- キャリアによる遮断 (キャリアにより遮断され疎通不可になる)
- 自社トラフィック影響 (社内からのトラフィックが逼迫する/ループする)
- 他社トラフィック影響 (他社のトラフィックにより逼迫する)
- 光ファイバー断
- 経年劣化 (経年劣化により疎通不可になる)
- 人間/動物/自動車 (要因により破壊される)
- 火災 (火災により燃える)
- 天災 (天災により壊れる)
- 振動 (振動により接点が外れる)
- 自社作業影響 (自社の作業で破壊される)
- 他社作業影響 (他社の作業で破壊される)
だいたいこのような感じです。装置をべつにすれば、ドロップケーブル>クロージャ>>>ダークファイバの順でやられます。これらの原因はほぼ経年劣化や鳥獣による害ですが、そのほかにも
- 毎月のようにどこかでクレーンを下げ忘れたトラックが暴走して電柱ケーブルをめった切りにし
- 毎週のようにどこかの企業の残念なSEがベストエフォート回線にスループット試験機をぶっぱなし
- 山火事が起きて基幹ケーブルが鉄塔ごと溶け落ちたり
- 春がくればカラスが電柱に金属ハンガーで幸せなマイホームを建築し
- 夏がくれば蝉が光ケーブルに卵を産み
- 秋がくれば台風がケーブルをゆらして少しづつ劣化させ
- 冬がくればわずかに縮んだケーブルの接点がはずれます
ほとんどの要素が「どうしようもねぇな」とゆうことがわかると思います。もし小動物や鳥類と会話する技術がつけられるならば、Zabbixを使いこなせるよりもよほどハイクラスなインフラエンジニアになれるでしょう。Infra as Code?DevOps?この世界では念仏のほうがいくぶん役に立ちます。
「最新iDCなら大丈夫だろ?」とか思っていませんか?どんなに整えられ、セキュリティが強固な環境でも劣化するものは劣化し、切れるときは切れます。まったく関係ないDCユーザの作業で「フリアク下にL2SW落としてファイバーいっぱい切れちゃった☆」とか。
そのようなことを予防するためのエンジニアリングとして、ラックにお札を貼る以外に何ができるというのでしょうか?
◆切れないためにはどうすればいいですか?
それでも私たちはエンジニアなので「とりあえず切れないようにして」と、パン買ってこいよ並みのノリで神羅万象に立ち向かうオーダーを受けます。そのとき、どのようにすれば少しはマシにできるのでしょうか。
●建物
NWなんだからとNWのことばかり気にしてしまいますが、建物選びの時点で5割くらい決まります。オフィスも立派なネットワークファシリティの一環と考えましょう。もしあなたがオフィスを探したりするのであれば、おすすめは以下のようになります。
- 比較的新しくそこそこ人口が多い街であること
- 無電柱化され共同溝で光ファイバがひきこめること
- ねずみがあまりいない街であること
- 比較的新しい建物であること
- 配管パイプが太く、室内まで光ケーブルを引き込めること
- EPS/MDF室に24/7で入室できる+ビル管との面倒な手続きがないこと
- クルマで迅速にたどり着け、路肩に停車できること+駐車場が近くにあること
- 基地局アンテナが見えること
まず、最寄りのGC局から家まで光ファイバをたどってみることをおすすめします。見るだけでわかることはそんなに多くありませんが、例えば経路のケーブルが重機駐車場の前を通っていたりしたらもうキレ芸のレベルなので避けましょう。
古い雑居ビル街はおすすめしませんが、巨大ビル(六本木のアレみたいなもの)もまたおすすめできません。キャリアだけでなくビル内専用の光ファイバ業者をはさむため、復旧が遅くなる傾向があります。もちろん、自然豊かなエリアなど論外です。あなたが運用者ならば、多くの緑や川のせせらぎよりも、切れない回線のほうがはるかに心に潤いを与えてくれるでしょう。
テナントを探すときは、シャフト(縦貫)を必ず見せてもらってください。ケーブル配管がテナントごとに分離され、綺麗に配線されているビルならば最高です。これらの配線は電気・通信業者が行なうことですが、人間はどうしてもきれいなところはきれいに配線しますし、きたないところできれいに配線することは不可能です。もし美しい配線を見たら、美しいコードを書けたときと同じ感覚を持ってください。そしてプログラムと同じく、一旦カオスになったビル配線は2度と整理されることはありません。他テナント作業で巻沿いになるケースは非常に多いです。
建物そのものと同じくらい重要なのがビル管です。24/7で即応でき、機器室に入室できることを確認しましょう。立ち会いはALSOKのような大手警備会社に委託しているところのほうが安全でしょう。
道路に関しても案外重要です。キャリアはバケット車(高所作業できるトラック)で来る場合が多いですが、これが到達しやすいと復旧が迅速になります。建物前が2車線の国道で、作業時に封鎖する必要がでてきたりすると最悪の結末となります。高さ制限のない駐車場があれば完璧です。
基地局アンテナが見えることは、屋内にキャリアレピータを設置する手間を省きます。後述しますが、無線回線を設置する際の助けにもなるでしょう。
おおまかなイメージとしては、お台場のような環境が理想です。逆に神田のような古い雑居ビル街+飲食店が入り混じっている所は、可能なら避けるべきでしょう。
●建物内部
オフィスには、キャリアの光終端装置やルータ、光ケーブルを設置することになります。また、その配下にはその他機器、HUBやWi-Fi APなども接続するはずです。キャリア側の故障であれば楽にすむのですが、残念ながら故障のほとんどはこれらの自前設備が原因です。このような機器類の設置ひとつでも、障害発生の低下、障害時の復旧時間に大きく関わります。
- 小型でよいのでラックに収納しましょう
- 家具を固定するなど、基本の地震対策をしましょう
- ラック周辺は、前面だけでなく背面もアクセス可能にしましょう
- できない場合は、電源系統も含めてすべて前面から作業できるように実装しましょう
- マウントできない装置を積まず、棚板を実装しましょう
- ケーブルには丸札をつけましょう
- ケーブルはフリアクや天井付近など、人や物が触れない場所を通し、モールで保護しましょう
- HUBやスイッチをカスケードしない構成にしましょう
- Wi-Fi化はループの危険を減らします+Wi-Fi APはケチらないほうが良いです
- ぜったいに装置を積むなよ
- 簡単でいいので物理/論理ケーブル図を書きましょう。装置にはテプラを貼りましょう
- だから装置を積むなって
もしあなたが非常に優秀なエンジニアで、回線をキャリアに、ルータ等機器をベンダに手配し、自分でNWを構築しWi-Fi APやHUBを追加して低コストで社内NWを構築していたとしましょう。しかし残念なことに、それら機器をオフィスの片隅の机の下に積んだ積んだにしていると何が起きるのでしょうか?それらがいつしか荷物に埋もれていくことは確実です。そして不運なある日、キャリアもSIerも即座に修理に駆け付けるでしょうが、彼らは自社以外の物質に触れると爆発する呪いにかけられているため一切手を出すことができません。結果として、あなたは駆け付けたフィールドエンジニアに見守られる中、1人で引っ越しに等しい肉体労働をすることになります。しかもタイムアタックつきの。
また、災害としては、地震の揺れでファイバの接続が外れるなどはほとんどなく、主な原因は「何かが倒れて光ファイバをぶっちぎる」です。ネットワークだけでなく人命を守るためにも、必ず家具を固定しましょう。水道管破裂・雨漏りによる機器故障もなかなか数が多いですが、漏電・感電の危険がないことを確認できない限りは復旧作業ができないため長時間化します。
●キャリア/回線
メインっぽい題材です。ではどこのどういうサービスを契約すればいいのか?
- アクセス回線の冗長は、デュアルアクセスを用いるくらいしかない
- マルチキャリアにしても冗長になるかはわからない
- 小規模な組織の場合、4G無線端末が活用できる
さんざん建物や環境ばかりを書いたのは、アクセス回線光ケーブルを冗長するのは非常に困難だからです。この国ではごく一部を除いて、アクセス回線の光ファイバを持っているのはNTTと電力系事業者だけです。つまりキャリアっぽい会社に依頼しても結局NTTのダークファイバを利用することになります。NTT-COMとソフトバンクのキャリア冗長だウェーイ!それはどちらもNTTダークファイバです。東京ならばNTTとKDDIの冗長、またはNTTデュアルアクセス、KDDIデュアルアクセス等を選択するくらいしかありません。地方であれば電力系事業者(中部テレコミュニケーションズやトークネット等)に確認して下さい。場所により選択できない例もあり、電力系エリアでもNTTダークファイバを使用する場合もあります。
さて、運が良ければ2つのキャリアの回線を使えそうなことがわかりましたが、さらに困難なこととして、安易にマルチキャリアにするとお互いどのような経路を通っているかわからず、プリウスが電柱につっこんだらまったく冗長されてないことがわかったなんてことが起きます。ただしこのあたりは基本的に非開示なので、どこまで冗長を確保できるか(確保できるか確認できる)はあなたの会社のRFPパワー次第となります。
上記したサービスはSOHOやベンチャー的には高価であり、到底手が出せるものではありません。しかし小規模な集団では逆にバックアップにモバイル回線を利用するという選択肢が生まれます。最近は法人向けの設置型4G端末もあり、緊急時のバックアップとしては非常に優秀なので持っておくことをおすすめします。SIMを刺すだけで自動で冗長構成が可能になるVPNルータもあります。規模にもよりますが、基本的にはメインで使い続けられるるレベルではないことを覚えておいてください。しかし数人レベルのオフィスならば普通に業務を続行することが可能です。ここは5G化が待たれる分野だと思っています。
◆切れたときのためにどうすればいいですか?
切れないことよりもこちらのほうがはるかに重要です。絶対に切れるのですから。
最も重要なのは、自分の設備が悪いのか、キャリアやSIerの機器が悪いのかを把握できることです。あなたのネットワークをあなた以上に知っている人はこの世にいません。あなたが初期切り分けを行えるならば、数時間のレベルで迅速に復旧させることができます。
何か異常がある。でもわからない。だから片っ端から連絡して「なんかよくわからないけど使えない」「なんか重い」「いいから早く来い」という依頼は、どこのキャリア・SIerも毎日5000兆回くらいきているので相手にされません。(お客様窓口はこれを断るのが仕事になっています)コンビニでタバコを番号で指定できず怒り狂っているおっさん状態にならないようにするには、何をすれば良いのでしょうか?
●切れたことを把握できるようにする
- 適切な間隔で監視を行う
- バックアップ回線も必ず監視する
「切れたことがない」と思っていても、じつは「切れたことに気づいていない」ケースはかなり多いです。そこまでシビアでないのなら、ルータ等へのPing監視で良いでしょう。キャリアやSierによる能動通知オプション等もありますが、やっていることに変わりはありません。絶対に気を付けなければならないのは、「気づかなくてもよいレベルの異常を拾ってしまう」ことです。必ず必要最低限かつ精神的な安全が保てる範囲で監視をするようにしてください。日中は自身がオフィスにいて気づけるのであれば、キャリアの目標故障回復時間以上の間隔でPingを飛ばせば十分だと思います。
また、必ずバックアップ回線の疎通も監視できるようにします。メインに異常があり、切り替わっても疎通不可。連絡したら「え?1年前から切れてますけど?」みたいなこともあります。
●切れそうな要因を把握しておく
- キャリア、ISP、ビル管の作業通知を管理する
- Windows Updateの日を把握しておく
- 社内システム/サービスの作業/イベントを把握しておく
キャリアやISP、ビル管からの作業通知を把握しておきましょう。また、社内がWindowsマシンならWindows Updateの日を把握しておきましょう。回線が逼迫しているだけの可能性があります。(これは非常に多いです)
もっとも重要なのは社内でのイベントです。社内で何らかの作業をする日や、Web系のサービスを提供している場合はイベントがある日も把握し、備えておきましょう。オンプレサーバで運用しているECサイトでセールを開始したら中国からのアクセスが多くDDoS誤検知して売上ごとブラックホール行きのような、アクセス回線の異常以外も未然に防ぐことができます。
●どこが切れたかを把握できるようにする
- 社内の論理構成を把握する
- 物理構成も必ず把握する
- 切り分け手段を検討・立て付ける
- 装置の正常/異常LED状態を把握する
「DCにある社内システムにアクセスできるからこのオフィスの回線は生きてる!」と思っていたらじつはその社内システムはオフィス内にあった、なんていう笑い話(笑えない)もあります。平和なうちにNW構成だけでなく物理構成も把握し、切り分け手段を検討しましょう。あらゆる疎通がオフィスから出られないなら、アクセス回線の異常の可能性が高いでしょう。ここは下手にIPレベルの切り分けをするより、機器のLEDを見ることをおすすめします。コンシューマ回線であっても、異常を示すLED状態は説明書に記載されているはずですし、実はこれでほとんどの部分を特定できます。
●切れた場所によりどうするかを整理する
- 連絡先、連絡フローを整理する
- 社内での作業申請フローを整理する
- 緊急作業フローを立て付ける(社内申請が煩雑な場合)
- オフィスの作業申請方法を整理する
- DCの入館/作業申請フローを整理する(DCを利用している場合)
切れたことも、切れた場所も把握できるようになりました!最後は切れたらどうするかです。
まずは連絡先を整理しましょう。緊急連絡先が一見してわかる場所に貼っていない運用など、ちゃんと冷蔵庫に水道修理屋のマグネットを貼ってるカーチャン以下の運用能力です。
回線が切れた場合はSIerなのか。キャリアなのか。どの装置が誰のものなのか。簡単なように見えますが、これらは契約で詳細に決まってるため案外難しいところです。例えば「回線が切れているのでキャリアに直接話した方が早い」と思いきや、契約上キャリアからSIerにさらに連絡しなければならず、SIerから正式依頼があってからキャリア対応がはじまる・・・など、正しいフローを把握していないと見えないところで無駄に時間を消費します。
次に「作業をする時はどのような手続きが必要か」ということを把握しておきましょう。「ビル管/DC/自社に連絡がいるのか」「どのような情報が必要なのか」「自社で依頼するのか、やってくれるのか」を確実に整理しておきましょう。自社ビルであれば、社内に外部の人間を入れて作業するときはどのような申請が必要なのかを整理しましょう。「緊急時は最低限の情報で入室できる緊急フロー」を建て付けておくことは非常に有効です。これらは一見あたりまえのことのように思えますが、「DCの入室/作業申請の出し方がわからず復旧が大幅に遅れる」は定番なので、必ず整理してください。
●他社への連絡
- 契約番号/回線番号を伝える
- 何時から、どのような問題が、継続/復旧していることを伝える
- 機器のLED状態を伝える
- 自分が試したことを伝える
悲しいことに、キャリアはSIerは毎日のように障害対応をしているため、あなたがどれほど焦っていて業務影響が出ていることを力説しても、お医者さんに「不安でしょうけどまぁその歳ではよくあるんですよ」とわれてしまうような、温度感のギャップに苛まれます。どうにか迅速に復旧させるには「うちの部分は異常はない、明確にお前の部分が悪い、準備はしてあるから早く直しに来い」と伝える必要があります。
キャリアやSIerへの連絡は、まず契約番号/回線番号を伝えます。次に「何時から」「どのような問題が起きており」「継続している/復旧している」のか。さらに「装置のLEDの状態」「自分が試したこと」を伝えることが非常に有効です。このようなことを伝えれば、キャリアやSIerは「自分の責任部分が故障している」ことがわかるため「一度電源ケーブルを抜き差ししてください」「もうやったよ!!!」等の悲しい質問を相手する必要もなくなり、かなり対応が早くなります。
●社内ネットワークが切れていても上記のことが行えること
- 上記の資料を、NWが全断していても実行できるようにする
以外な落とし穴ですが、しっかりと整備した資料を、例えば「クラウドストレージで管理していた」とき、社内ネットワークが全断してもその資料を見ることができるかを確認してください。また、社内ネットワークを喪失しても「ビル管へ作業申請できるか」「DCへの入館申請Excelを作成して提出できるか」なども非常に重要です。得にDCは、高度なセキュリティ拠点であるほど例外は一切認めません。「容易に更新できるように管理」しつつも「ネットワーク喪失しても参照・依頼することができる」ことは、組織のセキュリティ基準との兼ね合いで非常に難しくなっている場合があるので、必ず確認することをおすすめします。
◆さいごに
冒頭で「こと物理に関して、気を付けるべきことというのを見たことがありません」と書きましたが、こうして考えてみると、気を付けたところでどうしようもないから誰も書かないんじゃないか、というのが正直なところです。そして、散々社内で冗長の重要さを説き、なんとか予算が出たおかげで冗長構成ができ、実際に切れなかったとしても、あなたが感謝されることはありません!
結局のところ、オフィスの物理回線に依存する部分をなくし、社内閉域など構築せず、インターネット回線さえあれば世界中どこからでも業務ができる状態にしておくことが、回線障害と業務継続という目線だけで見れば最も安全だと思います(ただしこれはセキュリティ対策とのトレードオフとなるでしょう)そういった面では、ほとんどをクラウド化しインターネット接続を許容しているベンチャー企業の業務続行能力は、DRサイトを構築している大企業に匹敵する部分があるようにも思えます。
そんなアクセス回線ですが、このように毎日違う障害に毎日違う解決法を考えなければならず。光を束ねて400Gをぶっぱなす伝送装置や最上級のコアルータを運用することとはまた違う面白さがあります。「地下機器室の壁ぶちぬいてブルドーザーがつっこんできた」と言われたとき。「電柱に鶴がとまっていて手出しができない」と言われたとき。持っているリソースとをどのように活用すれば早期復旧ができるのか?物理と論理が混ざり合うカオスを体験したい方には是非おすすめします。当然、一切感謝はされませんが!
◆おまけ
ちょっと趣旨とはずれますが、災害対策について。
災害時はすべてのキャリアが災害対策モードに移行します。さまざまな機関から情報を収集し、まず現地の安全を確認。次に現状の維持(緊急電源の供給など)その後に基幹設備の復旧が行われます。個々回線の復旧はその後となり、全国のフィールドエンジニアからその他の社員まで被災地に集中され、全力で復旧にあたります。つまり他の地方も、東日本・西日本レベルで対応力が落ちます。よく聞かれることでもありますが、その企業がどれほど社会的に権力があっても、災害対応に必要でなければ優先対応されることはありません。国という最強のカスタマーが優先されているからです。(最近強化されている、緊急時に備蓄配布所となるような民間企業はこの限りではありません)
災害時に運用/情報システム部門がすべきことは「通信の復旧」ではなく「情報力を活かして自社の状況を整理し支援すること」だと信じています。悲しいことですが、情シス部門が東京/大阪にある大企業では、現地の状況が分かっておらず、被災地の地方拠点が津波や土砂で建物ごと消滅しているにも関わらず「今すぐ回線を復旧しろ」とクレームをあげてくるというのが現状です。テレビ・SNS等を活用した情報収集を行い、現地の社員さんの安否を第一に考え、サポートできるようような災害時フローを整備してくれることを切に願います。