2018年9月6日(木)午前3時8分頃 北海道胆振東部地震(いぶりとうぶじしん)が発生しました。
その結果、北海道電力から北海道石狩市にあるさくらインターネットの石狩データセンターへの送電が停止(停電)しました。
送電の停止により一部サーバーにてサービスの停止が発生しましたが、すぐに自家発電により電源を供給することでサービスは継続されました。
さくらのレンタルサーバーを徹底研究
さくらインターネット社の対応経緯
さくらインターネット社の対応経緯です。
2018年09月06日03時08分
北海道胆振(いぶり)東部地震発生後、石狩データセンターの自家発電設備により電源を供給し、さくらインターネットの各サーバーは正常に稼働を継続する。
2018年09月06日03時08分 – 07時44分
さくらインターネットのUPS設備の障害により、さくらの専用サーバの一部にサービス停止が発生する。
2018年09月06日08時13分
さくらの専用サーバの一部のサービス停止が復旧する。
2018年9月7日0時26分
北海道電力より、石狩データセンター稼働に必要な電力量の約50%の電力供給が9月7日0時26分から再開される。
更に石狩市役所、経済産業省、各所の支援により、一週間程度の稼動が可能な燃料の手配が完了する。
2018年9月12日
当初の報告ではUPSの障害としていたが、後の調査により非常用発電機設備を起動・停止するための制御回路が故障し、非常用発電機設備が自動的に起動しなかったことが原因と報告。
→この制御回路の故障が以前から発生していたものなのか、地震による影響なのかは不明。
さくらインターネット対応経緯の詳細
9月06日03時08分頃に発生した地震による弊社サービスへの影響について
北海道胆振(いぶり)東部地震によるさくらインターネットの障害範囲
今回発生した北海道胆振(いぶり)東部地震によるさくらインターネットの障害範囲です。
下記のIPアドレス範囲を含むさくらの専用サーバのユーザーに影響を及んだ。
■影響があったさくらの専用サーバのIPアドレス
- 153.127.106.*
- 153.127.107.*
- 153.127.108.*
- 153.127.109.*
- 153.127.110.*
- 153.127.140.*
- 153.127.141.*
■影響がなかったサービス
- さくらのレンタルサーバ
- さくらのVPS
- さくらのクラウド
- さくらの専用サーバ(石狩第2ゾーンの一部以外)
- ハウジングサービス
- リモートハウジングサービス
- sakura.io
さくらインターネットのデータセンター
さくらインターネットは、データセンターを3つの拠点に分散しています。
東京・大阪・北海道です。
石狩データセンターには大型の「UPS」と大型の「発電機」があり、48時間程度は自家発電でまかなえる仕様になっています。
さくらのレンタルサーバーを徹底研究
そもそも地震が発生しない想定で石狩地方にデータセンターを建設した
さくらインターネットのホームページにも記載されていますが、なぜさくらインターネットが「石狩地方」を選択したのかと言うと、地震・津波などの災害リスクがないためでした。
さくらインターネットのデータセンターの紹介
https://www.sakura.ad.jp/corporate/corp/datacenter.html
「石狩地域は、今後30年間で震度6以上の地震が発生する確率が0.1〜3%と低く、津波についても、陸上での最高到達点4.7mという数値に対し建設地の地盤高は5.5m以上となっているため、リスクはほとんどないと言えます。」
逆に言えば、日本にいる限りは常に災害リスク(地震・津波・異常気象)が付きまとうのだと思います。
発想としては地震から逃げるのではなく、地震が起きても問題ないようなシステムを設計・構築することが重要でしょう。
ホームページに細かく経緯を報告
ほとんどのレンタルサーバーは障害が発生しても正直に報告してくれないところがあります。
企業のコンプライアンス的にどうなのかと思いますが、毎月数万円もする法人向けレンタルサーバーならまだしも、毎月100円レベルの個人向けレンタルサーバーにも同じレベルを求めるのは間違いかもしれません。
また、確かにヘタに障害報告をして「損害賠償しろ!」と言われるより、知らぬ存ぜぬを貫いた方が被害が少ないかもしれません。
しかし、当たり前と言われれば当たり前ですが、さくらインターネットは詳細に障害対応の経緯を報告してくれました。
(さくらインターネットは個人向けから法人向けにサービスを提供しています)
メルカリのサービスまで停止する事態に発展
北海道胆振地震の影響で、メルカリのサービスが2018年9月6日 午前3時半前から約2時間の間、利用できなくなりました。
メルカリは、「さくらインターネット」の石狩データセンターを利用しており、9月6日に発生した非常用発電機設備を起動・停止するための制御回路が故障によりサービスが停止しました。
今回の報道で何度も出た UPS(Uninterruptible Power Supply)とは何か?
今回の地震の報道で何度か話題に挙がっている UPS(Uninterruptible Power Supply)とは「無停電電源装置」を言います。
通常サーバーを構築すると、電源はコンセントから直接はつなぎません。必ず UPS を経由して電源を供給します。
データセンターの場合はすでに停電時の電源供給が保証されているので、個別に UPS を導入する必要はありませんが、社内等のラックにサーバーを設置した場合は、UPS が必須です。
その理由ですが、サーバーにはいろいろな種類があり、その中のデータベースサーバーは、文字通りデータの基地(ベース)で様々な情報(個人情報、クレジットカード情報など)を格納し、リアルタイムでデータが更新し続けています。
お客がクレジットカードで商品を購入している時に、突然サーバーがダウンしてしまった場合、データの不整合が発生しデータベースが壊れる可能性があります。
ベテランのエンジニアでさえ、仮にデータベースが壊れてしまった場合、完全に復旧できるかどうか、できたとしても本当に復旧できているのか100%保証できません。
そのような最悪の事態にならないように、いきなり停電が発生しても最低限データベースサーバーが稼働し続ける電源供給の環境が必要です。
もっと言えば、稼働し続けなくても、通常の手続きにより安全にシャットダウンできるだけの電源を確保するだけでもサービスの品質が相当向上します。(データが壊れるという最悪の事態だけは避けられる)
会社レベルとしては、データセンターではなく社内環境ならば、最低限シャットダウンする時間の電源さえ確保できればOKです。
もちろん、データセンターレベルになれば、そもそも電源断はない想定です。
→ただし今回の北海道胆振東部地震により、1つのデータセンターではなく複数のデータセンターへサーバーを分散させることが重要だと改めて認識しました。
さくらインターネットが悪いのではなく、そういうものだと思っています。
そもそも UPS は障害や災害用に設置・準備するものなので、短時間だけ電源を供給してくれれば問題ありません。
もっと言えば、災害により停電が発生しても、UPS からの電源供給により OS がシャットダウンする時間だけ電源を供給してくれればいいと思っています。
UPS は一言でいえば、単なるバッテリーです。
要件により異なりますが、個人的には下図のような APC の USP をよく使用します。
大きさは 2U 程度のラックマウント式の APC Smart UPS などを選択します。
非常用発電設備で必要な備蓄された燃料(重油)は48時間分
同じく今回の報道で何度か言及されている「非常用発電設備」もしくは「非常用発電機」です。
通常、非常用発電機は軽油または重油を燃料とします。
環境によっては灯油を利用する場合もあります。(ただし特殊なケース)
軽油は使いやすくガソリンスタンドで入手することができます。
※ちなみに軽自動車はガソリンエンジンを搭載しているのでガソリンが必要ですが、間違えて軽自動車に軽油を入れようとする客もいるようです。
軽油や重油はディーゼルエンジン用、ディーゼル発電機用に利用します。
エンジンは低速運転のため、ガソリンやハイオクは必要ありません。
今回の地震での報道では、さくらインターネットが備蓄している重油の量は48時間分と言われていました。
→更に石狩市役所、経済産業省、各所の支援により、一週間程度の稼動が可能な燃料が手配されたようです。
そもそもインフラは社会の根幹部分で止めることができない
データセンターやインターネット、発電、スマホなどのインフラに障害が発生すると損害が甚大化してしまいます。
もっと言えば、電気・水道・ガスが止まると甚大な被害になります。
テレビやインターネットなどの通信や輸送が止まっても被害が発生しますが、電気・水道に比べれば大したことはありません。
北海道には巨大地震が発生しない前提が崩れる
さくらインターネットは、そもそも北海道、特に石狩地方には巨大地震が無い想定でデータセンターを建設しました。
しかし今回の北海道胆振東部地震の発生により、日本国内で安全な場所はなくなったと言ってもいいと思います。
九州には地震が無いという話もよく聞きますが、2016年に熊本地震が発生しています。
インフラのエンジニアとしては、さくらインターネットはダメだと非難しても何の意味がなく、発想を切り替えることが重要だと思っています。
巨大地震が発生したらデータセンターは停止するものだという前提で、重要なシステムはリージョン(地域)を分散することでサービスを継続させる対策をとる必要を改めて感じました。
平常に切り替え試験をすることが不可能
ただし現場で仕事をしているエンジニアの方なら共感してくれるかもしれませんが、大規模災害を想定して平常時に切り替え試験をすることはほとんど不可能です。
こんなやり取りを経験したエンジニアはいると思います。
エンジニア「南海トラフ巨大地震を想定して一度システムの切り替え試験をした方がいいかと思います」
上司「なんで?」
エンジニア「いざという時にうまくシステムの切り替えがいかないかもしれないので、平常時に試験をすることで不具合や課題を見つけることができるかもしれません」
上司「でも障害時に切り替えができるように設計・構築しているよね?」
エンジニア「はい」
上司「ならやる必要ないよね?それとも何か問題があるの?」
エンジニア「いえ・・・」
さすがにこんな極端な例はないと思いますが、このようなやり取りをした経験があるエンジニアは多数いると思います。
重要なシステムなら障害時に切り替えができるようにシステムを設計・構築することは当然ですが、重要なシステムだからこそ平常時でも試験が全くできずに一発本番を迎えざるを得ないことがあります。
この問題は、「切り替え試験」だけでなく「バックアップデータの復元試験」もそうです。
何百万も費用をかけて毎日バックアップを取得している、しかしリストア試験をしたことがない(できない状況)ので本当にできるかどうかは一発本番に掛かっているが、いざ災害時にはどうすればいいのかわからずに結局失敗してしまうという話もよく聞きます。
さくらインターネットでサービスが停止した最終的な原因は
■当初の発表
さくらの専用サーバの給電回路を収容している一部の UPS におき、停電に伴う電源切替時に動作異常が発生
■その後の発表
後の調査により非常用発電機設備を起動・停止するための制御回路が故障し、非常用発電機設備が自動的に起動しなかったことが原因と報告。
→この制御回路の故障が以前から発生していたものなのか、地震による影響なのかは不明。
コメント