東証システム障害。現場担当者の苦労、身につまされる思い。
既に忘れられていますが、東証のシステム障害でバックアップに切り替わらなかった理由が公表されました。
まず、東証が作成した資料を直接ネットで参照できます。
10月1日に株式売買システムで発生した障害について | 日本取引所グループ
結構、読むのにエネルギーがいりますが、私の現役時代も似たような資料を読む機会は結構あったので、何か当時を思い出します。
上記の資料より、もう少しかみくだいた記事がこちら。
自動バックアップ、5年間オフのまま 東証システム障害、富士通のマニュアルに不備
それにしても、こういう大障害が発生したとき、現場のシステム担当者の苦労を思うと身につまされます。
目次
《東京都奥多摩町:奥多摩湖》
バックアップに切り替わらなかった「直接の」要因
障害の内容をいちいち説明するのが本稿の趣旨ではありませんが、いちおう、記事から抜粋してみます。
2010年1月に稼働を始めた初代アローヘッドでは自動切り替えが「オフ」でも、トラブルを検知すると15秒後に予備に切り替わる仕組みだったが、2015年9月に導入した2代目からは「オフ」時にはバックアップが作動しない方式に変更されていた。
これを富士通が把握せず、初期設定を「オフ」にして東証に納入。マニュアルにも反映されていなかったため、東証も気付かないままシステムを運用していたという。
要するに、今回の障害が起こるまで、誰もが障害発生後15秒後に切り替わるつもりでいたが、システム更改時に、人知れず機器の仕様が変わっていました、ということ。
ちなみに以前の私の記事。
- 1号機のハード故障の仕方が特殊過ぎて、そもそも切替動作に入らなかった。
- 切替動作には入ったが、それを阻む何らかの要因があり、動作が完了しなかった。
どちらかというと1番に近い。ただ、原因は「ハード故障の仕方が特殊」ということではなく、「設定の仕様変更」だった訳ですが。
切替テストを行うには行っていたが・・・
見えないところで製品の仕様が変わってしまう、というのはメチャクチャ珍しいという程のことではありません。私も何度か経験しました。
皆さんも、WindowsやiOSなどで、バージョンアップすると勝手に仕様が変わっていることってあるでしょう? あれと似たようなものです。
多分、使っているハードは富士通製ではないでしょうから、その内部仕様はブラックボックスです。熟練の技術者であっても、ブラックボックスの中身を100%把握するなんて到底不可能。
じゃ、どうするか?
システム更改前は色々な事態を想定してテストをするのです。
今回のような二重化システムについては、切替テストは絶対にテスト項目としてピックアップするはずです。
にも関わらず、なぜ、今回の事象がテスト段階で発見できなかったのか?
問題の核心はここでしょう。
記事によると、
テストを行わなかったのは、これまでのアローヘッドの稼働実績を鑑みた結果だとしている。
東証の担当者によると、製品マニュアルから自動切り替えの発動パターンをメモリやCPUの故障、ネットワークの切断と想定していたという。
ネットワーク切断については切り替えテストを行ったが、メモリなどの故障については「NASの設定値とマニュアルの整合性については富士通内の製品出荷プロセスで検証されている前提だった」とし、テストを行っていなかった。
やや分かりにくい記述ですが、要するに、
- (ケーブルを抜くだけで容易にテスト出来る)ネットワーク切断のテストは行った
- メモリやCPU故障は、(多分、故障事象を引き起こすのを嫌って)机上チェックと従来の実績から試験は行わずOKとした。
ということなんだと思います。
想像をたくましくすれば、ネットワーク切断テストにより切替動作自体の確認は出来ているのだから、メモリやCPUの故障まで試験するには及ばないと思ったのでしょう。
ただ、考えてみれば、ネットワークは機器の外部に存在するものであり、メモリやCPUは機器の内部に存在するもの。故障した際の切替ロジックが異なっていたんでしょうね。
今だから怠惰だと言える
今だから言えますよ。怠惰だったと。メモリやCPU故障も試験しておくべきであったと。
ただ、システムのテストというのは、チェック項目が山ほどあって、これを複数人で結構な時間をかけて、夜遅くまでやるわけです。だから、期日通り間に合わせるためには、ある程度ポイントを絞る必要も出てきます。
特に、東証側のシステム担当者は、ハードの切替動作といった基層部分のテストは最小限に抑えて(富士通に任せて)、東証システム独自のアプリケーション、例えば、画面が正しく表示されるか、株価の計算が正しくなされるか、といった部分に時間を割くのは当たり前のように思える。
こういう風にメーカーと受入先の棲み分けにより、テストの効果が最大限に生かされるわけですから、東証側がメモリやCPU故障の試験を机上で済ませてしまったことが一概に悪いとは言い切れない。
ただ、富士通側はもっと何か出来ることは無かったのか、とは思うのですが。
担当者はこれからが大変だ
東証の資料には、「再発防止のために講じる措置」として色々なことが書いてあります。どれも考えるだに大変そうな作業。
あと資料には書いていないですが、今後、再びシステム更改する場合、実機テストはどこまで行い、机上チェックはどこまでするのか、という大問題が残っています。
もちろん、「メモリとCPUの故障時の切替テスト」を行うのは当然ですが、それだけで済むとは思えません。
これまで机上で済ませていた項目のうち、かなりの部分も、今後は実機でやれ、ということになるのは確実。
もちろん、その分、人員と時間を増やしてくれれば何の問題も無いのですが、多分、そうはいかない。少なくとも、私が前いた会社では、リソースは今までのまま、作業だけは青天井に増やす、というのが常態化していました。
このような重大システムで障害があると、その担当者は、生きている心地が全くしなくなる。
当ブログの読者に学生さんは少ないでしょうが、もしおられるならば、就職先にシステム業界はオススメしません、これは本当に。
★ランキングに参加しています。よい記事だと思ったらバナーをクリックして下さい。
★初めてお越しの方へ。以下にて私のセミリタイアの概要をまとめてあります。
⇒50歳でセミリタイア達成!その概要を書きます