私は株をやっていないので東証のシステム障害など、地球の反対側で起こっているかように思っていましたが、ブログ村の「セミリタイア生活」では、結構、この話題が登場する。
こんなに東証の件が気になる人達が集まっているコミュニティーというのも、日本にはあんまり無いでしょう。
私が気になるとすれば、「取引が出来ない」ということではなく、「なぜシステム障害が起こったか?」という部分。なんといっても、システム会社に勤めていたから。
セミリタイアした今でも、こういうところの興味関心が、完全に消え失せた訳ではないようです。
目次
《東京都あきる野市:秋川》
障害の概要
やや専門的ですが、若干詳しく載っている記事。
東証、システム障害で謝罪 詳細な経緯説明、当面は「人的監視」で対応 - ITmedia NEWS
システム障害の経緯について東証は、午前7時4分ごろ、「arrowhead」(アローヘッド)と呼ばれる株式売買システムの内部に2台あるストレージシステム「共有ディスク装置」の1号機に異常が発生したと説明する。異常の原因は装置のメモリ故障という。
このシステムでは何百台もの機器が使われているとニュースで見ました。そして、その何百台もの機器は、「共有ディスク装置」からデータを読み取って、取引の処理を行い、その結果を再び「共有ディスク装置」に書き込むのでしょうね、多分。
だから、「共有ディスク装置」は扇のかなめのような立ち位置であり、ここが死ぬとシステムの稼働自体が続行不能になるのだと思います。
こんなに重要な機械だから絶対に停止させてはいけないのだけど、一方で、ハード故障というのは、ハードがある限り避けられないのも事実。
だから、「そもそもハード故障はあるもの」という想定でシステムは設計されます。つまり同じハードを二台用意して、2台めをバックアップ機にするわけです。
通常であれば1号機に異常が発生しても2号機に自動的に切り替わる設定になっているはずだったが、何らかの理由で切り替わらなかったとしている。
でも、このバックアップへの切替が上手くいかなかったようなのですね。ハード故障は仕方が無いけど、バックアップへの切替が出来なかった、というのは、絶対にあってはならないことというのが、システム技術者の一般的な認識であり、今回の問題の本質もそこ。
普段からバックアップへの切替練習はしていると思う
私の想像ですが、こんなに大事なシステムなのですから、バックアップへの切替練習は、普段からしていると思います。
もちろん、現に稼働している機械を、練習のために壊すわけにはいかないので、何らかのコマンドを入れるか何かして、切り替えさせてみる。その日の取引が終了して、システムが空いている時間帯に。
で、そのときは恐らく普通に切り替わっていた。なのに今回は切り替わらなかった。その理由こそが今回の障害のキモなんだけど、いまだに分かっていないようです。
個人的にストーリーを2つ考えてみました。
- 1号機のハード故障の仕方が特殊過ぎて、そもそも切替動作に入らなかった。
- 切替動作には入ったが、それを阻む何らかの要因があり、動作が完了しなかった。
技術者はこれからが大変だ
報道によると、故障機器の現物を持ち帰って調査するようです。
こういう調査でよくやるのは、再現試験です。
つまり、故障機器を用いて、障害時と同じシステム構成を擬似的に作り、そこで同じ障害を起こしてみるわけです。今回で言うと、「バックアップへの切替が起こらない」という事象が確認できればいいわけです。
同じ障害が起こってくれれば話は早い。試験にあたっては、障害再現時の状況をデータとして取るでしょうから、それを分析すれば障害の原因が分かる。
でもね。。。再現しなかった場合は大変ですよ。
何とか再現させようと、昼夜ぶっ通しで試験を行うことになります。故障機器にメチャクチャ負荷をかけたり、温度を上げてみたり、とにかく色々と試してみるわけです。
この障害は社会的に影響が大きく、多分、政府に対しても報告が求められるでしょう。そのため、「原因は分かりませんでした」というのは絶対に許されない。何が何でも原因と再発防止策をヒネリ出す必要があるのです。
富士通の技術者の方のプレッシャーはいかほどでありましょうか。本当に大変なのはこれからですよ。
★ランキングに参加しています。よい記事だと思ったらバナーをクリックして下さい。
★初めてお越しの方へ。以下にて私のセミリタイアの概要をまとめてあります。
⇒50歳でセミリタイア達成!その概要を書きます