ANAのシステム障害のお話
今更ながら、3/22に起きたANAのシステム障害について思うことを書いてみる。
と言っても、ここはCiscoお勉強ブログ。
欠航時の対応ががどうとかそういった事ではなく、もうちょっとテクニカルなところ。
例えば以下の文章に食いついてみよう。
(ちなみに、国際線で何回か欠航に当たったことはあるけど、ゴネるのがデフォだと思ってる。ゴネないと、いない人扱いされるのです)
ニュース - ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン:ITpro
同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。
「故障シグナル」ってなんだ?
故障なんだから、故障したポートからシグナルなんか出せるんか?
お高いスイッチだと、監視用ポートとか割り当てれて、そこから何か飛んできてフェールオーバーする機能とかあるのか?
報道のアラを探したいという訳ではなく(そもそもそんな知識はない。今それを勉強している最中だ)ただ、どんな機能なのかが気になる。
実務経験が無いと、機械が「どんな風に使われてるのか」を知るチャンスが無いのが悲しい。 結局、思うところはここなんだよなぁ。
リンクダウンを検知して切り替える、という以外にも色々な方法があるんやろなぁ…。