TOP > IT・テクノロジー > 東証、システム障害で謝罪 詳細な経緯説明、当面は「人的監視」で対応 - ITmedia NEWS

東証、システム障害で謝罪 詳細な経緯説明、当面は「人的監視」で対応 - ITmedia NEWS

110コメント 2020-10-01 18:34  ITmedia

東京証券取引所が、システム障害について緊急の記者会見を開き謝罪した。ストレージシステムのメモリ故障が原因となり、バックアップへの切り替えにも失敗した結果、情報配信処理や売買監視システムに異常が発生した...

ツイッターのコメント(110)

スラドを見たらIT mediaの記事が紹介してあった。

うん、機能してないのに生きてるってやっちゃったな、こりゃ。ていうか、それなりのシステムなんだから、メモリのSparingかMirroring位設定できたでしょ?。同じ富士通の安価なPRIMERGYですら設定があるのに。まさかね。
東証のやつシステム更新から1年でぶっこわれたのか メモリの故障なんてなにしたんだろう

ものが壊れるのは しゃーないにしてもバックアップが起動せんのは だいぶヤバいのでは(*'x')
メモリなのか…バックアップと繋ぐネットワーク装置かと予想していたんだが、メモリだとすると切り替わらなかった理由がよくわからんな。
私もエンジニアだった頃、ストレージの機器障害でフェイルオーバーが正常に実施されなかった案件に関わったことがあります。

当時の朝までログ分析・一時的な復旧行った記憶がよみがえりました。😱
人的監視で解決できる障害もあるだろうけど、今回の障害は人的監視したところで対処のしようがない。
それでも対策の一つとして打ち出すのは非ITエンジニアの方には心象がいいのだろうな。

当面は「人的監視」で対応
システム障害は実はしょっちゅうある。メモリ読み込み不良とかそれこそ。その為の冗長化構成。問題は冗長化構成が機能せずのとこ。メンテナンスを怠っていたか。もしくは汎用機担当オペレータのミス。
>共有ディスク装置」の1号機に異常
>原因は装置のメモリ故障

去年の日本電子計算の自治体クラウド障害も共有ディスク装置の異常だった。

導入一年未満でハード障害?
自動切替が不可能なら、人がみてるしかないか

> 当面は人的監視で対応 ITmedia
同様の故障が発生した場合は自動切り替えはせず、暫定的に手動にて切り替えるようです。根本的な対処は時間がかかりそう。
フェイルオーバー失敗かぁ。設計ミスかしら(記事よく見てないけど)
記者会見途中まで見たけど、この記事読んだ方が早かった。
東証システム障害
多分ストレージとサーバのフェイルオーバーが今一つだったのかね。
(24時間交代で)人的監視
これは骨折り。頑張ってほしい。
東証システム障害
⇒サイバー攻撃の可能性については、メモリの故障がログから明らかになっており、このメモリが外部と直接つながっていないことに加え、外部からの攻撃監視にも異常がみられないとして否定した。
R・TYPEの自機みたいな名前…
通常であれば、切り替わるはずだった。
らしい。
切り替わらないことも、良くあることでは。
違うのか。やっぱりアローヘッド側の問題なのか。
「arrowhead」株式売買システムの内部に2台あるストレージシステム「共有ディスク装置」の1号機のメモリ故障が原因なのね。
えぇ…冗長化の意味がねぇw
>「ハードウェア障害の発生と、バックアップ切り替えの不具合が原因」
個体差でハズレって事か
故障箇所の件は置いといて、きちんと作動してる。偉いなぁ……
>午前8時54分にネットワークを遮断し、取引を停止したとしている。
この原因が明確になっていて、ちゃんと公表されてるのが信用につながる気がする
システム障害の経緯について東証は、午前7時4分ごろ、「arrowhead」(アローヘッド)と呼ばれる株式売買システムの内部に2台あるストレージシステム「共有ディスク装置」の1号機に異常が発生。異常の原因は装置のメモリ故障。
フェイルオーバーしなかった原因は不明のまま?
ヨシ!👈😺
ハード障害が原因とはいえ、トラブル時のシステムの切り替えも動作しなかったのか。
1日市場閉めて、会長に謝罪会見までさせてるから、内部的には穏便には済まなそう。
人が張り付いてシステム監視するようだし、しばらく関係者は大変そうだね。可哀そう...
MSの件といい、最近システム系立て続けにきてるな
ファイバーなストレージでメモリーが云々とかウチも結構やられて困ってる正直←
関係ないけど、、昔携わった更改案件で、1度目メモリ障害で切戻し、2度目新品使ってやっぱりメモリ障害。メーカ本国(米国)調査結果が「再現しないので製品に問題無しDeath」ってもらって脱力したの思出した。対応している皆様、身体に気をつけて頑張ってください!
働かなかったホットスタンバイは果たしてホットスタンバイと呼べるのだろうか。
さて、フェイルオーバーしなかった原因、富士通側なのか、もう一つのほうなのか・・・
@chacha_darkside 報道ではまずメモリ故障がログから明らかになったということになってますね。ソフトウェアの問題かどうかは今後解明されるのかと。
何かが起こってる?
M5北上
共有ストレージのメモリエラーでフェイルオーバーが作動しなかったのか
所詮人が作ったものだからねぇ。仕方ないっすよ。次にいかしましょ。
クラスタの共有ディスクのメモリが壊れたのか。スタンバってたサーバが共有ディスクの異常を検知しフェイルオーバーに失敗なら正しい動作。共有ディスクのメモリの助長とか聞かないなぁというかできるの?
新聞のクオリティは知らないけどうちは比較的まともだと思うから読んで >
要は稼働するはずのホットスタンバイが機能しなかったてこと!?
人災やな。。
結局原因判明してないのか。
ふーん、これ富士通のシステムじゃなかったっけ…バックアップにロールオーバーしないって、何のためのバックアップなんだか。集中注文のデットロックで1日止まるんか?
明日から無事再開できるんですかね🤔
「システム障害…について東証…株式売買システムの…ストレージシステム…の1号機に異常が発生し…通常であれば1号機に異常が発生しても2号機に自動的に切り替わる設定になっている…が、何らかの理由で切り替わらなかった…」 2つ原因が重なって事故って私の経験に合致。
1時間以上の記者会見を聞いている暇はないからどっかに文字起こししたのないかなと思ったが見つからず。現象が一番詳しくかいていたのはこれ。まあ、予想通り、スタンバイ機にちゃんと切り替わらなかったのが原因。何つかってんだろ?まさか、Ever Runじゃないよね(笑)。
東証もまもる君に守ってもらった方がいいの?
クラスタってちゃんとフェイルオーバーしないよね。大抵故障ノードが
『生きてるが!!!!』と言い張る
> バックアップ切り替えの不具合が原因
設備屋にも耳が痛い話。試験、点検すごく大事。
ありがちなのはハードが中途半端に死んで、周りからは生きてるように見えて切り替わらなかったとかかなぁ。想像でしかないけど。東証、前にもいつかやってたよね。いつだっけ。
:
普段から両方動いているシステムのほうが気がラクな気はするけどそんな簡単な話ではないだろうなぁ。。。

「ハードウェア障害の発生と、バックアップ切り替えの不具合が原因」
これほんとあってはならんでしょ…現場は地獄や…

>通常であれば1号機に異常が発生しても2号機に自動的に切り替わる設定になっているはずだったが、何らかの理由で切り替わらなかった
なるほどね。二重にトラブルが起きたわけだ。
「共有ディスク装置の動作状況や切り替えについて人的監視を強化する」

エラーが起きて自動で切り替わらなかったら手動で切り替えます、ということです
普段から監視もしてて手動切替の手順も用意してたと思うんですけど、判断や権限の配置が甘かったようです
もっと見る (残り約60件)
 

いま話題のニュース

もっと読む
PR