神戸新聞のシステム障害 Tweet
神戸新聞のシステム障害はオラクルDBの問題、修正プログラム配布へ
一部引用
神戸新聞のシステムは業務終了時の処理としてデータベースを「強制終了(shutdown abort)」する仕様となっており、同社側に運用面での問題はなかったという
shutdown abortじゃなくて、shutdown immeidateじゃないのか??
運用に問題が無かったっていうけど、通常運用で、abortはないんじゃないかな。
shutdown immediateは、その仕様上、仕掛かり中のトランザクションをロールバックしてしまうので、大きなトランザクションが実行されている時に、shutdown immeidateを行うと、運が悪ければ、1時間以上停止しないという場合もあるわけですよ。
こんなエントリも書いていたっけ。 - Shtdown Timeout
なので、shutdownが必要な運用形態をとっているところでは、大きなトランザクションは、shutdownの数時間前から実行できないようにしていたりと工夫しているところが多い。
shutdown abortはOracleを停止させるための最終手段なのだから、その最終手段を業務終了時の処理として定常的に使うということ自体に問題は無かった と言い切るのはいかがなものかと。
(オラクル側の不具合もあったようだが、オラクルの問題として片付けてしまうのも問題じゃないかな。)
参考:
Oracle9i データベース管理者ガイド(PDF)起動と停止 4-13
Oracle10g 管理者ガイド(HTML) - ABORT句による停止
一般公開のKROWNとして今回判明したバグの詳細が公開されている。
http://support.oracle.co.jp/krown_external/oisc_showDoc.do?id=126205
上記KROWNによれば、Oracle9iで発生する問題とのこと。 abortのご利用は慎重に!!
追記
私が 、shutdown abortを実施する際には、万が一インスタンスリカバリが上手くいかないということも想定し、バックアップからのリカバリ処理の準備も進めた上で行いますよ。運良く、インスタンスリカバリが上手くいかず起動できなかったということは今まで体験したことはないですが、それくらいの気持ちで実行する必要のあるオプションだと思いますよ。
所詮人間の作ったソフトウェアですからバグが全くないとは言えないですからね。
余談だが、私は、過去3回ETCの出口でカードが挿入されていたにも関わらずゲードが開かないという状態に出会ったことがある。かなりのスピードでゲートを通り抜けている車を見て、「よくあんなスピードでゲートを通れるよな〜〜。俺なんか絶対無理だわ」と感じるんですよね。(そういえば、たまに、ゲートに激突している事故なんかもありますよね。すぐに止まれるスピードで抜けるほうが安全ですよ。かっこいいとか、悪いとかではなくてさ。)
| 固定リンク | 0
コメント
はじめまして、べれったといいます。
私がORACLEの営業から聞いた話では、abortが通常の運用手順
になっており、NECも特にそれを問題としていなかったと言ってました。abortを通常運用にしていた時点で文句は言えないと思うが
NECにも非があると思います。
投稿: べれった | 2007年10月 4日 (木) 18時47分
べれったさん
はじめまして、
同感です。abortを実行せざるを得なかった際、その後のstartupでは、心のなかで、「頼む無事に起動して!」 って祈ってましたもの。
投稿: discus | 2007年10月 4日 (木) 20時08分