2018年 春期 応用情報技術者試験 問10
データセンタで行うシステム運用に関する問題
T社は、首都圏にデータセンタ(以下、DCという)を保有し、顧客にサービスを提供している。顧客はインターネット経由でT社のサービスを利用する。
T社のサービス形態と電気設備の管理
T社のサービス形態を表1に示す。
サービス種別 | 概要 |
---|---|
ハウジングサービス | 顧客が所有する情報機器をDCに設置して、顧客が専用で使用する。 |
ホスティングサービス | T社が所有する情報機器をDCに設置して、顧客が専用又は共同で利用する。 |
電力会社からの電力供給に異常が発生した場合、DCに設置された情報機器が停止し、顧客へのサービス継続に多大な影響を及ぼす。そこで、電力会社からの電力供給が長時間停止する場合を想定し、情報機器に安定して電力を供給するために、DCには予備電源として自家発電設備を設置している。自家発電設備は、電力を72時間連続供給できる。また、瞬断など、電力会社からの電力供給の異常を想定し、情報機器に短時間の電力を供給するUPSを設置している。
情報機器への電力供給は、高い信頼性が求められることから、DCでは、電力会社及び自家発電設備からの電力供給経路並びにホスティングサービスで提供しているUPSは、全てaにしている。
ハウジングサービスでは、顧客はDCから提供されたサーバ室に顧客が所有する情報機器を設置する。提供されたサーバ室に設置した情報機器には、電力会社及び自家発電設備から電力を供給しているが、UPSは顧客が設置するルールとなっている。
顧客U社のDC利用
中堅の損害保険会社のU社では、4年前に基幹業務システム(以下、Uシステムという)を構築し、T社のハウジングサービスを利用している。U社所有のUPS(以下、U社UPSという)は、一つのUPSユニットだけから成るシステムであり、U社所有のサーバとともにラックに収容されている。U社UPSの運転状態を、表2に示す。
運転状態 | 説明 |
---|---|
常用運転状態 | 常用電源1)が指定する許容範囲内であり、全ての電力を常用電源から供給している運転状態である。 |
蓄電池運転状態 | 常用電源が電力供給されていない、又は常用電源が指定する許容範囲から外れていて、全ての電力を蓄電池2)から供給している運転状態である。 |
注2) UPSには蓄電池があり、常用電源によって充電されている。
電力の供給を電力会社から自家発電設備に切り替えるときは、DCの作業者が切替え作業を行う。この作業中、U社UPSは蓄電池運転状態になる。また、電力の供給を自家発電設備から電力会社に切り戻す場合も同様である。
Uシステムの運用
U社のシステム部の運用課と開発課では、Uシステムの運用・保守を行っている。
・運用課では、L氏がUシステムの運用、及びU社UPSを含む情報処理システムの管理を担当している。L氏は、U社本社に設置されている運用監視コンソールを使って、Uシステムの遠隔監視を行っている。
・開発課では、Uシステムのアプリケーションソフトウェアの保守やデータベースの運用・保守を行っている。
運用監視コンソールに表示されるメッセージ(以下、表示メッセージという)は、U社のシステム部の基準に従って分類される。表示メッセージの種類を表3に示す。
種類 | 内容 | 例 | インシデントとしての扱いの有無 |
---|---|---|---|
通知 | 運用状態の表示 | バッチ処理の正常終了 | インシデントとして扱わない。 |
警告 | 調査が必要な状態の表示 | システム資源使用状況のしきい値超過 | インシデントとして扱う。 |
異常 | 正常に運用されていない状態の表示 | システムの異常終了 | インシデントとして扱う。 |
U社のシステム部では、表示メッセージの種類が"警告"又は"異常"の場合、U社内で取り決めたインシデント管理手順に従って対処する。
Uシステムにおける障害の発生
U社がT社のハウジングサービスを利用して4年が経過したある日、DCが利用している電力会社からの電力供給に異常が発生した。これを契機に、Uシステムが稼働するサーバにも電源障害が発生し、Uシステムが1時間以上停止した。電源障害の発生から復旧までの経緯は、表4に示すとおりであった。
項番 | 時刻 | 事象 |
---|---|---|
1 | 13:00 | ・電力会社の管轄内で送電線事故が発生し、DCへの電力供給が途絶えた。 ・DCは電源障害を検知し、自家発電設備の運転を開始した。 ・DCへの電力供給が途絶えてから自家発電設備が安定稼働するまでの間、U社UPSは蓄電池運転状態でサーバに電力を供給した。 ・DCは、L氏に状況と今後の手順を連絡した。 |
2 | 13:05 | ・自家発電設備の稼働によって、常用電源は指定する許容範囲で安定した。 ・U社UPSは、蓄電池運転状態から常用運転状態に戻った。 |
3 | 14:30 | ・DCは、電力会社からの電力供給の復旧と、安定的な電力供給を確認した。 ・DCは、電力会社からの電力供給に切り戻す判断を行い、L氏に判断内容と今後の手順を連絡した。 |
4 | 14:40 | ・DCは、電力会社からの電力供給に切り戻す作業を開始した。 ・U社UPSは、蓄電池運転状態でサーバに電力を供給し始めたが、間もなく電力供給が停止し、サーバ及びUシステムが停止した。 ・運用監視コンソールに、Uシステムの異常終了を示す"異常"の表示メッセージが出力されたので、L氏はDCに状況の確認を依頼した。 |
5 | 14:50 | ・DCからは、"電源の切り戻し作業が完了し、電力会社から電力が正常に供給されている"との回答と、"Uシステムが稼働するサーバは停止状態である"との連絡があった。 ・L氏は、サーバの起動をDCに依頼した。 |
6 | 15:00 | ・L氏は、運用監視コンソールでサーバの起動が完了していることを確認できたので、Uシステムの開始作業を行ったが、Uシステムは稼働しなかった。 ・L氏は、更に数回Uシステムの開始作業を試みたが、結果は同じであった。 ・L氏がUシステムの開始作業を行った際に、運用監視コンソールにデータベースの異常を示す表示メッセージが出力されていたのを、L氏は確認していた。 ・L氏は、状況を上長に報告した。 ・上長は、U社内に復旧対策本部の設置を依頼した。 |
7 | 15:10 | ・DCでは、電力会社から正常に電力が供給され、Uシステム以外は全て正常に稼働している状況を確認できたので、自家発電設備の運転を停止した。 ・U社内に復旧対策本部が発足し、対策の検討を開始した。 ・Uシステムが利用するデータベースに不整合が生じたことによって、Uシステムが正常に停止していなかったことが判明し、データベースの回復作業が必要であると判断した。 ・データベースの回復作業手順は確立されておらず、開発課による回復作業が必要であることが判明した。 |
8 | 15:15 | ・開発課が、データベースの回復作業を開始し、作業は約30分で完了した。 |
9 | 15:25 | ・L氏が、Uシステムの開始作業を行い、Uシステムは再稼働した。 |
10 | 15:55 | ・UPSの保守業者がU社UPSの蓄電池の交換を実施した。 |
11 | 深夜 | ・深夜バッチ処理が正常に実行された。 |
Uシステムが再稼働した後、U社は表4の項番4と項番6について、状況の調査及び原因究明を行った。
(1) 項番4:U社UPSが蓄電池運転状態を継続できなかった点
・1週間ごとに蓄電池の自動セルフチェックを行って、状態を確認していた。
・数日前に行った自動セルフチェックの結果として、運用監視コンソールに"蓄電池の劣化が進んでいる"というメッセージが出力されていた。この表示メッセージの種類は"通知"であったので、1)L氏は特に調査を行っていなかった。
・UPSの蓄電池には寿命があり、定期的に交換が必要である。劣化が進み寿命に近づいている蓄電池を使ってサーバに電力を供給すると、途中で電力供給が停止することがある。
・U社UPSの蓄電池の劣化が進んでいたので、切り戻し作業の際に正常な蓄電池運転状態にならなかった。
・蓄電池の交換は、運用課とU社UPSの保守業者で作業時間を調整の上、保守業者が作業する取決めだった。しかし、U社UPSは、蓄電池の交換が必要な時期を過ぎていたにもかかわらず、両者間で作業時間の調整が行われていなかった。
(2) 項番6:Uシステムの開始作業を行った際に、運用監視コンソールにデータベースの異常を示す表示メッセージが出力されていた点
・L氏はインシデント管理手順に従って段階的取扱い(以下、エスカレーションという)を行っていたが、段階的なエスカレーションだけではなく、直ちに2)機能的なエスカレーションを行うべきであった。
T社からU社への提案準備
T社は、今回のUシステムの障害を踏まえ、Uシステムの安定稼働に向けてDC所有のUPSを使ったホスティングサービスの利用を、U社に提案することにした。
ホスティングサービスを利用すれば、今回のような障害が発生するリスクは低くなり、また、U社の運用課は、UPSの管理作業から解放されるはずである。加えて、T社は、3)電力会社による長期の電力供給障害が発生したときに実施する計画を用意していて、震災が起きた場合の対応などにも役立つ。この計画に基づいて、T社では想定される災害の対策シナリオを作成し、大規模な障害対策訓練を毎年1回実施している。4)T社はこれに、U社にも参加してもらうことを検討している。