機材が正常動作に復帰してもサービスは復帰しない

2022/07/02 KDDI/AUの24時間以上に及び全国規模の障害、本当に大変です。

VoLTE IMSの全国で8台、拠点数は6とのこと。そのうち、多摩拠点で回線工事の際に切り替えがうまくいかずその配下のIMSのセッションは全失、それが他のIMSに流れて輻輳状態を引き起こしたと。3日の会見では、特定の拠点のIMSが落ちて他の拠点に要求が振り替えられることは想定内でそれでも、障害を発生しない単位の時間で再登録が行われるはずだったとの事。他にも原因がありそうです。

そもそもですが、何故このようなことが起こるのか。分散処理の基本からいきましょうか。


分散と同期


携帯電話端末が使えるようになるまでの処理手順

  • 端末認証:片方向参照の登録データであれば単純な分散構成が可能、端末の有効無効処理に数分の遅れは許容されるため。

  • 端末位置登録:移動時のローミングが必要なので頻度も高く処理は重い

  • データ接続成功:

  • IPアドレス割り当て->データ通信有効

  • VoLTE IMSへの登録ー>電話サービス有効

2021/10/15。ほんの10か月前ドコモも障害がありました。

通信障害の原因は、加入者や位置情報データを管理する「加入者/位置情報サーバ」の切り戻し(元の状態に戻す)と説明。新設備への移行作業で不具合が発生し、旧サーバに戻したという。その際、復旧のために通常運用には無い、全てのIoT端末に対して位置登録を再登録する措置を実施したところ、旧設備のサーバにアクセスが集中。輻輳(ふくそう)が発生し、音声通話とパケットサービスで通信しづらい状況が発生したという。

障害の原因はことなりますが、サービスの復帰が遅れた原因は再登録の輻輳であり類似性が高い。

■SoftBank 2018年12月6日 約5時間 被害3060万回線

■docomo 2021年11月10日 約29時間 被害1290万回線

■au 2022年7月2日〜3日 約36時間※継続中 被害3915万回線

https://www.docomo.ne.jp/binary/pdf/corporate/technology/rd/technical_journal/bn/vol19_4/vol19_4_045jp.pdf

2006/09/19 NTT東 ひかり電話障害

https://www.ntt-east.co.jp/release/0609/060920b_1.html

障害時間10時間以上、80万加入が影響

2011年3月 CIAJ 「0AB~J IP電話端末(SIP) が具備すべき機能等に関するガイドライン 」

https://www.ciaj.or.jp/ciaj-wp/wp-content/uploads/2011/03/CES-I002-1.pdf

総務省 情報通信審議会 IPネットワーク設備委員会 技術検討作業班

https://www.soumu.go.jp/main_sosiki/joho_tsusin/policyreports/joho_tsusin/ipnet/ipnet_giken.html