メインコンテンツまでスキップ

停電対応

このページは

  • 停電時の対応を記述したページ

更新履歴

  • 2023/12/25 (明石)

    • ISTクラウド廃止に伴い記述を大幅削除
  • 2021/8/20 (矢作)

    • ISTクラウドの接続方法を更新
  • 2019/9/6(邵)

    • 今年度からlexus廃止とfile2のdroboへの移行とrenaultのシャットダウンにより,関連する手順を削除した

    • 共有PC2台(C2と91Cそれぞれに1台)もシャットダウンしたので,関連する手順を削除

  • 2016/9/27

    • 手順を大幅に更新

    • ISTクラウド環境での手順を記述

停電対応

  • 停電対応には1種類あります(ISTクラウド時代は2種類でした)

  • 工学部2号館の停電対応

  • サーバ室や研究室(C2, D4, 91C)が停電します.

  • ルータや物理マシン,共有PCなどが影響を受けます.

停電時期の把握

  • 例年9月中旬に行われる

  • 先生からアナウンスがある場合もあるが,情報ポータルをチェックしておく

工学部2号館停電時

通知

  • 停電の3日程度前に,Slackに通知を投げる.

  • この期間中に研究室のsshなどが利用できません

    • 基本的に研究室のサービスは停止する.

    • サーバー室で稼働しているsshなどのサーバは使用不可

    • web, wikiはクラウドなので動き続ける

  • 自己責任で各自のPCの電源を落としておいてもらうようアナウンスする.

  • 鳥サーバとGPUマシンのシャットダウンをAI班のメンバーにお願いしておく

  • 停電時に作業を行うアドミンがAI班である場合は不要

立ち下げ手順

  • 鳥サーバをシャットダウンする
過去の情報
  • GPUマシンをシャットダウンする

    • macan上で動いているVMをシャットダウンする
      • atenza
      • beetle
    • paramera上で動いているVMをシャットダウンする
      • prius
    • 各GPUマシンをシャットダウンする
  • Drobo (サーバー室) をシャットダウンする

    • Drobo Dashboardで停止するらしい?
  • ルータの設定ファイルがきちんと保存されているか確認する.

  • RTX1210の場合は,デフォルトの設定にしておけば自動的に保存される.

  • 以前使われていたアライドテレシスのものは保存コマンドを入力しないとROMに書き込まれない

  • アップデートがある場合は停電時にアップデートする

  • 91CにあるiMacをシャットダウンする

  • 91Cにある3Dプリンタをシャットダウンする.

    • MUTOH,ender 3本体は横の方にある物理ボタンで切る
    • それぞれのラズパイは停電前にshutdownすること.しないとラズパイのSDカードがいかれるかも
      • MUTOHは133.11.237.99
      • ender 3は133.11.237.114:8081
    • Form2,Form3ともにシャットダウンという概念はない
      • 念のためsleepしておく

立ち上げ手順(基本現地で対応)

  • ルータが正常動作しているかインジケータを確認する.

  • 鳥サーバを立ち上げる.

# 起動後にsshでログインしてハードディスクをマウントする
$ sudo mount /dev/sdc2 /mnt/d
$ sudo mount /dev/sdb2 /mnt/e
  • OKI プリンタの電源を入れる(9階・11階)
過去の情報
  • シャットダウンしたGPUマシン・Droboを立ち上げる(電源ボタンを押すだけ)

  • VMを立ち上げる

    • macanでVMWareを起動しatenzaとbeetleを起動
    • parameraでVMWareを起動しpriusを起動
    • priusにssh接続したりして起動を確認する

チェックリスト

  • 鳥サーバの確認

  • VPNの確認

    • VPNサーバにログインして使用可能かを確認する.
  • 3Dプリンタの確認

    • ラズパイが通電により起動していることを接続して確認
    • OctPrintにアクセスするとなおよし
    • Form2,Form3が通電により起動していることを確認
過去の情報
  • 研究室内からDroboへのアクセスを確認

  • VMの確認

    • sshの確認

    • 全サーバについて管理者アカウントでのログインが可能か確認する

    • prius については個人アカウントでもログインが可能か確認する

    • wikiの確認

    • https://wiki.nae-lab.org でwikiが閲覧可能か確認する

停電作業ログ

2019/9/22(工学部7号館)

亀井、邵

停電対応

  • 水曜日にprivateにメール、金曜夕方に停電作業

復電対応

  • 復電翌日VPN接続に問題あり(学外から接続できない?)、邵さんが対応

  • マニュアル通りに立ち上げとチェック

  • CVGL実験用crownを停止中

2019/9/8(工学部2号館)

児玉,邵

  • 手順を大幅に更新した

停電対応

  • 金曜日にprivateにメール,夕方に停止作業

復電対応

  • 停電期間が終了した日曜日の夜に台風があったため,月曜日に復電対応

  • マニュアル通りに立ち上げとチェック

2018/10/27(理学部7号館)

  • 手順はマニュアル通り

  • これを機に,ISTクラウドにある仮想サーバを整理した.

停電対応

  • 木曜日にprivateにメールした

  • ISTクラウドのポータルサイトに「直近の金曜日19時までに停止していないサーバにつきましては、弊社側でパワーオフさせていただきます。」と書いてありますので,金曜日18時くらいまでシャットダウン作業を行った

  • 今回はクラウド基盤管理サイト(vSPhere Web Client)から操作した

復旧時

  • マニュアル通りで立ち上げとチェック

2018/9/23(理学部7号館)

石山,邵

  • 手順はマニュアル通り

停電対応

  • 金曜日にprivateにメールした

  • ISTクラウドのポータルサイトに「直近の金曜日19時までに停止していないサーバにつきましては、弊社側でパワーオフさせていただきます。」と書いてありますので,金曜日18時くらいまでシャットダウン作業を行った

  • priusだけ,管理サイトでアクション→シャットダウンしても反応しなかったので,パワーオフで対応した

復旧時

  • マニュアル通りで立ち上げとチェック

  • priusだけ,パワーオン送ったあと,TurningOnになって,またOffになってしまう問題が発生したが,何度か試したあと無事にOnになった.

2018/9/9(工学部2号館)

石山、邵、横瀬

  • 手順はマニュアル通り

停電対応

  • 金曜日privateにメールした。

  • 日曜日午前中に各サーバの停止作業を行い、研究室居室のマシンのシャットダウンをチェック。マニュアル通りで作業したが、renaultだけがGUI使えず物理ボタンから終了した。

復旧時

  • マニュアル通りで立ち上げとチェック。 https://www.nae-lab.org の閲覧をチェックするとき、証明書の問題で閲覧できなかった。

2016/9/24(理学部7号館)

大川

  • 手順はマニュアル通り。

停電対応

  • 告知によれば、直近の金曜19時までにマシンを停止すること。停止していないものは業者が止める。
    すなわち停電直前に作業はない。停電期間は長い。研究室メンバへの通知は早めに行うべきだった

復電対応

  • 外部からSSHでダイナミックポートフォワーディングすると通信が非常に遅くログインページまで行き着かないので、別の方法を使った。

SSHでリモート側にブラウザを起動し管理ツールにアクセスした。
ローカル$ ssh -XC lexus  // -X : X11転送を可能にする

lexus$ sudo apt-get install firefox

lexus$ sudo apt-get install flashplugin-installer  // 管理ツールはAdobeFlashPlayerを使っている

lexus$ firefox &

// リモートでFirefoxが起動し、ローカルにウィンドウが出る。

  • // 管理ツールにアクセスする。

  • こういう時にはVPNがおすすめです。 -- 平木

lexusからpriusにssh接続できなかった。
hcadm@lexus:~$ ssh prius.nae-lab.org

ssh: connect to host prius.nae-lab.org port 22: Connection refused

hcadm@lexus:~$ ssh prius.nae-lab.org:10022

  • ssh: Could not resolve hostname prius.nae-lab.org:10022: Name or service not known

  • priusに管理者・個人ログインできることは管理ツールのコンソールから確認。

  • おそらく、DNSの設定的にlexusは外部からの接続扱いになっているのでは、という気がしました。 -- 平木

  • priusはホスト名なので内部からしか名前解決してません。

  • bindの設定を眺めないとわからないけど
    $ ssh [email protected] -p 10022

  • であればつながったのではないかと。

2017/9/10(工学部2号館)

大川

  • 2016年とおよそ同じ。

サーバ室

  • file2、鳥サーバ、lexus&renaultのシャットダウンと復帰

  • 鳥サーバは事前に福田さんが切。(パスワードはCV班メンバーが知っている。)

  • file2とlexusは、sudo shutdown -h now

  • renaultはメニューからシャットダウンを選択。

  • 立ち上げる時はそれぞれ電源ボタンを押す。lexusはrenaultの「仮想マシンマネージャ」から選択して起動する。

  • lexus起動時の"file check for errors"で、
    piix4_smbus 0000.00.**.0: SMBus base address uninitialized - upgrade bios or use force_addr=0xaddr
    と出た。これを消すため、cでキャンセルしてそのまま起動し、
    /etc/modprobe.d/blacklist.conf に blacklist i2c_piix4 と追記して再起動したところ、エラーは消えた。
    "file check for errors"は1~2時間ほどで終わり、そのまま起動した。

  • file2起動の方もチェックが行われ、起動に5時間以上かかったと思われる。

sC2

  • 共有PC(MTG用1台)のシャットダウン

91C

  • 共有PC(2台)のシャットダウン

  • 3Dプリンタのシャットダウン

  • 無停電電源装置をつけっぱにしたら復電時に復帰の操作が必要になった。

2016/10/22(理学部7号館)

福田

  • 手順は基本的に上述の通り

  • priusの開放ポートは22ではなく10022であることに注意

起動時の問題

ISTクラウドのポータルサイトから各マシンをパワーオンした際、何度試してもpriusだけステータスがOnにならない問題が発生した。

掲示板で問い合わせたところ、停電後に仮想マシンの構成ファイルが新しい場所に移り、VMWAREがコピーされたのか移動されたのかを尋ねられていた模様。

管理者側で「コピーされた」を選択してもらい、無事起動した。

2016/9/27

平木

  • 理学部7号館停電時にトラブルが発生したので,手順についてまとめ直した

  • 一世代前のサーバ構成時の情報が点在し,わかりづらいため過去の情報は一括して削除

  • 見たい人はバックアップを参照

  • ちなみに,shutdown前にsyncを3回行う必要があったのは2000年代初頭までの話でkernel2.4くらいからはshutdown時に自動でsyncしてくれるので気にする必要なし

  • 毎年停電前にはリスト内容を点検することとしたい

2016/9/11(工学部2号館)

福田

  • 2015年と同じ手順だが、以下に簡単に再掲

サーバ室 

  • file2、鳥サーバ、lexus&renaultのシャットダウン

  • file2とlexusは、root権限でsync×3の後にshutdown -h now

  • 鳥サーバとrenaultはメニューからシャットダウンを選択(鳥サーバはAdministratorでログイン後に実行する。パスワードはCV班メンバーが知っている。)

  • 立ち上げる時はそれぞれ電源ボタンを押す。lexusはrenaultの「仮想マシンマネージャ」から選択して起動する。

  • lexus起動時の"file check for errors"にかかる時間があまりに長いのでキャンセルして起動させたが、今のところ支障はない。

C2

  • 共有PC(廊下側2台とMTG用1台)のシャットダウン

91C

  • 3Dプリンタのシャットダウン

  • 手順はマニュアル参照

2015/9/13

梶田,平木

  • 2014年と同じ手順

  • 9階の3Dプリンターの電源を切るの忘れないこと

メールの送受信に関するバグ

  • 原因究明中です。

  • 暫定的にですが、これなら動くぞっていうGmailの設定を共有しておきます。

  • 2つ設定が必要です。

  • Gmail/設定/アカウントとインポート/名前:/[email protected]/情報を編集
    SMTPサーバー587から25から変更

  • Gmail/設定/アカウントとインポート/POP3/[email protected]/情報を編集
    POPサーバーをnae-lab.orgからhc.ic.i.u-tokyo.ac.jpへ変更

  • 解決しました

  • アライドテレシスのGatewayを落とさなかったら,3月に開けた587番の設定が消えてふさがったのが原因

  • 開け直したら治った

2014/9/14

吉橋

  • 2013年と同じ手順

2013/9/14

甲斐・辻井

  • 2012年と同じ手順

サーバ再起動時にfileのDNS/DHCPサーバとrenaultの仮想DNS/DHCPサーバが並列で起動してしまう問題が発生
file:/etc/init.d# dhcp stopでfileのdhcpをkill

file:/etc/init.d# bind9 stopでfileのdnsをkill

file:/etc/rc6.d# update-rc.d -f dhcp removeで再起動時にdhcpが勝手に走らないよう設定

  • file:/etc/rc6.d# update-rc.d -f bind9 removeで再起動時にdnsが勝手に走らないよう設定

  • renaultの仮想DNS/DHCPサーバのログが一週間分しか取れていない問題

  • etc/logrotate.d/rsyslogの中身をweekly、routine26に書き換えて終了。これで半年ログが残るね!

  • syslogの中に謎のエラーが沢山並んでいる問題

  • DHCPサーバをauthoritativeにしてあげればいいらしい

  • /etc/dhcp3/dhcpd.confを編集、autoritativeのコメントアウトを解除

  • /etc/init.d/dhcp3-server restartで再起動

2012/9/10

問題の症状

  • 停電作業終了後,サーバの立ち上げを行った.(立ち上げ方については停電作業マニュアル参照)

  • その後,以下のような問題症状が現れた.

  • メールが受信できない

  • ログインできない

  • pingは通る

  • このような状況から,ldapがおかしくなっていると推測した.

対処方法

  • file に "hcadm" ユーザでsshログイン (ssh hcadm@file)して作業開始.

  • ps aux | grep slapd して何も表示されないので,やはりldapデーモンが起動していないことを確認 (slapd はldapデーモンの名前)

  • /usr/sbin/slapd -d 10 と打つ.

  • すると,以下のメッセージが表示され,デーモンが終了している.
    Database environment corrupt; the wrong log files may have been removed or incompatible database files imported from another environment

  • どうやら,dbのファイルが壊れているようだとわかる.

  • db4.2_recover と打つ.

  • dbファイルのrecoverに成功.(何を使ってどこからrecoverしたのかは不明)

  • /etc/init.d/slapd start と打つ.

  • ps aux と打って,slapdデーモンの起動を確認.

  • getent passwd コマンドで,ユーザ情報をgetできることを確認.

  • その後,一般ユーザでsshできることを確認.

  • 以上