サーバーと放射線

昨日ツイートした以下の発言が凄いRT数になっているので、知っている範囲で補足します。


Ciscoのサーバーは、BIOS設定に標高ってパラメーターがあって、
設定値に応じてメモリーのバックグラウンドチェックの頻度が変わるのを最近知った。
会社ぐるみで割と本気で宇宙線気にしてる。

本当なの!?

本当です。Cisco UCSサーバーモデル別 BIOSパラメーターにそのパラメーターについての説明があります。


[Memory Configuration] のパラメータ
物理サーバがインストールされているおおよその海抜(m)。
次のいずれかになります。
[Auto]:物理的な高度を CPU によって判別します。
300_M:サーバは、海抜約 300 m です。
900_M:サーバは、海抜約 900 m です。
1500_M:サーバは、海抜約 1500 m です。
3000_M:サーバは、海抜約 3000 m です。

ツイートでは標高と記載しましたが、日本語マニュアル上は海抜となっています。ちなみに、元のパラメーターはAltitude(高度)です。意味はどれもほぼ同じですね。

ファンの回転数に関するものだと思った

確かに高度が上がって気圧が下がれば空冷の場合冷却効率に影響するはずなのでファンの回転数に関するものだと思ったというコメントは間違ってはいないと思います。
が、このパラメーターはMemoryConfigurationのbitエラーを検出するScrubに関するところの直下にありますので、ファンの回転数制御とは関係ないでしょう。

宇宙線はともかく他の放射線の影響はどうなの?

放射性物理学は素人なのですが、レントゲンで使われるX線やアルファ線は金属で簡単にシールドできるので、金属を透過してかつメモリのセルや回路上の電位を変動させるだけのエネルギーを持っているものは近距離で核爆発でも起きない限りは宇宙線由来のものぐらいしか私も思いつきません。

Cisco以外はどうなの?

他の方のコメントを見てみると、SuperMicroのマザーボードにも同じような設定項目があるとか、DellやIBM製品には動作保証している最高高度の規定があるとか、Cisco以外も気にしていますし、
FPGAのザイリンクスやIBMなんかも宇宙線と半導体のソフトエラーについての論文やコメントを多数出しているようです。(ググればわんさか出てきます)

でも実際影響あるの?

メモリーやロジック回路のソフトエラー(ソフトウェアの障害ではない)は発生しています。が、話題になりにくいのは、以下の理由からです。


  • メモリーのソフトエラーが発生しても使っていないメモリー領域やECCで修復されるなら影響がない

  • ECCで修復できなかったり、使っているエリアで発生すると影響はでるが、ソフトウェアのバグかハードウェアの不良かもしれない

  • ソフトエラーだとしても電磁波や振動や静電気や宇宙線のどれが原因のソフトエラーかを判断するのはほぼ不可能