Thursday, April 14, 2011

NAMDの並列化

4 node x 12 core の計算サーバがあるのだが、namdで4 x 12 = 48並列しようとするとどうしてもエラーがでる。
poll: protocol failure in circuit setup
1 x 12でも出る。
しかも、
node programs all started
とうまくいっているように見せたすぐ直後に。
4 x 10までは平気。
こんなときは++verboseもあんまり役に立たない。

エラーメッセージをぐぐってみると、rshの通信数に制限がありそう。

最終的に
/etc/xinet.conf

# Define access restriction defaults
per_source = 10
に行き着いた。
per_sourceを12に変えて
/etc/init.d/xinetd restart
すると、通るようになりました。
それぞれのノードで書き換えが必要なのでちょっと面倒。