スーパーコンピュータをリニューアル。ポイントは柔軟な運用

東北メディカル・メガバンク(TMM)計画のスーパーコンピュータは、2022年4月に2回目のリニューアルを行いました。今回の更新で大きく変わったのは柔軟な運用が可能となった点です。

TMM計画のスーパーコンピュータは、「Unit A」「Unit B」「Unit C」に分かれており、それぞれ以下のように接続可能な範囲が異なります。
Unit A(公開区画) — インターネット
Unit B(分譲・共同研究区画) — 遠隔セキュリティエリアおよびToMMo内のセキュリティエリア
Unit C(解析区画) — ToMMo内およびIMM内のセキュリティエリア

これまでは、Unit毎に独立した装置(計算ノード、ストレージ)を割り当てており、縦割りの運用を行ってきました。いわばスーパーコンピュータが3つあるようなイメージです。

このため、例えばUnit Aでは利用可能な資源があるのに、Unit Bでは足りない、といったケースが発生していました。こういった利用の偏りは、シーズンや研究の状況等によって異なり、恒常的にUnit Aが余っているからUnit Bに物理的に振り分ける、といった方法では解決できなかったのです。

この課題を解決するため、今回のリニューアルでは物理的に区画を分けるのではなく、仮想的にUnitを分離しました。こうすることにより混雑状況に応じて計算ノードやストレージがUnit間で融通し合えるようになったのです。
ストレージについては状況に応じて振り分けるだけでなく、異なるUnitから同時に参照することも可能となりました。15万人のコホート参加者から得られる各種解析情報は、膨大なデータ量となります。これまでは、Unit C(解析区画)で解析したデータをUnit Cにはアクセスできない遠隔セキュリティエリアから利用するためには、Unit B(分譲・共同利用区画)にコピーしてから利用する必要がありました。つまり二つのUnitで同じデータを重複して持たなければならなかったのです。今回のリニューアルによりこの問題が解決しました。

スーパーコンピュータで実施しなければならない計算、格納しなければならないデータは、計画の進捗に伴いどんどん増えるばかりです。私たちは限りある資源をより効率的に利用できるよう、スーパーコンピュータの運用方法を工夫しているのです。

その他の変更点についてはこちらをご覧ください。

(2022年5月24日)