hscPipe 用語集

ここでは、hscPipe を用いた解析の際に必要となる概念についてまとめています。


リポジトリ・レジストリ

hscPipe ではデータ処理を行うためにデータベースを作成します。このデータベースは、ある決まったディレクトリ構造下におかなければいけません。 このデータ配置の構造を「リポジトリ」、データベースそのものを「レジストリ」と呼びます。 リポジトリもレジストリも HSC pipeline に同梱されているコマンドを使って設定します。 HSC pipeline の実行で生成されるリポジトリ構造については リポジトリ構造 をご覧ください。


rerun (リラン)

rerun とは hscPipe で使われる解析プロセスの概念です。 ある共通の解析パラメータを用いて画像を生成するまでの一つの解析プロセスを rerun と呼んでいます。 解析中の結果や中間ファイルはすべてこの rerun 名の下のディレクトリに保存されます。 そのため、異なる解析パラメータを用いて画像を生成した場合は異なる rerun で解析が実行されたと見なされます。 解析で使うパラメータを変えたり、違う領域を扱う場合は、新しい rerun で処理を行うことを推奨します。


detaId (データID)

dataId は解析に使う入力データを特定するためのユニークIDです。以下のようなキーワードがよく使われます。

  • visit : 観測ショット
  • ccd : CCD チップID
  • tract (トラクト) : 天域ID (詳細は後述)
  • pointing : 観測エポック
  • field : 観測ターゲット名、FITS ヘッダの OBJECT に相当
  • dateObs : 観測日 (UT)、FITS ヘッダの DATE-OBS に相当
  • filter : フィルタ名、FITS ヘッダの FILTER01 に相当

tract (トラクト)、patch (パッチ)

tract と patch は HSC pipeline で解析を行う際に必要となる天域IDです。 1 tract のサイズはおよそ 2 × 2 平方度です。 この tract 内を分割した領域を patch と言い、デフォルトの設定では 1 tract 中に 100 patch あり、1 patch が 4200 × 4200 ピクセル四方の正方形で定義されています(1 ピクセル 0.168”)。 hscPipe 内では tract も patch も自由に設定することができますが、tract を大きく設定しすぎると領域の端が歪む効果が大きくなるため、一視野程度のサイズに設定することが推奨されています。


PBS/TORQUE

HSC pipeline のいくつかのコマンドは TORQUE(Tera-scale Open-source Resource and QUEue manager)と呼ばれるバッチ処理システムと組み合わせて使うことができるように実装されています。 TORQUE は OpenPBS(Portable Batch System)という商用のバッチ処理システムをもとに開発された無償のシステムで、 分散並列処理を行う job のスケジュールと query(キュー)の管理を行います。 実際の解析では、使用している TORQUE システム上に複数のキューが作られており、各キューでは個別に利用できるリソースが制限されています。 そのため TORQUE に job を投入する際には、必要となる最小のキューに対して投入するよう注意してください。

job の状態を管理する上でよく使用されるコマンドは下記です。

  • qstat : job の状態を確認する
  • qdel : job を途中で終わらせる、job 番号は qstat で確認する
  • qsub : job を実行する

スキーマファイル

HSC pipeline で生成される天体カタログファイルのカラム参照ファイルをスキーマファイルと言います。 スキーマファイルは [解析用ディレクトリ]/rerun/[rerun]/schema に生成されます。