基本概念

HSC pipelineは国立天文台、Princeton 大学(アメリカ)、 東京大学カブリ数物連携宇宙研究機構と共同で開発された HSC データ解析ソフトウェアで、 LSST(Large Synoptic Survey Telescope)用解析 pipeline をベースに作られています。 解析で使用するコマンドは python script の様式で記述されています。 HSC pipeline の解析を実行すると、観測データから検出された天体のカタログと画像が生成されます。 自分のサイエンスの目的に合わせてカタログや画像生成を行ってください。

ここでは、HSC pipeline を用いた解析の際に必要となる概念を紹介します。


リポジトリ、レジストリ

HSC pipeline ではデータ処理を行うためにデータベースを作成します。 このデータベースは、ある決まったディレクトリ構造下におかなければいけません。 このデータ配置の構造を「リポジトリ」 、データベースそのものを「レジストリ」と呼びます。 リポジトリもレジストリも HSC pipeline に同梱されているコマンドを使って設定できます。 HSC pipeline の実行で生成されるリポジトリ構造については こちら をご覧ください。


リラン(rerun)

rerun とは HSC pipeline で使われる解析プロセスの概念です。 ある共通の解析パラメータを用いて画像を生成するまでの一つの解析プロセスを rerun と呼んでいます。 そのため、異なる解析パラメータを用いて画像を生成した場合は異なる rerun で解析が実行されたと見なされます。


データID(dataId)

dataId は入力データを特定するためのユニークIDです。 以下によく使われるキーワードをあげます。

  • visit   : 観測ショット。
  • ccd    : CCD のチップID。
  • tract   : 天域ID(詳細は後述)。
  • pointing : 観測エポック。
  • field   : 観測ターゲット名。FITS ヘッダーの OBJECT に相当。
  • dateObs : 観測日(UT表記)。FITS ヘッダーの DATE-OBS に相当。
  • filter   : フィルター名。FITS ヘッダーの FILTER01 に相当。

トラクト(tract)、パッチ(patch)

tract と patch は HSC pipeline で解析を行う際に必要となる天域IDです。 1 tract のサイズはおよそ 2 × 2 平方度です。 この tract 内を分割した領域を patch と言い、デフォルトの設定では 1 tract 中に 100 patch あり、 1 patch が 4200 × 4200 ピクセル四方の正方形で定義されています(1 ピクセル 0.168”)。 tract も patch も自由に設定することができます。 しかし tract を大きく設定しすぎると領域の端が歪む効果が大きくなるため、 一視野程度のサイズに設定することが推奨されています。


PBS/TORQUE

HSC pipeline のいくつかのコマンドは TORQUE(Tera-scale Open-source Resource and QUEue manager) と呼ばれるバッチ処理システムと組み合わせて使うことができるように実装されています。 TORQUE は OpenPBS(Portable Batch System) という商用のバッチ処理システムをもとに開発された無償のシステムで、 分散並列処理を行う job のスケジュールと query(キュー)の管理を行います。 実際の解析では、使用している TORQUE システム上に複数のキューが作られており、 各キューでは個別に利用できるリソースが制限されています。 そのため TORQUE に job を投入する際には、 必要となる最小のキューに対して投入するよう注意してください。

以下に job の状態を管理する上でよく使用される TORQUE コマンドを紹介します。

  • qstat :job の状態を確認する
  • qdel :job を途中で終わらせる。job 番号は qstat で確認する
  • qsub :job を実行する

スキーマファイル

HSC pipeline で生成される天体カタログファイルのカラム参照ファイルをスキーマファイルと言います。 スキーマファイルは [解析用ディレクトリ]/rerun/[rerun]/schema に生成されます。