お知らせ
- 2024.09.05
jMorpの全ゲノムリファレンスパネルおよびメタボロームデータを拡張
ToMMoは2024年9月5日、日本人多層オミックス参照パネル(jMorp: Japanese Multi Omics Reference Panel)に搭載するデータを拡張・追加しました。詳細は以下をご覧ください。
搭載データの拡張(ゲノム)
8.5万人分の全ゲノム情報
東北メディカル・メガバンク計画のコホート調査に参加した方々からご提供いただいたDNAを解析し、前回の2023年6月の公開時から、新たに約1.6万人分の全ゲノムの解析を完了しました。今回の解析データの追加は、官民共同10万人全ゲノム解析計画に基づくものであり、2021年3月に設立した「全ゲノム情報と医療・健康情報の統合解析コンソーシアム」からも大きな支援を受けています。解析したデータは、順次、全国の研究者に提供します。 解析データ個々の品質情報等は Sample Repository にまとめられています。
日本人全ゲノムリファレンスパネル
8.5万人の全ゲノム情報から頻度が偏らないよう血縁関係にないと推定される6万人を抽出し、日本人全ゲノムリファレンスパネル60KJPNを構築しました。
SNV、INDEL、STR、HLA
昨年6月に発表した、前バージョンの54KJPNと比較すると、検体数は6,000人増えました。
常染色体上のSNV・INDEL数はそれぞれ約4,100万個、340万個増加しました。過去のバージョンに搭載されたバリアントと比較すると下表のようになります。
SNV数 | INDEL数 | |
38KJPN | 176,329,248 | 21,824,946 |
54KJPN | 187,086,901 | 24,193,448 |
60KJPN | 228,242,649 | 27,640,343 |
MNV
MNV(multi-nucleotide variant)はDNA上で近傍にある複数の塩基が一度に変異する現象を指します。通常、単一の塩基が変異する場合は「一塩基多型(SNV: single nucleotide variant)」と呼ばれますが、MNVは複数の近傍の塩基が変異するケースに該当します。例えば、DNA配列が “ACGT” から “TGCA” に変わる場合、4つの塩基が同時に変異しているため、これはMNVに該当します。MNVの解析は、SNV・INDELの解析ほど一般的ではないかもしれません。しかし、MNVはタンパク質のアミノ酸配列に対して、SNVとは異なる影響を及ぼす可能性があり、その結果、タンパク質の機能に大きな変化をもたらすことがあります。また、疾患の中には、単一のSNVだけでなく複数の変異が組み合わさることで発症するようなものもあり、この点でも日本人のMNV頻度データ、疾患スクリーニング等の目的において重要なリソースとなり得ると考えられます。
今回6万人を対象とした全ゲノム短鎖リードシーケンスデータを用いてMNV解析を行い、頻度情報を掲載しました。表示例(遺伝子ページ・MNVページ)
MNV搭載数は下表のようになります。
常染⾊体 | X染⾊体(PAR2個版) | X染⾊体(PAR3個版) |
19,745,411 | 682,937 | 683,880 |
搭載データの拡張(メタボローム)
NMR
NMRによる45種類の代謝物の測定データを、約7千人分追加して5万6千万人としました。すでに公開している妊婦のデータを加えると6万9千人のデータセットとなりました。
MS
LC-MS/MS による標的メタボローム解析について、すでに公開している約550種類 9千人の測定データを、子ども約2千人を含む約5千人分追加して約1万4千人のデータセットとなりました。これにより、より幅広い年齢層における分布の差異を見ることができるようになりました。子どものメタボロームデータはjMorpでは初の掲載であり、世界的にも一般集団における子どもの2千人規模のメタボロームデータは希少であるといえます。
jMorp: Japanese Multi Omics Reference Panel
今回の全ゲノムリファレンスパネルの公開にあたって、これまでとパネル構築のプロセスを一部変更しました。従来、パネル作成の過程で、パネルに含めるデータを主成分分析(PCA)という手法によって限定していましたが、今回からそのプロセスを採用しないこととしました。結果として、搭載されたバリアント数は、従来方法で検出されるよりも多くなっています。
これまではPCAによりゲノム情報の類似性を計算し、一定以上の類似性がある集団についてパネルを構築してきました。そのことにより、特異性が高い個人の特定リスクを排除することも、このプロセスの目的としてきました。しかしながら、パネルへの搭載数が大幅に増加してきたことで個々のデータに関する個人特定リスクは下がってきました。また、これまでのパネルの利活用の動向を鑑みると、できるだけ多くのバリアントを搭載することに大きな需要があることが想定されました。更に、国際的には、特に2023年3月に米国のNational Academy of Science, Engineering and Medicineから発表されたレポートなどに見られる通り、ゲノム情報の取扱いにあたっては多様性を尊重すると共に、さまざまな属性でラベルをすることに慎重となるべきことが求められる流れが強まっております。当パネルは引き続き、日本人全ゲノムリファレンスパネルという名称を継続しますが、基本的にはコホート調査に参加された方々から提供された試料を解析して得られたデータ全てを対象とし、品質が一定以上の解析結果をもとに、その他の属性で搭載の有無を区別しないものとなりました。