河北新報 リレーエッセー 医進伝心 第36回

ヒトのDNA配列データ解析と機械学習/医療診断の支援に活用

2015年8月19日 掲載
 小島要

皆さんは機械学習という言葉を聞いたことがありますか? 文字通りに捉えると機械が学習するとなりますが、人間の行動をコンピューターが学習して行う技術を開発する人工知能研究の一分野で、情報科学・統計科学の先端技術が余すことなく導入されている分野です。具体的には、手書き文字認識、物体の認識と自動追跡、音声認識と書き起こしなどがあり、手書き文字認識については郵便の自動宛名読み取りに使われているためなじみ深い技術かと思います。
機械学習はこうした日常のデータだけでなく、ヒトのDNA配列の解析にも用いられています。DNA配列は4種類の塩基に対応したA、T、G、Cからなる文字列で表現され、ヒト1人当たり、その文字列の長さは約30億文字です。一人一人のDNA配列は非常に似通っており、通常の解析過程では、代表とされるヒトDNA配列に対して、どの場所のどの文字が異なるかを特定する作業が行われます。しかしながら、DNA配列の解析技術には読み取り誤りがあり、その誤りを考慮して、慎重に文字列を決定する必要があります。人間が直接行う場合、その作業量は膨大であり、途方もない年月がかかりますが、機械学習を用いた場合、読み取り誤りの発生確率や発生パターンを統計的に解析し文字列決定することで、最新の計算機ならば、約3日で解析をおおむね終えることが可能です。
現在、機械学習は医療診断の支援にも用いられています。さらに医療診断そのものを行うシステムの開発にも進出してきており、ますます目の離せない技術となっていくことでしょう。
 
小島要プロフィール
リレーエッセー医進伝心 一覧