データクリーニング室

コホート調査参加者から収集されるアンケートデータには、収集時、電子化時、データベースへの取り込み時に、何らかのエラーが入り込むことがあります。サイズの小さなデータでは、原本を目視確認することで単純に検出できていましたが、東北メディカル・メガバンク計画のバイオバンクのようなビッグデータでは、エラー候補を効率よく低コストで検出し、注記するやり方が求められます。
データクリーニング室では、こうしたビッグデータのデータクリーニングのために、機械学習・人工知能ベースの手法を開発しています。さらには、大規模ゲノムコホート中のアンケート以外のタイプのデータについても、外れ値の検出に関する洗練された手法を提供しています。

田宮 元 教授 室長