- ホーム
- 生物学的データをクラスタリングする際の一般的な落とし穴の回避
生物学的データをクラスタリングする際の一般的な落とし穴の回避
Avoiding common pitfalls when clustering biological data
Sci. Signal. 14 Jun 2016:
Vol. 9, Issue 432, pp. re6
DOI: 10.1126/scisignal.aad1932
Tom Ronan, Zhijie Qi, and Kristen M. Naegle*
Department of Biomedical Engineering, Center for Biological Systems Engineering, Washington University in St. Louis, St. Louis, MO 63130, USA.
* Corresponding author. Email: knaegle@wustl.edu
要約
クラスタリングは、類似性に基づいてデータ点を分類する教師なし学習法であり、データの基本構造を明らかにするために用いられる。この計算法は、ハイスループット多次元生物学的実験で取得された複雑なデータを理解し視覚化するために不可欠である。クラスタリングは、研究者がさらなる実験のための生物学的推論を行うことを可能にする。強力な技術ではあるが、不適切なアプリケーションでは、生物学研究者は実験的フォローアップの際にリソースと時間を無駄にすることになる。われわれは、分子生物学の公表文献から特定した一般的な落とし穴を概説し、それらを避ける方法を提示する。一般的に遭遇する落とし穴は、ハイスループット実験由来の生物学的データの高次元性、ある問題に対して複数のクラスタリング法を考慮しないこと、およびクラスタリングが意味のある結果を生じたかどうかを決定する困難さに関連する。われわれは、これらの問題点に対して、例題と実際の生物学的データの形で問題と解決法(クラスタリング結果)の具体例を提示する。われわれはまた、複数のクラスタリング解の探索を可能にし、クラスタリング解のロバストネスを向上させる簡便実装法として、アンサンブルクラスタリングを議論する。一般的なクラスタリングの落とし穴に対する意識の高まりは、生物学的データをクラスタリングする際に、研究者の結果の拡大解釈や誤解釈、貴重な洞察の見落としを防ぐであろう。
Citation: T. Ronan, Z. Qi, K. M. Naegle, Avoiding common pitfalls when clustering biological data. Sci. Signal. 9, re6 (2016).