• ホーム
  • 生物学的データをクラスタリングする際の一般的な落とし穴の回避

生物学的データをクラスタリングする際の一般的な落とし穴の回避

Avoiding common pitfalls when clustering biological data

Reviews

Sci. Signal. 14 Jun 2016:
Vol. 9, Issue 432, pp. re6
DOI: 10.1126/scisignal.aad1932

Tom Ronan, Zhijie Qi, and Kristen M. Naegle*

Department of Biomedical Engineering, Center for Biological Systems Engineering, Washington University in St. Louis, St. Louis, MO 63130, USA.

* Corresponding author. Email: knaegle@wustl.edu

要約  クラスタリングは、類似性に基づいてデータ点を分類する教師なし学習法であり、データの基本構造を明らかにするために用いられる。この計算法は、ハイスループット多次元生物学的実験で取得された複雑なデータを理解し視覚化するために不可欠である。クラスタリングは、研究者がさらなる実験のための生物学的推論を行うことを可能にする。強力な技術ではあるが、不適切なアプリケーションでは、生物学研究者は実験的フォローアップの際にリソースと時間を無駄にすることになる。われわれは、分子生物学の公表文献から特定した一般的な落とし穴を概説し、それらを避ける方法を提示する。一般的に遭遇する落とし穴は、ハイスループット実験由来の生物学的データの高次元性、ある問題に対して複数のクラスタリング法を考慮しないこと、およびクラスタリングが意味のある結果を生じたかどうかを決定する困難さに関連する。われわれは、これらの問題点に対して、例題と実際の生物学的データの形で問題と解決法(クラスタリング結果)の具体例を提示する。われわれはまた、複数のクラスタリング解の探索を可能にし、クラスタリング解のロバストネスを向上させる簡便実装法として、アンサンブルクラスタリングを議論する。一般的なクラスタリングの落とし穴に対する意識の高まりは、生物学的データをクラスタリングする際に、研究者の結果の拡大解釈や誤解釈、貴重な洞察の見落としを防ぐであろう。

Citation: T. Ronan, Z. Qi, K. M. Naegle, Avoiding common pitfalls when clustering biological data. Sci. Signal. 9, re6 (2016).

英文原文をご覧になりたい方はScience Signaling オリジナルサイトをご覧下さい

英語原文を見る

2016年6月14日号

Editor's Choice

真菌のクオラム

Research Article

1型コルチコトロピン放出因子受容体と共役するGタンパク質の切替えがてんかん脳における興奮性を促進する

Research Resources

近位ビオチン標識から得られた接着斑の分子構成に関するナノメートルスケールの洞察

Reviews

生物学的データをクラスタリングする際の一般的な落とし穴の回避

最新のReviews記事

2020年3月24日号

生死不問のおたずね者RAS:RAS変異がん標的治療の進展

2020年2月18日号

慢性炎症性疾患の治療薬としてのSMAC模倣薬およびRIPK阻害剤

2020年1月7日号

コンテキスト特異的PI3Kシグナル伝達コードを解く

2019年9月17日号

細胞内病原体による宿主細胞受容体チロシンキナーゼの標的化

2019年8月13日号

偽酵素の分類、進化、およびシグナル伝達の新しい概念