生命科學的數(shù)據(jù)分析Data Analysis for the Life Sciences電子書(466頁)
Rafael A Irizarry and Michael I Love
R語言進行生物科學的數(shù)據(jù)分析教程。
介紹
20世紀下半葉,數(shù)字技術史無前例的進步引發(fā)了一場測量革命,正在改變科學。在生命科學領域,數(shù)據(jù)分析實際上已成為每個研究項目的一部分。尤其是基因組學正受到新的測量技術的推動,這些技術使我們能夠首次觀察某些分子實體。
這些發(fā)現(xiàn)導致了類似于鑒定微生物的發(fā)現(xiàn)和顯微鏡發(fā)明所允許的其他突破。這些技術的最佳選擇是微陣列和下一代測序。
傳統(tǒng)上依賴簡單數(shù)據(jù)分析技術的科學領域已被這些技術所取代。例如,過去,研究人員會測量單個目標基因的轉錄水平。如今,可以一次測量所有20,000多種人類基因。諸如此類的進步已經(jīng)導致了從假設到發(fā)現(xiàn)驅動研究的轉變。但是,解釋從這些龐大而復雜的信息中提取的信息數(shù)據(jù)集需要復雜的統(tǒng)計技能,因為偶然出現(xiàn)的模式很容易使人迷惑。這極大地提高了生命科學中統(tǒng)計和數(shù)據(jù)分析的重要性
這本書的封面是什么?
本書將涵蓋成功進行數(shù)據(jù)驅動的生命科學研究所需的幾種統(tǒng)計概念和數(shù)據(jù)分析技能。我們從與計算p值相關的相對基本的概念出發(fā)與分析高通量數(shù)據(jù)有關的高級主題。
我們從統(tǒng)計學和生命科學中最重要的主題之一開始:統(tǒng)計推斷。推論是利用概率從數(shù)據(jù)中學習人口特征。一個典型的例子是解密兩組(例如,案例與對照組)的平均值是否不同。
涵蓋的特定主題包括t檢驗,置信區(qū)間,關聯(lián)檢驗,蒙特卡洛方法,置換檢驗和統(tǒng)計功效。我們利用可能的近似值通過數(shù)學理論(例如,中心極限定理)以及現(xiàn)代計算機技術使之成為可能。我們將學習如何計算p值和置信區(qū)間以及如何進行基本數(shù)據(jù)分析。在整本書中,我們將以統(tǒng)計計算機語言R描述可視化技術,這些技術對于探索新數(shù)據(jù)集很有用。例如,我們將使用它們來學習何時應用可靠的統(tǒng)計技術。
然后,我們將繼續(xù)介紹線性模型和矩陣代數(shù)。我們將解釋為什么使用線性模型來分析組之間的差異是有益的,以及矩陣為何有用表示并實現(xiàn)線性模型。我們將繼續(xù)回顧矩陣代數(shù),包括矩陣符號以及如何將矩陣相乘(在紙上和在R中)。然后我們將應用我們在矩陣代數(shù)上介紹了線性模型。我們將學習如何在R中擬合線性模型,如何測試差異的顯著性以及如何估算差異的標準誤差。
此外,我們將通過擬合線性模型復習一些實際問題,包括共線性和混淆。最后,我們將學習如何擬合復雜的模型,包括交互項,如何對比R中的多個項以及R中的函數(shù)實際上用于穩(wěn)定擬合線性模型的強大技術:QR分解。
在本書的第三部分中,我們涵蓋了與高維數(shù)據(jù)相關的主題。具體來說,我們描述了多種測試,錯誤率控制程序,高通量的探索性數(shù)據(jù)分析數(shù)據(jù),p值校正和錯誤發(fā)現(xiàn)率。從這里我們繼續(xù)進行統(tǒng)計建模。特別是,我們將討論參數(shù)分布,包括二項式和伽馬分布。接下來,我們將介紹最大似然估計。最后,我們將討論層次模型和經(jīng)驗貝葉斯技術以及它們?nèi)绾卧诨蚪M學中應用。
然后,我們討論距離和尺寸縮減的概念。我們將介紹數(shù)學定義距離,并以此來激發(fā)奇異值分解(SVD)以進行降維和多維縮放。一旦了解了這一點,我們將準備介紹分層聚類和k均值聚類。接下來,我們將對機器學習進行基本介紹。
我們首先了解批處理效果以及如何使用成分和因子分析來應對這一挑戰(zhàn)。特別是,我們將研究混淆,顯示批處理效果的示例,與因子分析建立聯(lián)系,并描述替代變量分析。
這本書有何不同?
統(tǒng)計教科書側重于數(shù)學,而本書則側重于使用計算機進行數(shù)據(jù)分析。本書采用Deborah Nolan和Terry Speed所著的StatLabs¹的方法。
下載該資料的還下載
相關資料
相關評論
您的評論: 推薦
發(fā)表評論 可以輸入500字