本文へスキップ

R統計処理ソフト

 Rって?

 私がこれを使うきっかけは次世代シークエンスの膨大のデータを処理してグラフなど作る時にEXCELでは不可能になったので勉強する事になった。EXCELではフリーズするような情報でもサクサクグラフかけます。まだ始めたばっかだから要領つかめてないけどね。

Bioconductorのインストール

 マイクロアレイ解析、次世代シークエンスの解析など多くのバイオインフォマティクス解析は、Bioconductorをインストールする事が必要です。どのようなパッケージがあるかというのを以下のサイトで確認する事ができます。

どれが必要なのかいちいち探すのが面倒なので,すべてのパッケージを入れてしまっています。インストール方法はR起動上で

source("http://bioconductor.org/biocLite.R")
biocLite(groupName="all")

でインストールが始まります。長い時間かかる点と4GBぐらいの容量が必要です。

また、CRAN(Comprehensive R Archive Network)にあるものも、すべてのパッケージを入れてしまいます。

packs <- available.packages()
install.packages(packs[,1])

これですべてのパッケージが入りました。


次世代シークエンスのデータ解析


私はRに関してど素人で,東大の門田さんのHPを見ながら解析できているのが現状です。直接そちらをご覧ください。
 
 (Rで)塩基配列解析(主に次世代シーケンサーのデータ)


↓その他のメモ

  • par(mfrow=c(1,n))  n個のグラフを1つにするために


データの抽出(列単位で)


赤文字は自分にあったのに変換して

in_f <- "data.txt"
data <- read.table(in_f, row.names=1)  ※名前ないならrow.namesはカットで
line1 <- data[,n]
line2 <- data[,m]   ※n, mは抽出したい列を数字で,名前の列は無視する。追加も可能
line <- data.frame(line1=length, line2=expression_ratio) 
out_f <- "out_put.txt"
write.table(line, out_f, sep="\t", append=F, quote=F)

Heatmapの作り方

 はじめにライブラリをインストールしなければなりません。これはのちほど説明します。んでRを起動したら以下のようにやればHeatmap作れます。ファイルで出力する場合は#をはずしてください。色はバリアフリーのため,マゼンダと緑を使用しています。


library(genefilter)
library(gplots)

data <-read.delim("m-a_plot3.txt", header=TRUE,row.names=1)

data.z <- genescale(data, axis=1, method="Z")
m2b2g <- colorRampPalette(c("green", "black", "#EC008C"))

png(filename="heatmap.png")

heatmap.2(as.matrix(data.z), col=m2b2g(50), scale="none", key=TRUE, symkey=FALSE,\ density.info="none", trace="none", cexRow=1, margin=c(4,8), main="RPKM normalized\ log2-transformed transcription counts")

dev.off()






inserted by FC2 system