r1 pro(r1 pro ac)新鲜出炉
最全的HiC-Pro使用记录了,费去了我不少时间来学习这个软件。
Hi-C技术通过交联等实验步骤获得空间上相连的DNA片段,即物理位置上较远的DNA片段之间的互作信息根据染色体内部的互作概率显著高于染色体之间的互作概率将不同的contig或者scaffold分成不同的染色体;根据在同一条染色体上,互作概率随着互作距离的增加而减少将同条染色体的contig或者scaffold进行排序和定向。
HiC-Pro是2015年发表的一款处理Hi-C数据用来辅助组装基因组的工具,也是现在主流应用的一款工具记录一下自己如何使用这个软件的,之前的安装记录见另一篇文章Hic-Pro安装一.文件准备需要准备参考基因组fasta文件,bowtie2建立的索引文件,含有酶切片段信息的bed文件,基因组大小信息的sizes文件,被比对的Hi-C的reads序列文件。
1.下载Hi-C Pro的测试数据及hg19参考基因组http://nservant.github.io/HiC-Pro/QUICKSTART.html#test-dataset参考基因组GCF_000001405.25_GRCh37.p13_genomic.fna.gz
2.建立bowtie2索引bowtie2-build -f GCF_000001405.25_GRCh37.p13_genomic.fna.gz GCF_000001405.25_GRCh37.p13_genomic
# -f 指定参考基因组,空格后面接索引文件前缀,索引文件前缀和基因组名称最好一致;结果生成6个bt2文件3. bed文件,使用digest_genome.py生成酶切片段文件digest_genome.py脚本在HiC-Pro-3.1.0/bin/utils目录下,正常对自己的数据使用命令行为:。
python3 /HiC-Pro-3.1.0/bin/utils/ digest_genome.py hifi_canu.contigs.fasta -r dpnii -o hifi_canu.contigs.bed;
#-r 指定自己的酶切种类名称,大小写都可以。酶的名称或序列,在代码给了如下字典,所以此处-r写^GATC或mboi(注意全小写字母)都可以,^为酶切位点。
测试数据已经建好了bed文件,在HiC-Pro-3.1.0/annotation目录下,HindIII_resfrag_hg19.bed。
第一列是序列名,这里不是原始输入的序列名,而是HiC-Pro自行指定的序列名,第二列和第三列相关,第三列是程序检测到的酶切位点对应序列的起始位置例如,假设采用的酶是dnpii,那么参考基因组序列上GATC位点的起始位置。
4.sizes文件,记录基因组中每条contig/scaffold/chromosome的长度信息的文件正常要对自己的数据使用samtools建立索引,samtools faidx hifi_canu.contigs.fasta,
awk {print $1 "\t" $2} hifi_canu.contigs.fasta.fai > hifi_canu.contigs.sizes测试数据已建好了sizes文件,同bed文件在同一目录下,chrom_hg19.sizes。
这个文件记录了genome.fasta中序列长度信息。5.整理reads目录结构在HiCPro的源码中只会读入指定目录的子目录的文件,源码如下:
所以,建立reads目录结构如下:
注意:其中reads名称默认必须是_R1.fastq.gz和_R2.fastq.gz结尾的6.运行主程序HiC-Pro前修改config-hicpro.txt文件将HiCPro安装目录下的config-hicpro.txt文件拷贝到脚本运行目录下,并进行修改。
通常需修改的地方有以下几个,其中用前半部分参数非常重要,通常每次运行都要修改的所有的参数官网有给出解释,地址链接为:http://nservant.github.io/HiC-Pro/MANUAL.html#manual。
配置文件修改:N_CPU,给定的CPU内存数,给的越多,运行的越快(根据服务器配置);BOWTIE2_IDX_PATH,填写用bowtie2对reference建立索引所在目录,是目录,不是文件名,也不是前缀名;
REFERENCE_GENOME,填写比对的参考基因组前缀;注意:REFERENCE_GENOME一定要和bowtie2建立的索引对应上;GENOME_SIZE,前面生成的sizes文件;GENOME_FRAGMENT,前面用digest_genome.py程序生成的bed文件;
LIGATION_SITE,酶切位点末端补平再次连接后形成的嵌合序列,例如HindIII,则为AAGCTAGCTT;如果是MboI则序列为GATCGATC;如果是dnpii,则为剩下一些参数也很重要,要根据自己的需求进行修改,
LOGFILE, log 文件名称JOB_MEM, 内存大小,内存越大,计算越快;比如100gb或者1000MSORT_RAM = 1000M,我曾设置过3gb和200gb,结果都报错MIN_MAPQ: 最低的质量分数,用于筛选,表示低于该MAPQ值会被过滤。
BOWTIE2_GLOBAL_OPTIONS:默认GLOBAL比对设置BOWTIE2_LOCAL_OPTIONS:默认LOCAL比对设置MIN_FRAG_SIZE: 最小的理论酶切片段大小,eg. 100。
MAX_FRAG_SIZE: 最大的理论酶切片段大小,eg 100000,这范围越大,reads数越多MIN_INSERT_SIZE: 最小的文库片段大小,eg.100MAX_INSERT_SIZE: 最大的文库片段大小,eg.1000,HiC建库的插入片段长度一般在300-500bp。
BIN_SIZE:需要生成的矩阵分辨率(bp),也就是bin的长度,比如原文件中设置的20000 40000 150000 500000 1000000,也就是20kb-1Mb之间,bin的值越小,分辨率越高,处理起来占用内存空间越大。
MATRIX_FORMAT:生成矩阵的形式,可选参数为:complete、asis、upper和lower,默认值为upper,表示保留上半部分如果后续还要做A/B compartment分析的话,需修改成。
complete,否则会影响PCA分析的结果二.运行命令主程序time /public/home/lq/software/HiC-Pro-3.1.0/bin/HiC-Pro \ -c /public/home/lq/script/denovo/
HiC-Pro/test/config-hicpro.txt \ -i /public/home/lq/hlong/denovo/hicpro/test/02.reads \ -o /public/home/lq/software/
HiC-Pro-3.1.0/test/hicpro_test运行到Combine R1/R2 alignment files 时报错了,后换成自己的数据就没事了整个过程共11步,用了6h多,这还是我的小数据的测试用的时间。
三.结果解析所有的输出,都在自己运行软件的时候指定的out文件夹下面,结果目录如下:
bowtie_results:比对结果所在目录;hic_results:hic矩阵及分析结果所在目录;logs:存放分析日志;rawdata:链接了原始数据;tmp:存放中间文件bowtie_results目录下共有三个文件夹:。
bwt2:存放合并后的bam文件和统计结果;bwt2_global:存放全局比对结果;bwt2_local:存放局部比对结果;hic_results目录下面有四个文件夹:data:存放valid pair reads及其他无效数据文件;
matrix:存放不同分辨率矩阵文件;pic:存放统计分析图片;stats:存放统计表;hic_result/data目录中的文件:
allVaildPairs:合并后的Valid pairs数据DEPairs:Dangling end pairs数据DumpPairs:实际片段长度和理论片段长度不同的数据REPairs:酶切片段重新连接的pairs
FiltePairs:基于min/max insert/fragment size过滤的pairs,MAPQ过低的pairs;SCPairs:片段自连的pairshic_result/matrix目录matrix:存放不同分辨率矩阵文件, 分为raw和iced文件,raw: 初始的关联矩阵iced:ice校正后的矩阵,供后续分析使用。
hic_result/pic目录plotHiCContactRanges_Example1.pdf有效互作中各类型比例图;plotHiCFragmentSize_Example1.pdf有效互作的片段大小分布图;
plotMappingPairing_Example1.pd合并后双端比对过滤结果图;hic_result/stats目录:
1.LZ-3-15-1_allValidPairs.mergestat这个文件主要记录的是valid pairs中去除PCR duplication后,trans比对(比对到reference中不同序列)和cis比对(比对到reference中同一条序列)的情况。
其中valid_interaction与xx.mRSstat文件中一致;valid_interaction_rmdup表示去除PCR duplication后的valid interactionValid interaction rmdup = Trans interaction + Cis interaction。
2. LZ-3-15-1.mpairstat这个文件主要记录的是reads对的情况,包括两端均未比对上的reads pair(Unmapped_pairs):3980707 16.746只有一端比对上的reads pair(Pairs_with_singleton):7666170 32.249
低质量的reads pair(Low_qual_pairs):0 0.0唯一比对reads pair(Unique_paired_alignments):4945079 20.803
Unique paired alignments用于后续分析3. LZ-3-15-1.mRSstat这个文件主要记录的是过滤掉的invalid Hi-C products,包括Dangling end pairs、Religation pairs、Self Cycle pairs、Dumped pairs等,如下图所示
4. LZ-3-15-1_R1.mmapstat和LZ-3-15-1_R2.mmapstat它们记录了PE reads分开比对的结果以R1.mmapstat文件为例:total_R1是总的R1 reads;。
mapped_R1有由两个部分组成,分别为:第一步 (HiCPro称为global alignment)比对上的reads pair(即global_R1),第二步比对(HiCPro称为local alignment)比对上的reads对(即local_R1)。
具体关系如下:Total reads = Unmapped pairs + Pairs with singleton + Low qual pairs + Unique paired alignments
四.报错信息及修改1.在进行到 Run quality checks for all samples时报错了,进入Makefile文件中查看脚本181行内容,发现是在运行make_plots.sh脚本时出现错误,
参考Github上ISSUEs上链接:https://github.com/nservant/HiC-Pro/issues/163发现我的dixon_2M.allValidPairs是空的,该文件在/hic_results/data/dixon_2M目录下,原因有可能是因为自己下载的参考基因组的染色体编号和作者提供的bed文件不配套。
换自己的数据后就没事了2.参数设置
后改成3gb五.参考Ref1: https://wap.sciencenet.cn/blog-2970729-1182259.html主程序HiC-Pro可以单线程来跑(不使用--parallel选项),或者采用多线程来跑(使用--parallel选项)
/PATH/TO/HiC-Pro_2.11.1/bin/HiC-Pro --input /PATH/TO/02.reads/ --output hicpro_output --conf /PATH/TO/config-hicpro.txt --parallel
Ref2: https://blog.csdn.net/qq_50637636/article/details/120827491Ref3: https://www.jianshu.com/p/facec96ee6ac
Ref3: Nicolas Servant, Nelle Varoquaux, Bryan R. Lajoie. et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing. Genome Biology. 2015.
- 标签:
- 编辑:李松一
- 相关文章
-
r1 pro(r1 pro ac)太疯狂了
来自调研机构数据显示,目前中国大约有4.3亿个家庭,按照这个比例计算,已经有2%的中国家庭进入了“智能语音时代”。…
-
2014男篮世界杯决赛(2014年男篮世界杯决赛球员数据)这都可以?
你敢相信吗???美国上次在世界杯夺冠已经是九年前的事了。2014年美国男篮战胜塞尔维亚夺得男篮世界杯冠军。大家都说今年美国派出的是…
- 郎平退休金一月多少(2023郎平新消息)怎么可以错过
- 小米cc9配置(小米cc9美图定制版参数配置)学到了
- 蛇吃人吗(蛇吃人吗是一个女的)真没想到
- 蛇吃人吗(蛇吃人吗是一个女的)越早知道越好
- 西门子cx65(西门子CxW2OOC)万万没想到