随着ncbi数据库各种资源的涌现,NCBI已经成为科研工作者必不可少的工具了。那么各位小伙伴们,你能说出NCBI有多少数据库吗?有哪些实用的工具吗?不知道的就进来看看吧!
1NCBI数据库更新进展
1.1PubMed搜索功能的增强
1.2primer-BLAST分析工具
1.3BLAST的改进及更新
“BLASTtree”结果输出模式可以测量不同序列间的距离,自动收起亚类信息等。现在,可以以Newick格式或Nexus格式下载BLASTtree结果,也可以在进化树图中选择任一节点重新构树。最后还要向读者介绍ncbiblast的一个新网址:URL:blast.ncbi.nlm.。NCBI建议读者都使用这个网址登陆NCBIBLAST,因为该BLAST使用更多的计算机进行分析,也具有更强的系统容错能力。
1.4EntrezGene改进及更新
基因组注释工作当中有一项重要的工作就是定位基因重叠群序列(contigsequences),即在染色体中找出某个基因的定位。实际上基因组测序工作就是将许多基因重叠序列彼此拼接,最后拼出“完整(中间会有一些缝隙)”的基因组图谱。这项工作可以直接将某个基因与某段基因重叠群序列对应起来,但不能直接将该基因与染色体联系起来,而这恰恰是生物学家最感兴趣的地方。因此,为了能让用户在搜索基因的同时,也能了解到一些该基因在染色体中的定位情况,EntrezGene推出了新的“Limits”服务,用户可以使用该服务在基因组范围内进行基因搜索。用户可以在某个物种染色体的某个区域里进行基因搜索。
EntrezGene会按以下三种顺序对搜索出的基因进行排序:
1.按照基因名排序。
3.按照基因重要性排序,即按照该基因在PubMed、Homologene、ProteinClusters、OnlineMendelianInheritanceinMan(OMIM)或Bookshelf中文献数量的多少进行排序。
2.ENTREZ搜索系统
2.1Entrez
2.2MyNCBI
3BLAST比对系统
3.1BLAST
BLAST默认的比对信息数据库包括NCBI中的人类基因组数据库和人类RefSeq数据库。比对之后,BLAST会按照评分高低、序列相似度对结果进行排序,另外BLAST还可以对小鼠数据库以及其它基因组数据库进行比对。
蛋白质序列的默认数据库包括GenBank非冗余数据库、RefSeq、Swiss-Prot、PDB、PIR和PRF等。此外,还包括这些数据库下的子数据库以及其它一些专利数据库和诸如核酸数据库等环境样品数据库(environmentalsamples)。
3.2BLASToutputformats
标准的BLAST输出格式包括默认的配对比对格式(defaultpairwisealignment)、搜索定位的多序列比对格式(query-anchoredmultiplesequencealignmentformats)、简单的可解析的HitTable格式以及按照分类学给出的报告格式等。一种叫做“按照同一性进行配对(Pairwisewithidentities)”的格式能更好地突出目标序列与检索序列之间的差别。而WebBLAST中提供的树状浏览格式则会按照搜索出的目标序列与检索序列之间的距离不同将这些目标序列进行聚类,形成一幅树状图来显示结果。BLAST比对之后给出的每一种格式的比对结果都会有一个分值和E值。用户也可以设定一个E值的阈值来筛选比对结果。
3.3MegaBLAST
MegaBLAST也是一种BLAST程序,不过它主要是用来在非常相似的序列之间(来自同一物种)比对同源性的。使用者通过网页使用MegaBLAST进行批量比对操作,这比使用标准的BLAST程序要快10倍。MegaBLAST在NCBI基因组BLAST页面下是默认的搜索工具,借助它能对增长迅速的TraceArchives数据库和标准BLAST使用的数据库进行快速检索。NCBI还为跨物种核酸序列快速搜索提供了DiscontiguousMegaBLAST,它使用非重叠群字段匹配算法(noncontiguouswordmatch)来进行核酸比对。DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。
3.4GenomicBLAST
3.5NCBI在线BLAST用法
首先进行Blast类型的选择:
blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。
基本步骤如下:
1)进入在线blast界面,可以选择blast特定的物种(如下)。不同的blast程序上面已经有了介绍。这里以常用的Blast中nucleotideblast作为例子。
Human人
Mouse小鼠
Rat大鼠
Arabidopsisthaliana拟南芥
Oryzasativa水稻
Bostaurus牛
Daniorerio斑马鱼
Drosophilamelanogaster黑腹果蝇
Gallusgallus乌骨鸡
Pantroglodytes黑猩猩
Microbes微生物
Apismellifera蜜蜂
选择相应的物种做BLAST即可!
2),粘贴fasta格式的序列(可以是多条奥!!)或使用Accessionnumber(s)、gi(s)(注意仅使用数字,不加上标志符gi)。选择一个要比对的数据库,如果是人和鼠则进行相应的选择,否则选择Others中的nr/nt。关于数据库的说明请看NCBI在线blast数据库的简要说明。其他选项不是必选的,如JobTitle就是这次比对的名字,随便起一个即可;Organism为物种,可以填入你想比对的物种(分类单元如greenplant等)的名字(拉丁名字,输入几个字母后会出现索引的)。第一个直接填入框中,往后需要点击一下加号后才能继续添加,选择Exclude就是与这些物种以外的物种序列进行比对。
另外对于LimitbyEntrezQuery这一部分也为选填内容,若填写可以进行更为有效的限制,如可以限制分子类型、序列长度等等。具体限制内容如下:
proteaseNOThiv1[organism]这将会将Blast检索限定在proteases,但不包含HIV1.1000:2000[slen]对于核酸这将会将检索的序列的碱基长度限制在1000to2000bp,对于蛋白质,则将残基个数限制在1000to2000。
3)blast参数的设置。注意显示的最大的结果数跟E值,E值是比较重要的。筛选的标准。
4)注意一下你输入的序列长度。注意一下比对的数据库的说明。
5)blast结果的图形显示。没啥好说的(注意标题157BlastHits意思为共有157条比对上的序列)。
6)blast结果的描述区域。注意分值与E值。分值越大越靠前了,E值越小也是这样。在下面图中可以在左边的复选框中选择,然后点击download可以一起下载这些序列。下载格式一般选择FASTA(completesequence)格式较好。
7)blast结果的详细比对结果。注意比对到的序列长度。评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度的话,就有四个标准了。如图中显示,比对到的序列长度为1299,看Identities这一值,才匹配到1264bp,而输入的序列长度也是为1509bp,就说明比对到的序列要长一点。
附:
E值(Expect):表示随机匹配的可能性,例如,E=1,表示在目前大小的数据库中,完全由机会搜到对象数的平均值为1.E值越大,随机匹配的可能性也越大。E值接近零或为零时,具本上就是完全匹配了。通常来讲,我们认为E值小于10-5就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会S值比现在这个要高的话,那么不E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。但是E值也不是万能的。它在以下几个情况下有局限性:
1)当目标序列过小时,E值会偏大,因为无法得到较高的S值。2)当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gapscores就非常有用。3)有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。
E值总结:
E值适合于有一定长度,而且复杂度不能太低的序列。当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。当E值小于10-6时,表时两序列的同源性非常高,几乎没有必要再做确认。
一致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。
Score得分值越高说明同源性越好;Expect期望值越小比对结果越好,说明因某些原因而引起的误差越小;Identities是同源性(相似性),例中所示比对的1299个碱基中只有35个不配,其他97%相同;
8)Blast的三个程序
1)MEGABLAST常被用于鉴定核酸序列。
MegaBLAST是一种BLASTN程序,主要是用来在同一物种非常相似的序列(相似度大于等于95%)之间同源性的比较。鉴定某一段核酸序列是否存在于数据库,最好的方法就是选择MEGABLAST。当然,BlastN/MEGABLAST/DiscontiguousMEGABLAST,都可以完成这种事情。但MEGABLAST就是特别设计用于非常相似长序列之间的比对,可用于寻找查询序列的最佳匹配的序列。总之此程序主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。速度快用于同一物种间的。
2)DiscontiguousMEGABLAST
用于查找不同物种的相似的核酸序列,而不是查询相同的序列。
DiscontiguousMEGABLAST,用于跨物种核酸序列快速比对。它使用非重叠群字段匹配算法(noncontiguouswordmatch)来进行核酸比对。DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。但是需要指出的是,核酸与核酸之间的比对并不是发现同源蛋白编码区域的最佳方法,直接在蛋白水平用Blastp比对更好。这是因为密码子的简并性。blastn比MEGABLAST更为敏感是因为它使用一个短的默认字长11.所以blastn从其他物种寻找同源性比MEGABLAST更好。blastn字长可以从默认值调整至7来增加检索的敏感性用相同字长检索在discontiguousMEGABLAST的效率和敏感度要高于标准的blastn。
需要重点指出的是核酸序列的相似性检索并不是在其他物种中发现同源蛋白编码区的最好的方法。要完成这项任务最好要通过蛋白质水平上的相似性检索。可以采用directprotein-proteinBLAST和translatedBLASTsearches的方法进行。
3)BlastN运行缓慢,但是允许将字长降低到7个碱基,增加检索的敏感性。
9)Filter(较少用)
Filter(Low-complexity)
过滤器(Filter):过滤器可以屏蔽查询序列中低成分复杂性(LowCompositionalComplexity)片断(所谓低成分复杂性片段指四种碱基出现的机会不均等,往往是某几个碱基连续出现如此序列:CGGGGGAAAAAAAAGGGGAAAAAAARAAAAMR)。它只能过虑待比对的序列及其转录产物中的低成分复杂性片断,不能过虑数据库中存在的序列中低成分复杂性片断。用户可以在BLAST和BLAST2.0的高级检索中选择相应的过滤程序以消除对检索结果的干扰,如不用过滤功能则选择“NONE”。但是在BLAST和BLAST2.0基本检索中,因为,系统对于不同的BLAST程序设定了默认值,例如对于blastn程序,其默认值为“DUST”,其可以消除统计学上有重要意义但生物学上没意义的区域的对比,使输出结果只呈现在生物学上有意义的区域。而对于blastn以外的其他程序,默认值为“SEG”,所以用户只须选择用不用过虑功能,而不必设定过虑程序。有时在与WISS-PROT和refseq数据库中进行比对时SEG程序未起作用,这也是正常的。
4文献资源
4.2PubMedCentral
PubMedCentral是一个收录生命科学领域同行评审期刊(PeerReviewedJournals)文献的数据库,现收录超过160万条全文文献,并且仅去年一年就增长了51%。而且,包括《核酸研究》(NucleicAcidsResearch)在内的480多种期刊会为PubMedCentral提供全文文献。
所有参与PubMedCentral的出版商也都必须在文献出版后12个月之内免费为PubMedCentral提供全文文献。由于NIH于2008年4月7日开始执行向公众免费开放使用的政策,故而PubMedCentral也必须免费向公众开放使用。如此一来,用户使用Entrez就可以搜索到PubMed和PubMedCentral中的所有文献信息了。
4.3NCBIBookshelf、NLMCatalog以及Journalsdatabase
NCBIBookshelf通过与作者和出版商合作,收录了86种在线教科书和生物医药类图书。NCBIBookshelf作为独立于Entrez数据库的一个单独数据库,它里面的信息也可以通过文本搜索或Entrez数据库,例如PubMed、PubMedCentral、Gene和OMIM中的链接搜索到。NCBIBookshelf中的图书不是象普通图书那样一本一本的存放的,而是按照内容将它们分成了230,000个不同的部分、章节进行储存的。用户浏览其中一个内容的时候也可以跳到该书的其它部分或者直接搜索这本书中的特定内容进行阅读。
Journalsdatabase(期刊数据库)包含了每一个Entrez数据库中的所有期刊信息。目前共收录有超过22,000条记录,期刊数据库为每一份期刊都建立了ISO刊名缩写索引、出版日期索引和NLMcatalog链接索引以及Entrez中引用该期刊中文献的索引。
5.1数据库
5.1.1Gene
Gene数据库与PubMed中最新引文之间的链接是由基因注释人员负责维护的,这项功能也被称作GeneRIF。完整的EntrezGene数据集以及物种特异性的数据亚集可以在NCBIFTP站点中的NCBIASN.1中找到。一种可以将NCBIASN.1格式转化成XML格式的名为ene2xml的软件也可以到ftp.ncbi./toolbox/ncbi_tools/converters/by_program/gene2xml下载。
5.1.2UniGene和EST
UniGene从属于GenBank的一部分,专门收集转录体序列数据,包括EST序列和非冗余序列,每一条UniGene记录都代表一个潜在的基因。UniGene收录了GenBank中来自所有物种的EST序列。UniGene数据库每周都会更新EST信息,每两个月会更新序列信息。
5.1.3HomoloGene数据库
5.1.4ReferenceSequences
用户可以通过三个Entrez数据库——Nucleotide、EST和GenomeSurveySequence(GSS)(这三个数据库在E-Utilities中分别称作nuccore、nucest和nucgss)搜索到GenBank中的序列。EntrezNucleotide数据库含有除了收录之外的GenBank中所有的序列,它还收录有全基因组鸟枪法测序序列、第三方注释序列(ThirdPartyAnnotationsequences)和Entrez结构数据库中的序列。对这些记录中编码序列概念上的翻译信息都收录在了Entrez蛋白质数据库中。EST数据库收录了GenBankEST中的所有数据和没有生物学注释信息的“单分子识别首次通过(first-passsingle-read)”的cDNA序列。同样,GenBank中的GSS数据库也收录了没有生物学注释信息的单分子识别首次通过的基因组序列。
5.2分析工具
5.2.1ORFFinder、Spidey和Splign
NCBI提供了几种分析工具可以帮助用户在基因组内发现编码序列。OpenReadingFrame(ORF)Finder程序可以将一段DNA序列按照6种进行翻译,然后返回某一段DNA序列中可能的ORF。
Spidey工具将一组真核生物的mRNA序列与一个基因组序列进行比对,使用4种物种的RNA剪切模型(脊椎动物、果蝇、秀丽隐杆线虫和植物)来预测RNA剪切位点。Splign是一种通过比对cDNA和基因组序列来发现剪切位点的工具,它可以在测序出现错误的情况下使用,还可以进行跨物种的比对。Splign使用了一种Needleman-Wunsch算法,与区域化算法(compartmentizationalgorithm)一起使用能发现可能的基因位点。用户可以在Splign网页上下载单独为大批量分析而专门设计的Splign工具使用。
5.2.2ElectronicPCR(e-PCR)
不同的科研小组使用他们各自的方法研究同一物种基因组时,对于基因组中的基因定位可能会得到相似但不完全相同的结论。这样,就会对其它的科研工作者造成困扰。在所有的模式生物中,目前对人类和小鼠的基因组序列研究得最多也最透彻,因此它们最适合用来作为“标准的(consensus)”基因注释的“实验材料”。
CCDS数据库计划(www.ncbi.nlm./CCDS/)就是由NCBI、欧洲生物信息学研究院(EuropeanBioinformaticsInstitute)、韦尔科姆基金会桑格研究院(WellcomeTrustSangerInstitute)和加州大学圣克鲁兹分校(UCSC)共同合作建立的标准的有关人类和小鼠基因蛋白质编码区的数据库,该数据库会不断更新来保持其高水准。用户可以在CCDS的网页上使用基因名或序列ID进行搜索,还可以链接到EntrezGene数据库、历史记录信息、转录体和蛋白质序列、MapViewer、EnsembleGenomeBrowser、UCSCGenomeBrowser和桑格研究院的VegaBrowser。用户可以到ftp.ncbi.nlm./pub/CCDS/下载CCDS序列数据。
6基因组信息
6.1数据库
6.1.1Genome
顺便介绍常用下在基因组地方:
NCBI下载。
1、进入NCBI,点击Assembly
2、输入要下载的物种名字,本处以小麦为例。输出结果如下:
以第2条这一版本为例进行点击查看如下:
4、点击下载你想要的GFF、基因组文件即可。
Ensemble
在网站最下方有EnsemblBacteria;EnsemblFungi;EnsemblPlants;EnsemblProtists;EnsemblMetazoa几个子数据库
我想检索小麦,故进入EnsemblPlants数据库,如下。点击选择物种Triticumaestivum
进入如下界面。
点击DownloadDNAsequence(FASTA)
另外还以一种简便方法就是直接从下面页面下载,网址是:
Phytozome(JGI)下载
1、注册账号
3、选择物种Triticumaestivumv2.2
4、点击Bulkdata
5、点击Okproceedtodata
进入如下界面
7、选择自己想要的基因组,蛋白质、GFF文件等下载(这里面还有最长转录本primaryTranscriptOnly*信息啊,在由可变剪接情况下不用自己处理奥)
6.1.2NCBITraceArchives
TraceArchives数据库储存了由凝胶/毛细血管测序平台(例如AppliedBiosystemsABI3730)测序(一代测序)获得的序列数据。
6.2分析工具及资源
6.2.1MapViewer
6.2.2ModelMaker以及EvidenceViewer
ModelMaker(MM)是用来构建转录模型的一种工具,它将通过由从头预测法(abinitiopredictions)预测出来的外显子以及通过与GenBank中的转录体数据库EST和RefSeq比对之后得来的外显子,与NCBI的人类基因组数据库结合在一起来构建转录模型。
EvidenceViewer(EV)则将所有能支持基因注释信息正确性的序列信息证据进行了归纳总结,它采用的是将RefSeq、EST等GenBank中的转录体信息与基因组重叠群进行比对的方法。EV显示了每一个外显子的详细比对结果,并突出显示了其中不匹配的部分。
6.2.3EntrezcancerChromosomes
6.2.4TaxPlot、GenePlot和gMap
6.2.5InfluenzaGenomeSequencingProject(IGSP)
IGSP(流感基因组测序计划)为研究流感的科研工作者提供了越来越多的序列资料,他们可以借此找出流感病毒致病的遗传性状。到目前为止,该计划已经得到了超过33,000条流感病毒序列。NCBI的流感病毒资源也和IGSP之间设有链接,还可以通过PubMed找到所有最新的有关流感病毒方面的文献和各种在线分析工具及数据库资源。这些数据库包括NCBI的流感病毒序列数据库(InfluenzaVirusSequenceDatabase),该数据库收录有GenBank和RefSeq中超过70,000条流感病毒的序列。科研人员借助流感病毒资源提供的各种工具能对超过83,000条流感蛋白质序列进行分析。Entrez的生物学数据库中还收录有超过100条流感病毒蛋白质结构信息和350多条有关流感病毒种群研究的资料。还有一种在线流感病毒基因组注释工具能帮助科研工作者们分析新发现的流感病毒序列并进行注释,然后将结果通过tbl2asn等上传工具递交给NCBI的GenBank数据库。
6.2.6EntrezProteinClusters
7基因型和表型信息
7.1基因型和表型数据库
7.2dbSNP
dbSNP数据库(单核苷酸多态性数据库)收录的是单核苷酸多态性信息,例如单个碱基的替换、缺失或插入信息。共收录有将近1800万条人类SNP信息和3300万条其它各物种的SNP信息。dbSNP数据库还收录确认信息、种群特异性等位基因频率信息(population-specificallelefrequencies)和个体基因型信息。所有这些信息都可以在dbSNP数据库的FTP站点中找到。
7.3供常规临床应用的数据库
7.3.1dbMHC
dbMHC数据库是有关主要组织相容性复合体(MHC)的数据库。它收录了各种MHC等位基因的变异信息,这些信息与器官移植以及个体对感染性疾病的易感性有非常重要的关系。dbMHC数据库收录了1000多条MHC等位基因序列以及这些等位基因在人群中出现的频率,还收录了人白细胞抗原(HLA)的基因型与全世界临床造血干细胞移植成功率之间的信息。
7.3.2dbLRC
7.3.3dbRBC
7.4OMIM
2016年9月22日,中国“诺亚方舟”——中国国家基因库正式投入运行。这是继美国、日本、欧盟之后,全球第四个建成的国家级基因库,也是目前为止世界最大的基因库。未来大众掌握自己的健康数据将不再是出现在科幻电影中的情节。
OMIM前世今身
OMIM数据库内容组成
上图是OMIM界面图示,我们能够看到OMIM数据库的组成部分,介绍如下:
Home:OMIM主界面
About:介绍OMIM信息
Satistics:包括3部分内容,即数据增加或删改信息、OMIN条目统计、OMIM基因图谱统计
Downloads:注册下载或API
Help:常见问题、搜索帮助、链接帮助和API帮助
ExternalLinks:外部资源链接
TermsofUse:如何在参考文献中引用OMIM
如何解读MIM编号?
被世界公认的MIM号如何解读,有何特殊意义?下面我们来解读MIM独特的六个位编号。
300000-399999:X连锁位点或表型
400000-499999:Y连锁位点或表型
500000-599999:线粒体位点或表型
如果是等位基因异质性,MIM编号后面会加上小数点和4位数字,指明变异。例如:HBB基因(141900)等位基因变异的MIM编号是141900.0538。
MIM编号前的符号代表什么?
*:基因
#:描述型条目,通常是一个表型,而不是特殊位点
+:条目包括已知序列基因和表型的描述
%:该条目描述了已经确定的孟德尔表型或含有未知的分子基础的表型位点
^:这个条目已经不存在,已经从数据库中移除或被移至其他条目中了
无符号:孟德尔遗传情况还未被明确,或者它从里一条记录的性状中分离的情况还不明确
如何使用OMIM检索信息?
OMIM支持多种搜索方式,详细介绍如下:
1、基础搜索方式:
1)输入MIM号或症状,搜索结果会按照信息匹配多少顺序一一列出。
2)使用+/-,如:输入+muscular+dystrophy-duchenne,搜索到的条目包括muscular、dystrophy但不包括duchenne。
3)使用引号,搜索短语,如:“+muscular+dystrophy”-“duchennegene”,搜索到的条目包括“musculardystrophy”但不包括“duchennegene”。
4)使用通配符?和*,?用于单字母匹配搜索,*用于多字母匹配搜索。如:输入dystroph*,系统会反馈dystrophia/dystrophin/dystrophic/dystrophy等的条目。输入dystroph?,系统会反馈dystrophin/dystrophic/dystrophy等,但是不会出现dystrophia的条目。
5)支持Boolean符号搜索,如:输入muscularANDdystrophyNOTduchenne,与+muscular+dystrophy–duchenne,系统反馈信息一致。
6)分组搜索,有时使用Boolean搜索,系统反馈信息不精确,不能迅速看见我吗想要查询的信息,这时我们可以采用分组搜索的方式。分组搜索使用小括号对输入信息进行分组,如:(muscularANDdystrophy)OR(duchenneANDgene)。
8)日期搜索:以年/月/日的形式搜索,可以加-、*等。
9)染色体位置搜索:输入1p36-p32,搜索结果显示位于这个区域基因对应的条目。
2、高级搜索方式,如下图所示。您可以限定搜索信息范围,精确搜索。
OMIM能够搜索那些信息?
以“+141900”为例,OMIM反馈信息如下图所示(搜索结果部分显示)。
详细描述信息:基因描述、基因结构、基因图谱、假基因、基因功能、生化化学特征、分子遗传学、动物模型、等位基因变异、临床提要等,另外还包括参考文献、条目创建日期、创建人、编辑史等信息。
如果您还想看更多信息,可以查看OMIM提供的外部资源链接。
7.5OMIA
OMIA(动物在线孟德尔遗传)数据库是一个有关动物(除了人类和小鼠)基因和遗传病的数据库,由澳大利亚悉尼大学(UniversityofSydney,Australia)的FrankNicholas教授等人建立。该数据库收录了超过2500条记录,其中包括文本信息、参考资料信息以及与OMIM、PubMed和EntrezGene这些数据库之间的链接。
8基因表达
8.1GeneExpressionOmnibus(GEO)
8.2GENSAT
GENSAT是有关小鼠中枢神经系统基因表达谱的数据库,这些数据是由美国神经障碍和中风研究院(NationalInstituteofNeurologicalDisordersandStroke)提供的。GENSAT储存了小鼠大脑的组织切片图像,这些组织切片中都含有各种标签,例如增强的绿色荧光蛋白标签等,这样可以根据标签的荧光强度来判断基因的表达量。GENSAT共收录了8万多幅图像资料,还提供搜索功能、资料下载功能、缩放功能和比对功能。
8.3EntrezProbe
NCBIProbedatabase(探针数据库)是一个公共的核酸试剂数据库,它可以提供试剂信息、销售厂家信息、探针有效性信息,还可以计算序列相似性。该数据库储存了960万条探针序列,这些探针可以分为31大类,包括用于基因分型的探针、发现SNP的探针、基因表达探针、基因沉默探针、基因测序探针等等。
8.4SRA数据库
SRA(SequenceReadArchive)数据库是用于存储二代测序的原始数据,包括454,Illumina,SOLiD,IonTorrent,Helicos和CompleteGenomics。除了原始序列数据外,SRA现在也存在rawreads在参考基因的比对信息。
根据SRA数据产生的特点,将SRA数据分为四类:
Studies--研究课题
Experiments--实验设计
Runs--测序结果集
Samples--样品信息
SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.
Studies是就实验目标而言的,一个study可能包含多个Experiment。
Experiments包含了Sample、DNAsource、测序平台、数据处理等信息。
一个Experiment可能包含一个或多个runs。
Runs表示测序仪运行所产生的reads。
SRA数据库用不同的前缀加以区分:
ERP或SRP表示Studies;
SRS表示Samples;
SRX表示Experiments;
SRR表示Runs;
教一下大家如何更加快速的(可都是Mb/s的速度奥)下载SRA文件,还有其他NCBI上所有数据大家自己发挥,都能找到,快速下载!
一、window系统
SRA数据下载截图,找到对应的SRR号,点击黄色部分SRR000001.sra即可完成下载
二、linux系统
1.进入linux服务器,下载aspera。
将会开始下载。
2.下载完毕后,解压,输入:tarxvfaspera-connect-3.1.1.70545-linux-64.tar.gz
3.安装输入:shaspera-connect-3.1.1.70545-linux-64.sh
4.cd到/home/usrname文件夹,ls-a就能看到.aspera
这就是安装的文件夹。
5.重要一步,添加环境变量,否则不能用。输入
exportPATH=$PATH:/home/username/.aspera/connect/bin
6.数据下载。
可以按照这个模板去下载了SRA数据(如果很多可以把所有命令写到一个shell里面,nohup提交睡大觉去就可以了,明早一醒,全部ok)
nohup/home/usrname/.aspera/connect/bin/ascp-i/home/usrname/.aspera/connect/etc/asperaweb_id_dsa.openssh-k1-T-l200manonftp@ftp-private.ncbi.nlm.:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra./&
9分子结构和蛋白质组学
9.1MMDB
9.2分析工具
Blink工具能显示预先计算(pre-computed)出的BLAST比对结果,即与Entrez数据库中每一条蛋白质序列相似的序列。用户可以限定一些参数,例如物种类别或被比对的数据库等来对结果进行筛选。
9.2.1开放式质谱搜索算法
开放式质谱搜索算法(OpenMassSpectrometrySearchAlgorithm,OMSSA)是一种与BLAST类似的算法,利用和BLAST中E值一样的方法在已知的蛋白质序列数据库(非冗余数据库或refseq数据库)中找出与待测序列最相近的已知序列。在OMMSA的网页上可以一次分析2000多个样品。用户还可以到ubchem.ncbi.nlm./omssa/download.htm.站点下载可进行更大量分析的OMSSA软件。
9.2.2HIV-1/HumanProteinInteractionDatabase
美国国立过敏和传染病研究所艾滋病部(TheDivisionofAcquiredImmunoDeficiencySyndromeofTheNationalInstituteofAllergyandInfectious)与南方研究院(SouthernResearchInstitute)和NCBI合作,建立了HIV-1/HumanProteinInteractionDatabase(HIV-1/人类蛋白相互作用数据库),用来记录HIV-1病毒蛋白和人类宿主细胞蛋白之间的相互作用。在www.ncbi.nlm./RefSeq/HIVInteractions/index.html网页上用户可以找到蛋白质在RefSeq中的检索号、EntrezGeneID号、相互作用的氨基酸位点、对相互作用的简单描述、关键词和PubMedID号等信息。