文章导读:
怎样在genbank基因库中找出我需要的基因序列啊?
在GeneBank 中查找基因序列只要输入accession号就可以了 ,下面网址就是一个基因的全部序列信息的例子,,在记录的末尾有各种记录的详细说明,如果你没有accession号,可以把你手头的编号用source等信息源转换成accession号,中文教程太古老了,如果你是初学者一定要养成看英文文献的习惯,要是特别想看中文翻译的话,书店里随便一本生物信息学书里都会介绍数据库的,不过有些翻译过来的东西真的很别扭。 2、关于在GeneBank中查找序列我有几点体会: 最直接、最简单的方法是手头有基因的accession号;
如果没有就需要明确两个重要的内容,即基因名称及物种信息(如果有最好是拉丁全名),基因名称尽可能详细,避免搜出一些不相关的信息;
搜索的时候建议先用NCBI的Gene数据库搜索,这样得到的accession号是属于NCBI工作人员重新整理过的Refseq的序列,这样会比较可靠;当然这个要看你的分析目的,如果你是要对该序列进行下游的分子生物学操作or分析,选这种序列我觉得会比较好,如果是要进行多序列的分析or其他目的需要全面分析该序列的,可能需要其他序列做补充,但是我觉得序列越多问题越说不清楚,因为毕竟不是自己的序列,如果Gene数据库里没有收录,那就只有在Nucleotide数据库里找了,但是还是建议采用Refseq的序列,Refseq序列特征如下:
Accession prefix Molecule type Comment
AC_ Genomic Complete genomic molecule, alternate assembly NC_ Genomic Complete genomic molecule, reference assembly NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGSa NW_ Genomic Contig or scaffold, primarily WGSa NS_ Genomic Environmental sequence NZ_b Genomic Unfinished WGS NM_ mRNA NR_ RNA
XM_c mRNA Predicted model XR_c RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly NP_ Protein YP_c Protein
XP_c Protein Predicted model
ZP_c Protein Predicted model, annotated on NZ_ genomic records a Whole Genome Shotgun sequence data. b An ordered collection of WGS for a genome. c Computed.
其他值得考虑的是,对于真核生物最好找注释为全长的mRNA序列,原核生物最好有起始密码子和终止密码子
如何使用NCBI查找基因
1 打开NCBI主页
2 左边search里面选择GENE 右边的对话框里输入你想要的基因名称
3 在出来的所有条目第一行后面都有种属表明,比如Homo sapiens是人Felis catus是猫。选择你想要的种属。
4 再出现的页面中找到那个像数轴的图,在左侧有可以点击的蓝色数字,往往开头有AK、NM的开头,点击它,再出现的下拉框里选择GENEBANK。
5 最下面就是他的基因序列 当然也可以参考页面上提供的CDS区域范围来看。
怎样在NCBI中查找基因
在NCBI 上查找基因,挺多人都在问这个。当然,对于经常泡NCBI 的人来说,查找基因是
入门的、基础的,对高手来讲根本不是个问题。但新手就不同了。
当然了,直到现在,虽说已经会了一些,但在NCBI 查找基因,虽说是基础但也是挺复杂的
今天要讲的。
今天用“苯丙氨酸解氨酶(Phenylalanine ammonia-lyase,PAL)”来作为例子,物种是豆科的。
1,打开NCBI,选择核苷酸(Nucleotide)数据库,填上Phenylalanine ammonia-lyase,
点击GO,搜索
2,我们来看结果,总共有1022 个,结果太多了,有时候刚好你要的结果在第一页的话,
那就好办。不是的话,你慢慢的找,实在不是办法。特别是网络不好时,上NCBI 又很慢,
的确是一种折磨。
3,这个时候我们可以再想办法缩少范围,比方你要找的是豆科的,我们来大豆(soybean)
来作例子。在搜索时加上soybean,结果将会大大减少。
4,这时候结果已经一目了然,这里需要再介绍另外一种搜索的方法。这种方法是比较精确
的。首先在taxonomy 数据库查到soybean 的 taxonomy ID,再回到Nucleotide 数据库,
搜索” Phenylalanine ammonia-lyase txid3847 “,txid 是taxonomy ID 是缩写,3847 是大豆
soybean 的taxonomy ID。这样子,将搜索范围锁定在大豆。
5,看下图,出来的结果都是大豆的,这时基本上就大功告成了。找到了大豆苯丙氨酸解氨酶的序列
6,进入序列页面,默认是GenBank 格式,你也可以选择Fasta 格式,一般都是保存为Fasta格式。
怎样在NCBI上查找基因的cDNA序列
在NCBI主页上方search栏左边有一个database选择框,点击下拉三角形选择nucleotide(如图红框)在search栏输入基因名搜索即可。
以人的orc1基因为例,
在搜索结果中选择mRNA和complete cds序列的结果都可以,如下
点击进入序列文件查看详情,以上图搜索结果18为例,点开后界面如下
向下找到cds标签
点击CDS跳出如下界面
棕色标记的序列就是cDNA序列,旁边有对应的氨基酸序列。
如果搜索结果太多,可以在检索结果中按物种筛选,如下图红框。
以上即是基本步骤。
n号; 如果没有就需要明确两个重要的内容,即基因名称及物种信息(如果有最好是拉丁全名),基因名称尽可能详细,避免搜出一些不相关的信息; 搜索的时候建议先用NCBI的Gene数据库搜索,这样得到的accession号是属于NCBI工作人员重新整理过
址就是一个基因的全部序列信息的例子,,在记录的末尾有各种记录的详细说明,如果你没有accession号,可以把你手头的编号用source等信息源转换成accession号,中文教程太古老了,如果你是初学者一定要养成看英文文献的习惯,要是特别想看中文翻译的话,书店里随便一本生物信息学书里都会介绍数
tgun sequence data. b An ordered collection of WGS for a genome. c Computed. 其他值得考虑的是,对于真核生物最好找注释为全长的mRNA序列,原核生物最好有起始密码子和终止
for a genome. c Computed. 其他值得考虑的是,对于真核生物最好找注释为全长的mRNA序列,原核生物最好有起始密码子和终止密码子如何使用NCBI查找基因1 打开NCBI主页2 左边search里
填上Phenylalanine ammonia-lyase,点击GO,搜索2,我们来看结果,总共有1022 个,结果太多了,有时候刚好你要的结果在第一页的话,那就好办。不是的话,你慢慢的找,实在不是办法。特别是网络不好时,上NCBI 又很慢,的确是一种折磨。