基因的结构基因是携带特定遗传信息的DNA功能片段,是遗传的基本单位,其可编码具有生物学功能的产物,包括RNA和多肽链。无论是真核还是原核生物都离不开基因,它储存着生长、发育、凋亡等几乎全部生命过程的信息,可从三个层面来讨论基因的构成:DNADNA即脱氧核糖核酸,是染色体主要组成成分,同时也是主要遗传物质。其携带有合成RNA和蛋白质所必需的遗传信息,是生物体发育和正常运作必不可少的生物大分子。)编码区(Codingregion)基因在结构上,分为编码区和非编码区。真核生物的编码区是不连续的,分为外显子和内含子,在转录过程中会修剪内含子,并拼合外显子来形成转录产物,而在原核生物中,基因是连续的,也就是说无外显子和内含子之分。①外显子(Exon)外显子是真核生物基因的一部分。它在剪接(Splicing)后会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列,又称表达序列。Note:还有一种叫UTRExon(untranslatedregionExon),即非翻译区外显子。值得注意的是翻译起始位点不是从第一个外显子最前端开始的,而是5’端第一个AUG,这之前的序列就是5’UTRexon(untranslatedregion),即不翻译的外显子。除此之外,终止密码子之后还有一部分不翻译的外显子被称为3’UTRexon。②内含子(Intron)断裂基因的非编码序列,可被转录,但在mRNA加工过程中被剪切掉,最终不出现在成熟的mRNA序列中。)非编码区(Non-codingregion)非编码区在对基因的表达调控中发挥重要作用,如启动子、增强子、终止子等都位于该区域,有意思的是在人类基因中非编码区的占比超过90%。它们中的一部分可以转录为功能性RNA,比如tRNA和rRNA等;可以作为DNA复制,转录起始来对复制,转录和翻译起到调控作用;也可能是着丝粒与端粒的重要组成部分。①启动子(Promoter)启动子是位于结构基因5’端上游的DNA序列,能活化RNA聚合酶,使之与模板DNA准确的结合并具有转录起始的特异性,一般将基因上游bp左右的序列克隆出来作为该基因的启动子。在转录过程中,RNA聚合酶与转录因子可以识别并特异性结合到启动子特有的DNA序列(一般为保守序列),从而启动转录。启动子本身并不转录而且也不控制基因活动,而是通过转录因子结合来调控转录过程。a.CAATBox与SextamaboxCAAT盒(CATbox):其共有序列为GGCTCAATCT,是真核生物基因常有的调节区,位于转录起始点上游约-80bp处,是转录因子CTF/NF-的结合位点,控制着转录起始的频率。CAAT盒是最早被人们描述的常见启动子元件之一,其在离起始点较远的距离仍能起作用,且在两种取向均可发挥作用。CAAT盒的突变敏感性提示了它在决定转录效率上有很强的作用,但是突变对启动子的特异性没有影响。与之相似的是,在原核生物启动子上-35bp处的TTGACA区,又称-35区(Sextama区)。Note:保守序列与共有序列的概念含义基本相同。保守序列间相似度高,但不一定相同,而共有序列是相同的,共有序列可以理解为一种特殊的保守序列。b.TATABox与PribnowboxTATA框是存在于古细菌和真核生物的核心启动子区域的一段DNA序列,TATA框的原核同源物称为Pribnow框(Pribnowbox),其具有较短的共有序列TATAATAAT。它约在多数真核生物基因转录起始点上游约-30bp(-5到-3bp)处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一,RNA聚合酶与TATA框牢固结合之后才能起始转录。②增强子(Enhancer)增强子(Enhancer)位于转录起始位点或下游基因Mbp的位置,长度50-bp的序列,是一类非编码DNA顺式作用元件,在真核生物的发育过程中通过结合转录因子、辅因子以及染色质复合物作用于启动子,可以激活或增强基因的转录。简单说:增强子是能够增加启动子活性从而增加基因转录频率的DNA序列。增强子的特点:a.在转录起始点5’或3’侧均能起作用;b.相对于启动子的任一指向均能起作用;c.发挥作用与受控基因的远近距离相对无关;d.对异源性启动子也能发挥作用;e.通常具有一些短的重复顺序。③终止子(Terminator)终止子处于基因或操纵子的末端,给RNA聚合酶提供转录终止信号的DNA序列。终止子分为两类:①不依赖于蛋白质辅因子就能实现终止作用。②依赖蛋白辅因子才能实现终止作用。这种蛋白质辅因子称为释放因子,通常又称ρ因子。两类终止子有共同的序列特征。在转录终止点前有一段回文序列。回文序列的两个重复部分(每个7-0bp)由几个不重复的bp节段隔开。回文序列的对称轴一般距转录终止点6-4bp。两者的不同点:不依赖ρ因子的终止子的回文序列中富含GC碱基对,在回文序列的下游方向又常有6-8个AT碱基对(在模板链上为A、在mRNA上为U);而依赖ρ因子终止子中回文序列的GC对含量较少。在回文序列下游方向的序列没有固定特征,其AT对含量比前一种终止子低。此外,不同的终止子的作用也有强弱之分,有的终止子几乎能完全停止转录;有的则只是部分终止转录,一部分RNA聚合酶能越过这类终止序列继续沿DNA移动并转录。如果一串结构基因群中间有这种弱终止子的存在,则前后转录产物的量会有所不同,这也是终止子调节基因群中不同基因表达产物比例的一种方式。有的蛋白因子能作用于终止序列,减弱或取消终止子的作用,称为抗终止作用(Antitermination)。Note:终止子与终止密码子的概念区分:二者在名称上相似,但是含义是截然不同的。终止子是处于基因的非编码区的一段DNA序列,用于终止转录。而终止密码子是在翻译过程中终止肽链合成的mRNA中的三联体碱基序列,一般情况下为UAA,UAG和UGA,不编码为氨基酸。a.ATAAAATAAA是preRNA在通过修剪后形成成熟mRNA时在3’UTR产生ployA是的加尾信号。但是这段序列并不是绝对保守,也可能为其他A富集的序列,比如AATAAA等。b.回文序列(palindromesequence)回文序列指的是双链DNA或RNA分子中的特定的核苷酸片段,该片段在其中一条链上按5’到3’读取的序列与其互补链上按相同的5’到3’读取的序列一致。回文序列的单链DNA或RNA,存在对称中心,对称中心两侧碱基关于该对称中心对称,可形成互补。故回文序列能够形成发夹结构(茎环结构)。回文序列广泛存在于各种生物体基因组中,主要和转录终止有关,也是限制性内切酶酶切位点,还参与DNA复制等生命活动。preRNA前体RNA,需进行可变剪切形成成熟的mRNA。①转录起始位点(Transcriptionstartsites,TSS)转录起始位点是指与新生RNA链第一个核苷酸相对应的DNA链上的碱基,通常为一个嘌呤(A或G),即5’UTR的上游第一个碱基。5’末端的序列称为上游,而把其后面即3’末端的序列称为下游。②转录终止位点(Transcriptionterminationsites,TTS)转录终止位点是指新生RNA链最后一个核苷酸相对应的DNA链上的碱基。当RNA链延伸到转录终止位点时,RNA聚合酶不再形成新的磷酸二酯键,RNA-DNA杂合物分离,转录泡瓦解,DNA恢复成双链状态,而RNA聚合酶和RNA链都被从模板上释放出来。③开放阅读框(Openreadingframe,ORF)ORF是连续的一段密码子,其含有起始密码子(通常是AUG)和终止密码子(通常是UAA,UAG或UGA)。在真核基因中,ORF跨越内含子/外显子区域,其可以在ORF转录后拼接在一起以产生蛋白质翻译的最终mRNA。由于读写位置不同(对应不同的起始位点),ORF可能翻译为不同的多肽链。mRNA最终得到成熟的mRNA,可翻译成肽链合成蛋白质。①5’UTR与3’UTR;需要注意:外显子包含UTR区,也就是说外显子不只有可编码的序列,而且包含非编码序列;UTR(UntranslatedRegion),若这段序列位于5’端,就称作5’UTR(5‘-untranslatedregion),也叫前导序列(leader)。相反若位于3’端,就叫它3’UTR(3‘-untranslatedregion),也叫尾随序列(trailer)。5’UTR位于从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至起始密码子AUG,3’UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的前端。原核生物和真核生物都可以看到UTR,但它们的长度和组成都有所不同。原核生物中,5’非翻译区通常为3至0个核苷酸的长度。但在真核生物中,5’非翻译区有成百上千个核苷酸的长度。与原核生物相比,真核生物的基因组的复杂性更高,3’非翻译区的长度也不同。虽然5’非翻译区和3’非翻译区在长度上有差异,但5’非翻译区的长度在演化过程中比3’非翻译区显得更保守。②5’Cap5’Cap也被称为7-甲基鸟苷酸帽,缩写为m7G。这种结构在RNA进出细胞核起到识别作用;可以抗5’-核酸外切酶的截切;促进5’端内含子的切除;在翻译过程中有助于核糖体对mRNA的识别和结合。③3’PolyAtailPolyAtail由多个腺苷一磷酸组成,也就是说它是一段仅含有腺嘌呤碱基的RNA。这种结构可以避免细胞质中的酶促降解,并有助于转录终止,mRNA从细胞核中的输出和翻译。④CDS(codingDNAsequence)DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质,所谓CDS就是与蛋白质序列一一对应的DNA序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑mRNA加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。ORF与CDS的区别:a.开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。b.CDS,是编码一段蛋白产物的序列。c.CDS必定是一个ORF。但也可能包括很多ORF。反之,每个ORF不一定都是CDS。基因功能的研究策略研究一个基因的功能通常会先进行生物信息学分析,然后对基因的功能进行预测,做亚细胞定位分析,再利用转基因技术实验对基因功能进行验证研究等,具体见下表:)应用生物信息学分析软件或数据库进行结构和功能的预测为避免研究的盲目性,节约研究成本,研究者在对基因功能进行实验学验证之前,可先对基因功能进行合理预测,再根据预测的结果,制定出适合的实验室研究方案。生物信息学是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息,具有经济快捷等优点,已成为新基因功能研究首选和必用方法。在最开始时会获得基因序列信息,可先采用BLASTn和BLASTx进行序列同源性分析(核苷酸序列同源性和氨基酸序列同源性),即将一段结构和功能未知的新DNA片段与GenBank数据库中结构或功能已知的序列进行比对,根据这些已知基因的功能信息来初步推测新基因的功能,从而建立基因序列结构和功能的关系。)基因的体内表达规律分析基因表达的时空性即基因表达的时间特异性和空间特异性,即基因的表达在个体发育的不同阶段以及在个体的不同组织和细胞类型中均不相同。基因表达的时空性特征为基因功能的研究提供了重要的信息:若基因在某一特定的正常组织细胞中的表达水平较高,则往往表示其在维持正常生理状态中发挥着重要的作用;而如果基因在相应的突变体中表达异常,则提示其可能与该突变过程的发生、发展有关。因此,在研究一个基因的功能前,首先要在mRNA和蛋白质两个水平上对基因的时空表达谱进行分析,即看其在各种不同的正常或突变体中是否表达以及表达水平的高低等,从而摸清基因在体内的表达规律。mRNA水平的表达谱分析其实际就是转录组研究,细胞的转录表达水平能精确而特异地反映其类型、发育阶段以及反应状态,主要包括NorthernBlotting、原位杂交以及RT-PCR。①NorthernBlotting是一种在mRNA水平上对基因表达进行分析的技术。优点:可特异性的定量检测基因的表达水和检测基因转录本的大小与类型。缺点:该技术的检测效率和灵敏度不高,无法检测出较低的基因表达量,操作过程也较为繁琐,且带有放射性物质,会造成环境污染,危害健康。②原位杂交技术是指将特定标记的已知顺序核酸为探针与细胞或组织切片中核酸进行杂交,从而对特定核酸顺序进行精确定量定位的过程。优点:不仅可以检测mRNA在特定生物体或组织、细胞中的具体表达位置,并能对待测核酸分子进行定性、定量及定位分析,因此被各实验室广泛采用。③RT-PCR主要包括半定量RT-PCR、实时定量RT-PCR及竞争性定量RT-PCR。半定量RT-PCR操作简便,经济快捷,但精确度不高,无法进行绝对定量,因此多用于基因表达水平的快速初步分析;实时定量RT-PCR特异性更强,有效地解决了PCR污染的问题,且自动化程度高,因此被广泛应用,缺点是成本相对较高;竞争性RT-PCR则是将特异性目的序列与已知浓度的内标RNA同时进行扩增,通过比较目的模板所产生的信号和内标产生的信号,从而确定目的模板的相对水平。WesternBlotting(蛋白质印迹法)与NorternBlotting类似,不仅可以进行定量分析,还可以检测蛋白质的分子量大小及聚体形式。免疫组化技术则能够准确地检测蛋白质在特定生物体或组织、细胞中的具体表达位置,是研究蛋白质定位、定量的重要方法,并且特异性强,灵敏度高。3)亚细胞定位分析通常情况下在对基因的功能进行预测后,也会对该基因的亚细胞定位进行预测,由于亚细胞定位能较快获得实验结果,所以会首先做一个亚细胞定位分析,根据实验结果,不仅可以验证预测是否正确,而且可以有助于分析其可能的功能。了解蛋白的亚细胞定位对于研究基因的功能、蛋白互作及其作用机理是必要的。常用方法:将目标基因与荧光蛋白的N端或者C端融合,利用瞬时转化技术使该融合蛋白在受体材料细胞内表达,通过观察荧光蛋白在细胞内显示的位置确定目标蛋白的位置,从而确定目标蛋白的亚细胞定位情况。4)转基因研究生物信息学分析和亚细胞定位分析只能对基因的功能进行大致推断,还需通过试验方法进行验证和进一步外延生物信息学研究的结果。转基因技术是常用的验证方法,基因功能研究可以包括以下几种类型转基因与基因敲除材料的构建:①增强基因表达:过表达。过表达通常是融合目的基因的全长序列与表达水平较高的启动子,通过遗传转化获得该基因表达上调,表达产物大量积累的个体。若研究的基因属于某个基因家族,在基因组中有多个结构同源,功能类似的拷贝,冗余性比较高,敲除其中一两个基因后,其它家族成员可以代替其功能,所以敲除个体没有任何表型或缺陷,很难研究基因的功能。这时可尝试对该基因进行过表达,增加此基因表达产物的丰度,以期增强其在生理生化过程中的作用,并通过比较过表达材料与野生型植株在表型上的一系列差异来研究该基因的功能。同时,过表达材料也可以和基因敲除,敲低的突变体材料之间相互比较,互相印证。②恢复基因表达:功能互补。EMS诱变、辐射诱变或T-DNA插入构建突变体时,会造成突变位点不唯一。对于正向遗传学筛选到的突变体,进行基因定位与克隆,发现是某个基因突变导致的表型改变。那如何验证该基因就是造成表型改变的基因,而不是错误定位到了不影响表型的背景突变表型基因?可通过基因回补进行验证,若克隆到的基因发生了隐性突变,那么表型可能就是突变导致该基因功能丧失或减弱造成的,将该基因的编码区连同表达调控区域(包括启动子、UTR等)通过转基因回补到突变体,表型就能随着该基因正常版本的出现而恢复到野生型水平。若回补株系出现了预期的表型恢复,那么就说明定位到的基因确实是造成表型改变的基因。此外,显性突变或者功能获得性突变的突变体,以及显性负性突变体往往不能通过转入正常版本使之表型恢复到野生型水平。这时可试着把突变体版本转入野生型,观察转入突变基因的野生型植株会不会出现类似于突变体的表型,进而验证表型改变是不是该基因突变造成的。③敲除基因:CRISPR。获得突变体是研究植物基因功能的重要前提之一。例如,若A基因突变失去了功能,植株变矮,那么A基因就可能有助于植物长高;若B基因突变失去了功能,植株的抗病能力下降,那么B基因就可能有助于植物抗病。T-DNA插入突变、转座子插入突变及基于基因编辑技术的敲除是获得基因敲除突变体的主要手段,抑制目的基因的表达则是获得基因敲低突变体的有效途径。以T-DNA、转座子及质粒介导的插入突变等构建突变体库,是利用插入突变进行功能基因组学研究的主要方法。T-DNA插入突变对于正向遗传学和反向遗传学的研究极其方便。此方法的缺点是只适合易被T-DNA转化的植物,T-DNA边界的质粒序列可随着T-DNA整合到基因组并出现由于整合引起的染色体重排,有可能造成突变体表型与T-DNA插入无关。目前,基于CRISPR/Cas的基因编辑工具已被广泛应用于各种突变体创制。编辑启动子区域,不仅能改变基因表达量,还有可能改变基因表达模式,而编辑基因的编码区,则可以实现碱基替换、插入、缺失等突变。此外,由于个别基因发挥极其重要的功能,或者它们在植物基因组中冗余性低,没有功能类似的基因代替它们,其功能丧失的纯合突变往往会致死。对于这种基因,有的杂合子也会表现出异于野生型的表型,可以用杂合子研究其基因功能,有时候杂合子并不表现出任何不同,但是纯合又致死,可以通过RNA干扰和反义技术降低其表达量,获得基因敲低突变体。④反义技术。反义技术是指通过碱基互补配对原理,利用人工或生物合成的特异互补性DNA或RNA片段(或其修饰产物),干扰基因的解旋、复制、转录、mRNA剪接加工与输出、翻译等各个环节,抑制或封闭靶基因的表达,从而调节细胞的生长分化等。该技术主要包括反义寡核苷酸技术(ASON)、核酶技术(Ribozyme)以及小干扰RNA(siRNA)。⑤RNAi(RNA干扰)。所有生物体体内都有一套限制异常或外源性基因表达的保护机制。例如,在将基因转入植物后,转入基因会出现自身沉默,并同时通过转录后基因沉默机制,引起同源内源基因的沉默。转录后基因沉默并非偶然事件,而是生物体在长期的进化过程中,为了防止外源物的引入对宿主细胞内平衡机制的致命破坏,而形成的一种防御系统。研究者们也发现,当在多种生物体内转入双链RNA(dsRNA)分子后,会引起强烈的特异性同源基因沉默,且其诱导沉默的效果比正义或反义RNA更为明显,最终产生功能缺失表型。这一现象引起了研究者的广泛