文章来源公众号:智药邦 作者:生物世界
CRISPR基因编辑是公认的21世纪以来最受关注、最具突破性的生命科学突破,被誉为“上帝的剪刀”,自2012年正式诞生后,短短8年后就获得了诺贝尔奖的认可,2023年底,首款基于CRISPR的基因编辑疗法获得FDA批准上市,用于治疗镰状细胞病和β-地中海贫血,从而开启了遗传疾病治疗的新篇章。
尽管在临床上已取得初步成功,但目前的CRISPR基因编辑工具仍存在脱靶效应,并可能引发免疫系统的不良反应,这限制了其更广泛的应用。近几年,人工智能(AI)领域的飞速发展,有望解除受到自然进化限制的基因编辑器,从而帮助设计出更具适应性、更强大的基因编辑工具。2025年7月30日,AI蛋白质设计公司Profluent的研究人员在国际顶尖学术期刊Nature上发表了题为:Design of highly functional genome editors by modelling CRISPR–Cas sequences的研究论文,该成果此前已于2024年4月发布在预印本平台bioRxiv。
该研究展示了一种完全由人工智能从头设计的基因编辑工具——OpenCRISPR-1,并首次成功进行了对人类基因组的精准编辑。值得一提的是,Profluent公司开源了OpenCRISPR-1,其不仅可以免费用于科学研究,还可以免费用于商业用途。这为提高基因编辑疗法可及性以及降低基因编辑疗法成本铺平了道路,有助于加速开发目前无法治愈的数千种遗传病的治疗方法。
Profluent公司取得的这项突破,标志着基因编辑新时代的开始,在这个时代,AI在设计可能彻底改变医学的工具方面发挥着核心作用。随着AI蛋白质设计的不断发展,它有望使我们更接近一个世界,在这个世界,基因疾病的精准治疗比以往任何时候都更易获得且有效。CRISPR是现代生物学中偶然发现的一个典型案例。1987年,人们在大肠杆菌中观察到一些不同寻常的重复DNA序列,这一发现最终揭示了一种复杂的适应性免疫系统。细菌会将病毒DNA片段作为“间隔区”捕获到被称为CRISPR数组的重复基因组序列中。这形成了遗传记忆,指导CRISPR相关(Cas)蛋白切割DNA,从而在再次感染时摧毁匹配的病毒。CRISPR是现代生物学中“意外发现”的典范。一切始于1987年对大肠杆菌中异常重复的DNA序列的观察,这一发现最终揭示了细菌精密的适应性免疫系统。细菌将病毒DNA片段捕获为“间隔区”,嵌入称为CRISPR阵列的重复基因组序列中,这种机制形成了遗传记忆,指导CRISPR相关(Cas)蛋白通过切割DNA的方式,在病毒再次入侵时摧毁匹配的病毒。2012年,Emmanuelle Charpentier和Jennifer Doudna证明了来自化脓链球菌的Cas9(SpCas9)可以被重新设计成一种可编程的基因编辑工具,其向导RNA(gRNA)能够引导Cas9精确到达基因组的特定位。不久后,张锋将CRISPR-Cas9成功应用于人类细胞基因组编辑,打开了基因编辑治疗应用的大门,最终促成了用于治疗镰状细胞病和β-地中海贫血的Casgevy疗法的上市。然而,尽管基于SpCas9的CRISPR基因编辑工具功能强大,但它仍是一种“野性十足、未经驯化”的工具,它是在细菌的防御机制中进化而来的,并非为人类治疗所需的精准度而进化。SpCas9能够容忍其gRNA与DNA靶序列之间的错配,从而会导致脱靶效应(可能切割目标序列以外的位点),这可能引发了严重的安全问题。SpCas9来自化脓链球菌,其作为一种常见的病原体,SpCas9会在大多数个体中引发预先存在的免疫反应,从而可能中和治疗效果。SpCas9较大的尺寸导致其难以封装到诸如腺相关病毒(AAV)载体之类的病毒递送系统中。此外,SpCas9只能在被称为PAM序列的短DNA基序附近进行切割,这导致部分基因组区域无法被其靶向编辑。这些不足之处,在体内基因编辑时尤为突出,即直接在人体内对细胞进行基因编辑,而不是把细胞从人体内取出,编辑好后再回输到体内。因此,科学家一直在寻找更适合体内基因编辑的工具,这需要基因编辑工具具有近乎完美的特异性和极低的免疫原性。为了实现高效、特异性、可递送且无免疫原性的目标,研究人员采用了多种工程策略,包括定向突变(这种方法以牺牲编辑效率减少脱靶效应),定向进化(十分费力,且探索的序列空间范围有限),生物挖掘(挖掘的天然酶仍存在脱靶效应和免疫原性的问题),这些传统方法难以实现上述目标。在这项最新研究中,研究团队探索了第四种范式——利用生成式人工智能(generative AI)从头设计。他们使用了蛋白质语言模型,这些模型是在大型蛋白质序列数据库上训练而来的。类似于像ChatGPT这样的大语言模型,蛋白质语言模型通过学习人类语言的模式,处理数亿个示例以学习蛋白质进化的隐含“语法”——即表征功能性天然蛋白质的氨基酸之间复杂的统计关系。研究团队认识到,任何AI模型的性能从根本上讲都受到其训练数据的质量和规模的限制。他们没有依赖现有的数据库,而是付出了巨大的努力进行数据挖掘,通过筛选26.2万亿个碱基的微生物基因组数据,产生了超过120万个CRISPR“操纵子”——包括Cas蛋白序列、CRISPR阵列、crRNA和PAM的功能单元,从而构建了CRISPR-Cas Atlas,其包含的Cas9序列的数量比蛋白质数据库UniProt中记录的数量增加了四倍。接下来,研究团队实施了一种分层训练策略,他们对蛋白质语言模型ProGen2进行了微调,该模型在UniRef和BFD数据库中的数亿条蛋白质序列上进行了预训练,微调时使用的是CRISPR-Cas Atlas,以学习Cas9蛋白质功能背后的特定序列约束。最终得到的模型被用于生成一系列Cas样蛋白,其多样性几乎是已知Cas蛋白变体的5倍,并且包含了数千种在自然界中从未发现过的候选蛋白。这些生成的Cas样蛋白都具有功能吗?这些生成的Cas样蛋白库中是否包含适用于目标应用且具有理想特性的全新序列?为了证明这一点,研究团队进一步对模型进行了微调,仅使用约24万条Cas9序列对其进行训练。在使用各种天然Cas9序列片段作为提示词,让蛋白质语言模型生成了35万条候选序列,并通过计算机模拟筛选出序列质量和CRISPR兼容性良好的序列后,研究团队最终挑选出了209条序列在人类细胞中进行进一步实验测试。其中,OpenCRISPR-1脱颖而出。OpenCRISPR-1,是一个完全由AI设计出来的Cas样蛋白,长度为1380个氨基酸,与SpCas9相比存在403个氨基酸突变差异,与CRISPR-Cas Atlas中与其最接近的天然序列存在182处氨基酸突变差异。尽管存在这么多差异,它却与SpCas9具有相同的靶向效率,且同时显著提高了特异性。与SpCas9相比,OpenCRISPR-1的靶向切割比例大幅提高,脱靶编辑减少了95%。重要的是,其脱靶编辑是SpCas9的子集,这表明其不存在新的切割模式。此外,OpenCRISPR-1序列中似乎还缺少某些会被T细胞识别并导致SpCas9免疫原性的表位,这意味着AI设计的OpenCRISPR-1可能比病原体来源的基因编辑器(例如spCas9)具有更低的免疫原性。那么,OpenCRISPR-1是否能够用于碱基编辑呢?
研究团队将OpenCRISPR-1转化为切口酶,然后将其与腺苷脱氨酶ABE8.20融合,构建了腺嘌呤碱基编辑器,结果显示,其在人类细胞中的三个测试位点上都实现了稳健的A-to-G碱基编辑,编辑效率为35%–60%,这与基于SpCas9切口酶的ABE8.20腺嘌呤碱基编辑器的效率相当,并且不会导致插入/缺失突变。
OpenCRISPR-1在PAM序列、gRNA和碱基编辑中的特性分析
研究团队进一步尝试利用AI完全设计出全新的碱基编辑器系统,包括脱氨酶。他们首先使用TadA-like蛋白进行训练,设计并生成了一系列腺嘌呤脱氨酶,与已知的任何脱氨酶的同源性为55%-80%,其中,两个活性最高的腺嘌呤脱氨酶PF-DEAM-1和PF-DEAM-2,与SpCas9切口酶或OpenCRISPR-1切口酶融合,生成的腺嘌呤碱基编辑器的A-to-G碱基编辑效率与基于SpCas9切口酶的ABE8.20腺嘌呤碱基编辑器的效率相当,且均可有效抑制旁观者编辑。
OpenCRISPR-1会成为体内CRISPR治疗的突破吗?
初步结果令人鼓舞,但还需要在不同的靶点和递送系统上进行更广泛的实验验证,以确定其临床潜力。但这项研究真正的进步在于利用生成式AI生成CRISPR基因编辑系统的过程,随着基于AI的蛋白质设计的不断发展,这种“预训练、微调、生成、筛选”的方法为未来的研究奠定了强大的框架。
随着人工智能设计的CRISPR-Cas系统向临床应用迈进,标志着精准医疗领域一场更广泛革命的开端——在这场革命中,治疗性蛋白质来自AI设计而非从自然界发现,是通过优化得来而非进化而来的。人工智能与生物技术的融合(AI+BT)开启了巨大的可能性,将CRISPR的应用领域远远拓展到了仅靠进化所无法探索的范围。