解析 PLM-interact：联合 MLM 与二分类训练，破解蛋白质

文章来源公众号：AI in Graph 作者：AI in Graph

今天介绍的是发表在Nature Communications的论文： PLM-interact: extending protein language models to predict protein-protein interactions。该论文把单蛋白语言模型扩展成“成对编码器”，把两条蛋白序列拼进同一上下文，联合进行MLM + 互作二分类训练，让模型在注意力层面直接学“谁和谁会互作”。结果显示在跨物种 PPI 基准上取得SOTA，还能评估突变使互作增强/减弱，在病毒-宿主任务上也明显优于既有方法。

1. 摘要

仅根据氨基酸序列进行蛋白质结构的计算机预测已达到前所未有的精度，但预测蛋白质-蛋白质相互作用仍然是一个挑战。本文，作者评估了常用于蛋白质折叠的蛋白质语言模型 (PLM) 重新训练用于蛋白质-蛋白质相互作用预测的能力。现有的利用 PLM 的模型使用预训练的 PLM 特征集，忽略了蛋白质之间的物理相互作用。作者提出了 PLM-interact，它超越了单个蛋白质，通过联合编码蛋白质对来学习它们之间的关系，类似于自然语言处理中的下一句预测任务。该方法在广泛采用的跨物种蛋白质-蛋白质相互作用预测基准中取得了最佳性能：基于人类数据进行训练，并在小鼠、苍蝇、线虫、大肠杆菌和酵母上进行测试。此外，作者开发了一种 PLM-interact 的微调方法，以检测突变对相互作用的影响。最后，作者报告该模型在蛋白质水平上预测病毒-宿主相互作用方面优于现有方法。作者的工作表明，大型语言模型可以扩展，仅从生物分子序列中就可以了解生物分子之间的复杂关系。

2. 引言

仅凭序列预测蛋白结构已十分成熟，但要“只看序列”判定两条蛋白是否互作（PPI）仍很难：实验标注稀缺昂贵、跨物种分布差异显著，若数据拆分不严还会因相似性“泄漏”而高估性能。更关键的是，主流序列法多沿用“双塔/两段式”范式：分别编码两条序列，末端再用小分类头“猜”是否互作；这种流程让语言模型始终以“单蛋白”为基本单位，并不“意识到”两条链彼此成对，真正的跨链线索被推迟到末端分类器处理，难以在跨物种与低样本场景中稳健泛化。

PLM-interact 的出发点是把“配对关系”直接放进语言模型的上下文：将两条蛋白一次性输入同一个 Transformer，以跨编码（cross-encoder）结构在编码阶段就让注意力对齐跨蛋白残基；训练上联合遮盖语言模型（MLM）与互作二分类，通过权重与遮盖比例的系统搜索，在保留语言理解能力的同时，迫使模型学习“哪对残基彼此有关”，从而把“互作判断”前移到表示学习之中，减轻末端分类头的容量约束。

在严格的人类训练→多物种测试（鼠、蝇、虫、酵母、大肠杆菌）的基准上，PLM-interact 在 AUPR 上普遍领先，并表现出更稳定的正样本区分能力；在去重控相似度的人类无泄漏数据、以及突变效应与病毒-宿主互作任务中，同样表现稳健且可通过端到端微调进一步提升区分度。相较传统“双塔”，这种“把配对放进上下文、让注意力跨链工作”的范式，为仅凭序列的 PPI 预测提供了更自然的建模路径，并为后续融合结构、网络与功能注释等多模态信息留下了清晰接口。

3. 方法

3.1 框架与输入

作者以 ESM-2（默认 650M）为基座，将两条蛋白序列在同一个 Transformer中跨链路同时编码（cross-encoder）。标准输入序列为

ESM-2 编码得到各 token 的输出嵌入，用 [CLS] 向量经一层前馈网络后接 Sigmoid 得到互作概率：

3.2 训练目标与技巧

模型以遮盖语言模型（MLM）与二分类联合优化，单样本损失为