聚焦明确硬核痛点的AIDD小模型-动脉网

引言

自2017年谷歌提出Transformer架构、2022年OpenAI推出ChatGPT以来，生成式AI迅速重塑科研、产业与资本叙事，算法、算力、模型及应用生态成为资本市场的新叙事中心。在制药领域，生成式AI与数据驱动的药物研发流程也在加速演进。然而，到目前为止，AI驱动药物研发尚未出现激动人心的“ChatGPT时刻”或者“DeepSeek时刻”，也未真正带来行业属性或商业模式的范式转移，其自身反而面临实际应用落地缓慢、核心价值难以快速释放的挑战。一方面，以AI算法+数据护城河为核心的技术平台 + SaaS商业模式难以快速、直接创造可观、可量化的商业价值；另一方面，药企或者Biotech的研发管线中AI本身的贡献，在资本与商业叙事中，往往被长周期、重资产、高投入、高风险的临床试验稀释；此外，略显尴尬的是：投资人期待AI快速降低成本、提升效率与成功率，但是目前AI切入点相对集中在早期药物发现，而这一早期阶段通常处于管线估值洼地，因为特定管线的市场价值起飞点通常在二期临床试验成功之后。这一预期错配与制药行业特殊属性密切相关：强监管、长周期、高投入、高风险、慢反馈、潜在高回报。为了验证AI对药物研发的潜在价值，当前AIDD赛道中存在一种“工具驱动”的路径：以既有模型能力为出发点，在传统研发流程中寻找应用场景，类似“拿着锤子找钉子”。与之相对，一种以明确生物学机制与成药性约束为核心的“问题驱动”范式同样存在：围绕明确硬核痛点，反向构建数据体系、算法与模型能力。这两种路径或许将决定AIDD赛道的未来演化方向。两相比较，本文认为：更高效的思路或许是“先问题、再工具”：从临床需求、市场空间出发，精准识别核心硬核痛点，再以AI算法与数据为方法/手段，构建定制化的AI驱动解决方案。所以，本文聚焦已被业界反复验证过的明确硬核研发痛点，从AIDD小模型的视角，尝试探讨如何高效、充分地释放AI在药物研发中的潜在独特价值。

当前的生成式AI技术如何切入药物研发具体流程？

以小分子药物为例，生成式AI正在嵌入研发流程的多个环节，包括假设生成、靶点发现、药物设计、临床前研究、临床试验、监管沟通（如下图所示）。比如，在靶点发现阶段，研究人员可以利用多组学数据（如基因表达、蛋白互作网络和临床数据）训练模型，识别与疾病高度相关的潜在靶点。随后，在先导化合物发现阶段，AI模型可以在广阔的化学空间中生成具有特定性质的候选分子，并预测其与靶蛋白结合的可能性。接下来，在先导优化阶段，AI可以同时评估分子的活性、选择性、溶解度、代谢稳定性以及毒性等ADMET属性（如下图所示），通过多目标优化快速提出结构修饰方案，减少传统反复合成和筛选的成本。同时，分子动力学模拟（比如薛定谔公司的IFD-MD工作流程）与精准物理建模也可与AI算法结合，对蛋白-配体相互作用进行更精准的计算预测。最后，在进入临床前研究阶段之前，AI可以辅助预测药代动力学特征、潜在毒性以及人体反应，从而帮助研发人员优先选择成功概率更高的候选化合物。此外，针对药物研发的不同环节，部分企业或机构也在探索更高层次的基于生成式AI的数字化，比如AI虚拟细胞、虚拟临床试验与实验室层面的自动化，比如智能体AI与机器人应用于自动合成化合物 + 湿实验验证。

为了测试AI对药物研发的潜在价值，为了让AI真正切入药物研发具体流程，当前的AI药物研发赛道存在一种“拿着锤子找钉子”的模式：通过AI重塑药物研发流程，甚至定义一种全新范式，实现降本增效、提升成功率、缩短研发周期。这一整体化思路，在实施过程中，缺乏清晰、具体的定义与评判标准：业界究竟预期AI如何解决制药行业的核心痛点，而这些核心痛点是传统范式无法解决的？同时，其效果如何评判？以AlphaFold为例，在DeepMind团队开发AlphaFold之前，实验结构生物学面临一个核心痛点：虽然实验测定蛋白质结构的准确性毋庸置疑，但是其效率远远落后于蛋白质序列数据的增速。因此，这一被称为计算结构生物学圣杯的问题从一开始就被定义得非常清楚：如何从蛋白质序列准确、高效地预测蛋白质结构？同时，预测结果的评判标准也有清晰的定义。接下来，这一领域的突破性进展，对传统CADD以及AIDD赛道而言，应该已经尽人皆知了。

如何高效地验证、释放AI对药物研发的潜在独特价值？

从工具视角出发，可以将其粗略分为两类：一类是“质变级工具”，具有现象级影响与范式转移意义，例如AlphaFold；另一类则是“量变级工具”，主要作用于既有技术范式之内，通过提升效率、降低成本或扩大规模来优化执行过程，例如分子对接、动力学模拟（MD）以及FEP+等工具，在速度、精度或资源消耗方面实现改进，属于“量变级工具”，缺乏现象级独特价值（参考链接一），整体上，依然服务于传统研发范式。

回顾当下，AIDD赛道上正在推进的AI驱动药物管线，其具体推进过程中，哪一个环节是传统范式/技术/工具无法替代的？哪一个环节可以体现AI的独特价值？AI驱动药物管线立项的出发点是验证AI技术的价值，还是解决未满足的医疗需求？假如某一AIDD企业计划公开发行股票并上市，其叙事逻辑聚焦“工具”还是“问题”？技术叙事还是市场叙事？资本叙事还是医疗需求叙事？商业模式采用技术平台 + SaaS还是技术平台 + SaaS + Biotech/Pharma？另一个现实问题是：未来某一天，当我们终于迎来第一个完全由AI发现并设计的药品获批上市，不可否认这将是AI驱动药物研发的一个重要里程碑。可是，支撑这一产品的技术平台是否具有范式转移意义？是否可泛化、可复制、可移植？毕竟，一个小分子化合物，是由传统CADD设计的，还是由AIDD设计的，这一属性本身并不提升化合物本身的有效性、安全性与可及性，也不是大多数患者真正关注的。

以上问题，也许AI药企/Biotech已有清晰、明确的答案，也许还在摇摆、拒绝二选一，也许“鱼与熊掌”都要，也许视而不见。不可否认，不同的企业有不同的战略定位、业务模式，可以绕开硬钉子、硬柿子，也可以专锤硬钉子、专捏硬柿子。可是，当AI技术平台面对商业模式的现实挑战，“拿着锤子找钉子”的思路，是否真的可以高效、充分释放AI对药物研发的潜在独特价值，是一个值得商榷的问题。本文秉持“问题第一、工具第二”，聚焦明确硬核痛点的AIDD小模型，提出核心假设：真正释放AI在药物研发中的潜在独特价值，其首要问题不在于算法、数据、自动化流程或技术平台的堆叠，而在于对具体研发过程中的核心问题/硬核痛点进行精准定义，并建立清晰的结果评价标准。

药物研发具体过程中的明确硬核痛点——定义 + 实例

以早期药物发现与设计（Drug discovery & design）为例，首先需要回答的一个问题是：业界究竟预期AIDD如何解决制药行业的核心痛点，而这些核心痛点是传统CADD无法解决的？同时，其效果如何评判？由于人体生理与病理体系高度复杂，疾病类型、适应症、靶点机制以及个体差异均呈现显著异质性，这一抽象的问题并不存在统一的具体定义，其结果评判标准也各有不同。这也正是制药业区别于互联网等领域的重要特征：市场相对分散，不同疾病，不同适应症，不同靶点，存在多家有实力的企业，不存在类似谷歌在搜索市场的全球寡头。因此，当我们探讨药物研发项目的具体过程，明确的硬核痛点不是行业层面的抽象命题，而是具体落在某一类未满足临床需求、某一适应症、某一靶点甚或某一安全性问题上的现实挑战，而这一现实挑战的客观存在已经被业界的药物研发实践反复证实。

以CD47靶点为例，尽管其在肿瘤免疫治疗中备受关注，但临床试验数据已经证实其核心痛点：血液毒性。CD47不仅在肿瘤细胞中高表达，同时也广泛存在于正常红细胞和血小板表面，阻断该通路虽可激活巨噬细胞吞噬肿瘤细胞，却可能引发贫血、血小板减少等严重不良反应。围绕这一问题，部分企业尝试通过新型抗体设计、双特异性抗体或融合蛋白等策略（如汉康生技HCB-101项目）降低对红细胞的结合，以期在确保抗肿瘤活性的同时降低血液毒性。另一个意外毒性相关的例子是薛定谔公司开发的口服CDC7抑制剂SGR-2921，针对复发/难治性急性髓性白血病及高危骨髓增生异常综合征。虽然目标化合物在体外实验中展现出高抑制活性，但在早期临床中出现包括两例可能相关死亡在内的严重安全性事件，最终导致SGR-2921项目终止（参考链接二）。这一案例表明，从分子设计到临床成功之间，仍横亘着复杂的意外毒性门槛。此外，也可以想见，SGR-2921项目的终止是薛定谔公司开发Predictive Toxicology这一毒性预测工具的重要源动力之一。

再以TIGIT靶点为例，其曾被视为继PD-1/PD-L1之后最具潜力的免疫检查点之一，吸引了多家跨国药企及部分中国药企的大规模投入。然而，近年来该领域却接连遭遇临床挫折。部分深层原因在于：TIGIT相关通路调控机制复杂，单药疗效有限；联合治疗虽在早期研究中展现出一定潜力，但在三期临床试验中难以稳定复现。此外，对关键生物标志物的认知不足以及患者筛选策略不够精准，在放大临床试验风险的同时，削弱了临床转化效率。TIGIT靶点的集体受挫表明，基于既有免疫检查点范式的“类比外推”存在内在局限：即便分子机制层面成立，若其在肿瘤免疫调控网络中并非主导性约束，亦难以转化为具有决定性临床获益的干预靶点。该案例说明：药物研发的核心挑战不仅在于技术手段本身，更在于对未满足临床需求及具体研发项目核心痛点的深度识别与准确定义。事实上，当制药行业低垂的果实被摘完，也就只剩高挂着的；软柿子被捏完，也就只剩硬的。假如AI真的可以如期带来一场革命性的生产力提升，甚至重塑传统药物研发范式，那么，这些高挂的果实、硬柿子乃至硬钉子，不正是AIDD真正价值的天然试金石吗？

聚焦明确硬核痛点的AIDD小模型——以CD47靶点为例

1、核心硬核痛点的定义

● 血液毒性显著限制成药性与临床应用可行性

● 核心目标：降低血液毒性，同时保持/提升抗肿瘤活性

2、关键建模变量

● 药效：肿瘤细胞吞噬率、先天性与适应性免疫系统共同抑制肿瘤的活性

● 安全性：红细胞结合率、血液毒性指标

● 分子特征：蛋白质序列、结构（单体/复合体）、抗体 CDR 区域、Fc 区段类型、翻译后修饰、与抗原分子的复合体结构结合界面的特征

● 药理参数：Kd、kon/koff、体内半衰期

3、数据来源

● 临床前与临床试验数据：细胞水平+动物体内+临床阶段药效、安全性数据

● 蛋白质结构数据：包括PDB、AlphaFold、精准物理建模生成的结构数据，比如薛定谔公司的IFD-MD以及FEP+工作流程生成的基于物理计算的结构数据

● 文献与专利中的实验数据

4、模型训练

● 输入特征：序列编码（One-hot、氨基酸物理化学属性）、结构特征（结合界面、电荷分布、Fc段信息）、药理特征

● 算法：Transformer架构，图神经网络，或其他

● 学习与参数优化策略：多任务学习，贝叶斯优化或强化学习生成候选突变序列

● 闭环迭代：预测 → 生成候选 → 实验验证 → 反馈 → 再训练

5、评判标准

● 降低血液毒性（红细胞结合率、血液指标改善）

● 保持或增强抗肿瘤活性（吞噬率、肿瘤杀伤）

● 候选分子可在临床前研究阶段快速迭代验证

6、Drug modality应用示例

● 单抗：预测 CDR 区域突变对抗肿瘤活性及血液毒性的影响，优化 Fc 结构

● 双特异性抗体：评估两个臂对不同靶点的血液安全性及亲和力比例平衡

● 融合蛋白：优化 SIRPα-Fc 界面、Fc 类型及糖基化模式，降低红细胞亲和力同时保持抗肿瘤活性

聚焦明确硬核痛点的AIDD小模型——小模型与大模型的比较

众所周知，制药是一个强监管行业。相较于依赖外部资源的大模型，在企业内部部署AIDD小模型具有显著优势。一方面，企业掌握核心数据，包括候选分子结构、临床前实验数据、专利布局及研发策略，内部部署可以将数据控制在企业边界内，降低泄露风险并符合监管要求，同时支持精细的数据治理，使模型训练、预测与迭代全程可审计、可追溯。另一方面，内部环境还能显著降低数据访问延迟，企业研发人员可直接调用数据进行训练与验证，缩短模型迭代周期，实现快速反馈与持续优化。由此，小模型在安全、合规和工程执行上都更具灵活性，使AI能够深度嵌入企业内部研发流程。

从方法论角度来看，小模型的核心价值在于“专注痛点、以小见效”。以CD47为例，多任务学习框架同时预测抗肿瘤活性与血液毒性，通过数据收集、特征提取、标签化、小模型训练、候选生成、实验验证和反馈迭代，形成闭环。而小规模实验结果直接用于模型再训练，实现定向优化与持续进化。这一快速闭环不仅验证模型效果，也确保每一次迭代都聚焦于明确的硬核痛点，实现低成本、低风险的定向突破。换言之，AI驱动药物研发更像一个基于约束的“搜索—筛选—验证”过程，核心在于在复杂约束下进行精准优化与决策，通过AIDD小模型针对明确硬核痛点快速迭代和优化，形成高度聚焦、高效、可控、可验证、高合规的企业内部闭环。

聚焦明确硬核痛点的AIDD小模型——从单点突破到模型阵列到矩阵

众所周知，药物发现与设计是一个多参数优化（见下文示意图）过程，涉及分子活性、靶点选择、药代动力学、毒性以及可成药性等多个维度，这些因素相互耦合、彼此制约，使得任何单一模型即便在某一核心痛点上表现优异，也只能解决局部问题，难以覆盖研发全链条的复杂需求。因此，聚焦明确硬核痛点的AIDD小模型更应被理解为“专注而锋利的模块化的工具”，摒弃整体化大模型思路，高度聚焦痛点，围绕特定目标快速迭代与验证。实际应用中，其价值往往体现在与其他模型及实验体系的协同：例如，与药代动力学模拟、结构—活性关系模型以及高通量筛选数据相结合，形成多模型联动的优化框架。通过这种方式，不同模型分别承担各自擅长的子任务，在统一目标函数或决策框架下协同演化，从而逐步逼近多参数条件下的相对最优解，因为相较之下，单一模型的输出难以覆盖复杂的生物学与化学空间，而多模型、多维度的联合优化，可能成为提高成功率的优选路径。

从方法论层面看，更为可行的策略是构建“生成式AIDD小模型+模型阵列/矩阵+实验验证”的协同。其中，小模型聚焦核心痛点，负责生成具有方向性的高价值候选分子；多模型体系（包括传统的CADD工具，比如基于精准物理建模的FEP+，以及最新的AIDD工具，比如Iso-DDE，参考链接一）对候选分子进行多维度评估与筛选；实验验证提供真实世界反馈，不断迭代、校正与强化模型能力。三者耦合，形成一个可控、可迭代的闭环。由此，AIDD小模型的意义不在于替代一切，而在于以点带面，为临床前验证提供高质量输入，进而降低临床阶段失败率。

图片2.png

总结 + 展望

如上所述，在药物研发的具体流程中，AIDD小模型是针对明确硬核痛点构建的轻量化、任务特异性AI模型，专注于尚未满足的临床需求、特定适应症或特定靶点的明确核心痛点。其核心价值在于聚焦真实、可量化的研发瓶颈，通过高信噪比的数据输入和针对性算法设计，实现对特定问题的高效预测、筛选或优化。简而言之，本文所指的AIDD小模型可以定义为：在高信噪比数据和明确参数约束条件下，针对单一核心问题训练的任务特异性AI模型，其核心特征包括核心痛点问题边界清晰、数据高信噪比、优化目标单一、可嵌入实验闭环。因此，AIDD小模型并不是“规模更小的模型”，而是一种聚焦核心硬核痛点的约束驱动模型，强调在明确边界和约束下实现精准协同优化和快速迭代。

同时，本文为AIDD小模型提出如下方法论框架：从痛点识别、约束定义、数据构建，到模型训练和实验闭环形成完整流程，实现低成本、低风险的定向突破和企业内部的可控研发闭环。以CD47靶点为例，为保证AIDD小模型可验证、可复制，这里的评估框架被定义为：Problem = Objective + Constraint + Metric，其中，Objective表示优化目标，如抗肿瘤活性；Constraint表示关键约束，如血液毒性；Metric是可量化指标，如红细胞结合率、毒性评分。

未来，聚焦明确硬核痛点的AIDD小模型有望真正释放AI在药物研发中的独特价值：部署在企业内部的AIDD小模型，在保障数据安全和合规的前提下，高度聚焦核心痛点，将AI转化为可验证、可量化的生产力。考虑到药物研发是一个多参数协同优化的过程，未来可能的景象是一系列AIDD小模型阵列、甚至矩阵，星罗棋布，持续迭代，不断优化，深度嵌入药企内部研发流程，聚焦明确硬核研发痛点，持续推动高效、安全、可负担的创新药物开发，解决未满足的医疗需求。

作者简介

李博士先后毕业于苏州大学医学院（本、硕）和新西兰奥克兰大学理学院（博），具备基础医学、生物化学与分子生物学、结构生物学、生物物理与药理交叉教育背景。博士期间，李博士赴德国Jülich研究中心接受联合培养，使用液态核磁共振与分子动力学模拟研究蛋白质结构–功能关系。之后，李博士曾任职汕头大学、南通大学，后加入宁波三生生物，参与多项生物药研发。现为独立行业观察员+研究员，聚焦传统CADD+AIDD。截至2026年3月，在国际期刊发表论文7篇，申请中国发明专利2项，拥有软件著作权1项。同时，李博士有15年Python编程实战经验，致力于融合结构生物学、结构生物物理与高性能计算，推动精准药物发现与设计往更高效、更安全、更可及的方向发展。

* 参考链接

1、 https://www.isomorphiclabs.com/articles/the-isomorphic-labs-drug-design-engine-unlocks-a-new-frontier#a-new-gold-standard-for-binding-affinity-prediction

2、 https://seekingalpha.com/article/4879455-schrodinger-inc-sdgr-presents-at-td-cowen-46th-annual-health-care-conference-transcript

* 利益冲突声明

本文内容仅代表作者个人观点。作者未因本文获得任何报酬，且与文中提及的任何公司不存在商业关系。本文仅用于信息交流与参考，不构成任何形式的投资建议。文中引用的信息均来源于截至发表日被认为可靠的公开资料，但作者不对其准确性、完整性或及时性作出任何明示或暗示的保证。文中所涉及的数据、观点及判断仅供参考，读者应基于自身独立判断，并进行充分的研究与尽职调查。尽管作者已尽力确保内容的真实性、准确性与完整性，仍可能存在疏漏或错判，敬请业界同仁指正。