AI药物研发之惑：我们应如何提高药物研发的成功率

作者：动脉网的小伙伴们 2019-03-30 18:00

在过去的3年里，我们见证了人工智能（AI）的第三波崛起，并为之折服。同样的风潮也吹拂了相对保守的医药行业，甚至侵入了最具技术门槛的制药业。在一些创业团队的蓝图里，通过机器学习算法和虚拟研发的商业模式，可以革新目前这种“2 Billions, 20 years”低效的药物研发过程，将新药更快更省地带给患者。

但如果把眼光从未来移开，回头凝视历史，我们就会发现AI在药物研发中并非陌生。自80年代开始，一大批巨头就开始推动计算机辅助药物发现（Computer Aided Drug Design，CADD)。大家可能知道Merck赞助了好几次Kaggle Challenge，主题是用机器学习预测P450酶活性。但其实，人家在30多年前就开始了相关的尝试，还登上了1981年的《财富》杂志。

在那个年代里，早期的计算化学家，已经在使用KNN和SVM等算法对药物分子中的moieties进行无监督聚类，试图归纳出特定药效的特征。一些分子动力学程序也试图用机器学习来优化收敛速度，尤其是面对蛋白质构型docking的搜索时。这些人工智能的思路，早就融入了商用的QSAR(Quantitive Structure Activity Relatioship，定量构效关系 )软件中。

那么这次，以深度学习为代表的AI回潮，有什么不一样？如果这次确实不一样，AI又能不能让药物研发这件越来越糟心的事情变得“不一样”？

在讨论AI药物研发之前，让我们梳理一下药物研发的整个流程。通常可以划分为三阶段：

Drug Discovery：了解疾病机理（或发现“奇迹”），识别出机理中能成药的靶点，我称其为“生物学”阶段；

Drug Design ：筛选出适用于靶点的lead小分子/生物大分子，设计并优化lead的结构，然后对分子进行临床前assay，也就是广义的“化学”阶段；

Drug Development：三阶段的临床试验验证安全性和疗效，并在上市后的继续跟进和扩展适应症，可以称之为“医学”阶段；

在这三个不同阶段，研发团队有着不同的目标函数，也产生了不一样的技术需求和解决这些需求的方法论。因此，AI运用于不同的阶段会有非常不同的难度和效用。

在生物学阶段，主要的目标函数是：Found （找到）

在最理想的情况下，生物学家能够把疾病现象解释为机理，然后按照机理去识别靶点tackle这个机理。在更实际的情况下，可以通过临床中的特例或是一些heuristic的推理，定向识别出能用药物tackle的靶点。也就是说，虽然不清楚整个疾病机理的作用网络，但作用于某些网络的hub可以让疾病伏法。这大概是最能称之为“Magic Bullet”（神奇子弹）的情况了。

而在当前的医药研发中，生物学研发者会面对两个越来越宽的鸿沟，一个比较明显但是相对容易理解，一个比较隐秘但真正棘手。

比较明显的鸿沟是：将机理转化为可成药的靶点，这并没有理想中那么直接。我们已经遭遇了太多完美机理无法成药的案例，因为作用于单个机理的药物，会受到其他未理解机理的干涉，导致预计有效的疗法完全失效，或是产生先期不可预见的副作用。这已经造成了大量的研发项目在早期就停滞，或者更惨的如Tau蛋白，在进入临床后才宣告失败。

而这个明显的鸿沟背后，有一个更难的鸿沟：从生物现象本身的复杂性里提取可理解的机理，这比给你个CPU的电镜照片让你逆推出计算电路要难得多。人体在分子层面的运作本身的复杂性，很可能是超越人的理解范畴的。从某种意义上说，生物学发现的所有机理都只可能是局部机理，是“比特例更一般的特例”。

这并不意味着这些“更一般的特例”不对，但是他们的数量将会是有限的。我们已经摘了很多容易摘的果子（Low Hanging Fruit），而在研究接下来的机理时，会面临可理解性和可预测性之间的背离，而预测性的下降会对临床造成困惑。

而现有的生物学研究范式里并没有意识到这种困难，这也就不难理解，为什么本世纪以来生物学研究的可重复性大大下降了（排除掉学术不端的影响）。如果意识到生物现象本身的复杂性，你会发现“生物学解签师”真的已经尽力了，但是他们被误用的统计学（如最近的P<0.05争论）和网络复杂性联手给蒙了，因此得不出具有确定性又可理解的机理。

而这也许是药物研发效率下降的最底层原因，我们先按下不表。

那么进入化学阶段后，主要的目标函数就是：Optimize （优化）

当AI研究者见到这个词的时候，一定会觉得暗爽。的确，在已经了解靶点的情况下筛选药物分子，是最容易想到的AI能够赋能的任务。实际上，这是计算化学和CADD已经耕耘了几十年的战场，已经有了很深的积攒了。大部分AI新药公司也都集中在“化学”这个阶段，无论是做分子模拟，构型预测和QSAR分析，晶型优化，甚至继续向下去做逆合成路线推演，或是生产流程优化，都是从已有的先验知识出发，去搜寻和优化lead compound。

对于这个比较成熟的过程，可能的困难不是出在算法上，因为计算化学家一直在follow最新的机器学习算法并加以应用。最头痛的问题在于，现有的生化数据库的维度和量级都有点小了，而这却是深度学习方法较为依赖的要素。想要达到ImageNet对DL的推动力，现有的如DeepChem, ZINC之类的库是不够的。更糟糕的是数据来源的可靠性不足，毕竟我们都知道garbage in, garbage out。

在组学和结构生物学的数据库未完善和矫正之前，我们很难做到足够可靠的virtual screening，因此我非常看好质谱和冷冻电镜的大规模应用，这相当于互联网出现之前的全美光纤建设，是基础。当然，ab initio直接计算出新的分子结构，也许可以对真实数据做一些补充，但是这种方法依然受限于已有的分子库本身的数据结构。

但更让人困惑的是，AI算法所需要实现的事情，化学家们通过heuristic approach也可以有很高效的实现，他们没有意识到算法给自己工作带来的颠覆性价值。比方说，最奇怪的就是用深度学习来做逆合成分析，AI并没有体现出比人的灵感更优异之处，因为最终路线的实现更需要wet lab的实践而不是图上推演。AI所试图优化的地方，恰恰是目前人工操作最成熟，最不需要AI的地方。在这些阶段玩AI，是内卷化的竞争，能玩的空间其实很小的。

更何况，“化学”阶段在整个药物研发中并非是一个速度决定步骤。在这个阶段任何的改进都只是边际上的小规模提高，除非运用于速度的细微差别更重要的me-too，me-better或首仿药中，否则能够带来的收益是较小的。从这个角度上看，AI算法在“化学”阶段更多是一个工具的角色，必须结合一些尚未成药的新机理，或是成药困难的靶点才可以产生更大的价值。

我们的确看到部分团队会自建生物学团队，从机理出发来全程开发lead直到卖给药企。但问题在于，你首先要有个牢靠的生物学机理作为出发点，而这个关键问题却和你自己的机器学习knowhow无关。这是一个很尴尬的局面。

但我认为，作为一种无监督无先验知识的学习过程，机器学习真正最颠覆的地方，应该是在对人类未知机理的情况下寻找能够tackle疾病的药物分子，而并不需要给出人类可以理解的机理。这很有难度，但是却是最值得探索的地方，因为在机理明确的情况下药物的发现只是一个速度快不快的问题，而机理未知的情况下则是从零到一的问题。现在真正阻碍药物研发效率的，是后者！如果改一下克林顿当年竞选的口号的话，那么我可以说：“”It’s biology, stupid！”

但是biology是一个Hard Problem，而现在，很少有AI制药团队把目标设定在那里。

而到了医学阶段，主要的目标函数会变成：Verify（验证）

如果说化学阶段的目的是Be better的话，那么医学阶段的目标似乎又收缩了，变成了Be usable，然而真实的情况是大部分药物分子跨不过这个坎。在药物研发里有个谚语，叫做“Fail fast, Fail early”，这其实是求之不得的事情，因为如果拖到临床II期甚至III期临床再失败，将会造成摧毁整个公司市值的重大损失。

这看起来似乎是荒谬的，如果前期的生物学机理和化学优化已经完善，为什么放到真人身上就砸了呢。但这个荒谬背后的原因是非常深刻的：药物分子在复杂的人体系统，尤其是具有基因和组学异质性的人群中的效应是难以捉摸的，在不同的维度上可以呈现出不同的usability。

大部分的药物如果是在II期及之后失败，最大的问题可能不是因为药不好，而是以错误的方式用在了错误的人群中。很多药物其实在临床试验里并没有死透，如果我们知道自己错在那里，其实是有可能通过给药方案和适用范围的调整，达到新的临床终点。

如果能够及时止损，及时选择合适的适应症，提高成功率的话，这才是真正值钱的地方。而这其实可以借助于机器学习对患者画像的洞察来实现，在临床试验开始之前就对这个药在大人群中的可用性，或是对哪些细分marker的人群可用，以及最重要的，哪些marker人群和临床终点无效做出判断。这样的洞见，在II期及以后的临床试验中都价值上亿！

可以看到，目前的药物研发的流程，最大的矛盾集中在生物学阶段和医学阶段，相反，化学阶段反而是最成熟的部分。而如果只是在这个非瓶颈部分做优化，并不会显著提升药物研发的时间效率和回报率。

因此我认为，如果AI药物研发的项目，仅仅是过去计算化学模拟，组学和药物开发自动化的延续，是用AI的工具去优化和加强已有的研发流程，这当然是一个最具可行性的前期策略，但是这并不是那么值钱的市场。这些针对药物研发中“化学”阶段的AI创业项目，做的普遍是容易做，但不是必须做的事情。如果只是提升当前的药物研发效率，那么AI药物研发公司的估值，显然有点高了。

大型药企对这些创业项目的关注和支持，与其说是看好技术而去投资，不如说是出于财务KPI的考虑，以投资AI药物研发公司的方式，将非药企核心的研发业务外包给了CRO和这些“virtual biotech”的AI创业公司。这可以输出药企的优势：充沛的现金流投入，和临床开发“接盘”能力，而产生的收益又不会立即体现在损益表上，而是通过收购-商誉的调节，让报表变得更好看。当然，从投资的角度去看，我也认同这种商业逻辑。

但真正具有极大价值的，应该是用AI重构药物研发的整体逻辑，这可以从两个方向进行努力：

1，在生物学的阶段，甩开可理解性的限制，以无监督学习的方式去更高效寻找新机理和有效的新靶点，往外扩张成药的空间。

2，在医学的阶段，结合患者画像参与到临床实验的决策中，以提高药物定位和过审的成功概率，尽早识别并kill掉无底洞的烂药，以免到了3期失败被坑死。

这两个方向其实都体现出同一个理念，那就是应该用AI去提高药物研发的成功率，而非药物研发的运营效率，这两者是质和量的不同。如果能够直面“生物学”和“医学”阶段的Hard Problem，实现颠覆性创新，我相信，这会比在“化学”阶段做的任何渐进式创新，都更有价值。与诸君共勉！

本文作者：刘正、新加坡Timbre capital分析师

作者邮箱：justinian@timbrecapital.com.sg

文章标签人工智能医药

注：文中如果涉及企业数据，均由受访者向分析师提供并确认。

声明：动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。转载请联系tg@vcbeat.net。