“人工智能的介入,为生物信息学研究带来了前所未有的机遇,不仅提高了我们对生命科学的理解,也为疾病治疗和基因编辑等领域带来了新的可能性。”中国科学院新科院士、国家特聘教授、长江学者、北京大学生物医学前沿创新中心(BIOPIC)主任张泽民在2023火山引擎AI for Science闭门研讨会上提到。
AI for Science(AI4S)无疑正全方位受到热捧。
无论是国内还是国际,整个行业都在因AI带来的结构性变革机遇而“沸腾”。国内更是部署了“重大科学问题研究的 AI 范式”任务,面向地球科学、生物医药科学等重要领域开展创新研究;国际上巨头间也摩肩擦踵,微软、英伟达等IT巨头、赛诺菲等制药巨头均纷纷加码AI4S。“经合组织”更是面向全球决策者发布了AI in Science的政策建议。
但是,要让AI4S发挥其真正效力,真正在诸如生命科学领域实现AI加速分子模拟、AI 预测蛋白结构、AI 赋能药物和材料设计,在当前算力基座构建的基础上仍道阻且长。
行业从业者无疑也意识到了这个问题。
为了让AI4S的价值得以发挥,也是在大会上,火山引擎首次对外发布了火山引擎科研智算云解决方案,为科研机构和从业者们提供了从IaaS到PaaS再到SaaS的全场景产品和方案。
火山引擎在如何助力科学研究加速向AI4S挺进,实现生命科学机构的上“云”?动脉网借此机会采访到了火山引擎副总裁张鑫。
2021年,火山引擎完成了品牌首秀。作为字节跳动旗下云服务平台,火山引擎意图将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,作为行业“引擎”驱动客户业务增长。
火山引擎 副总裁 张鑫
而在AI带来的结构性变革机遇的当下,用张鑫的话来说,火山引擎是“面向智能化新应用打造的新一代基础设施和配套技术中台”。
在此背景下,2022年,火山引擎推出以云为底座的一系列产品解决方案,包括企业上云和智能营销通用方案,以及覆盖金融、汽车、医疗等多个行业的云上增长方案。也是在2022年,火山引擎首次加码“医疗”尤其是生命科学等领域。
而它聚焦生命科学领域的原因显而易见。
一方面,生命科学领域有着巨幅增长的想象空间。当前,人类全基因组测序已经完成,但是测序技术带来的范式革命刚刚开始。随着组学时代来临以及生命科学数据的“大爆炸”,传统研究方法的不足显现出来。而AI在生物机制、疾病筛查诊断治疗等领域无疑将扮演愈加重要的角色。以生物医药领域投资来看,根据动脉橙&蛋壳研究院《2022年全球医疗健康产业资本报告》,生物医药领域凭借1094起融资、累计约346.1亿美元融资总额领先其他细分领域。而与其关联的云服务市场无疑有着巨大机遇。
另一方面,“工欲善其事必先利其器”。在面向生命科学领域提供普适性解决方案之前,火山引擎早已具备提供成熟解决方案的基础。而这得益于其在生命科学领域的长期探索——从自身来看,字节跳动AI-Lab团队论文曾多次被学术界顶级会议收录,其涉足领域则涵盖蛋白质结构预测模型、量子化学等等,而它们正是当前生命科学备受关注的领域;从合作对象来看,广州实验室等重要科研机构长期与火山引擎保持着合作。两者均奠定了其优势基础。
在AI带来结构性变革机遇的当下,火山引擎选择投身其中,并加码生命科学,无疑是顺应潮流的结果。
“一方面,在生命科学大数据时代,科研者面临多模态、高维度、跨尺度数据带来的复杂性、多样性问题;另一方面,科研者还面临从实验驱动到数据驱动中范式转型带来的标准问题等诸多挑战。”张鑫提到。
这些问题在生信、制药领域尤为明显。
以生信领域中基因测序来看,高通量基因测序经历样本制备、上机测序后,将产生庞大的基因序列数据,它涉及到海量数据存储、计算与传输,这对底层基础设施建构有着极高的要求;并且,面对数量如此庞大的数据,企业还面临如何高效处理数据,实现数据的分析与分享等难题。
倘若采用传统的IDC数据中心进行建设,企业IT基础设施可能面临资源规模固定、建设周期长和硬件资源运维成本高等问题,这将导致企业在快速拓展期的发展受阻;而基于自身业务发展、工作流程等逐步构建起来的系统,企业除了面临研发投入大等问题外,往往还面临对外标准兼容等问题。
制药领域面临的困难“只多不少”。由于靶标与疾病的关系探索难度大、靶标成药难度高、药物分子的开发难度大等原因,药物研发成功率极低。以往单纯依托实验方式完成药物研发已不可取,大量企业都在探索以AI、大数据技术驱动药物研发,实现物理模式+数据驱动的融合,减少实验带来的时间和经济成本的消耗。
显然,生信、制药领域需要的并非是一套单纯的算力解决方案,他们需要的是可以更好地满足基础算力需求、并更为快速地实现科研发现的整体解决方案。
而火山引擎瞄准上述痛点,在会上发布了科研智算云解决方案,面向生物信息、医疗健康、人工智能、材料科学、分子模拟、EDA等泛AI场景,构建了囊括基础设施层、平台层、科研应用层三层架构的AI4S全场景产品和方案。其目标,正是加速包括生命科学等在内的基础科学领域专家解锁新发现。
火山引擎科研智算云解决方案架构图
从基础设施层面来看,当前部分机构出于安全考虑采用混合云策略、部分企业则选择了全盘上云。火山引擎既可以通过公有云为科学研究提供计算、容器、存储、网络等基础设施,也可以通过火山引擎混合云veStack融合科研机构现有设施,共同打造混合云基础设施。
从平台层面来看,以AI制药为例,基于火山引擎的火山方舟大模型服务平台以及预训练大模型,深势科技完成了Uni-RNA的新型上下文感知深度学习模型的训练。该模型以迄今为止前所未有的规模对最大的RNA序列数据集进行预训练,它有望为mRNA 疫苗设计、RNA 结构预测、ASO 开发、SiRNA 疗法创新、靶向 RNA 小分子开发、Aptamer 研发等众多关键领域提供全新的解决方案。
从应用层面来看,操作系统的好坏事关科研能否顺利进行。火山引擎为此打造了集自动化的工作流编排、Workspace于一身的生物医学大数据操作系统Bio-OS。以生信领域为例,在火山引擎Bio-OS系统的助力下,分子之心打造并推出了国内首个功能完整的AI蛋白质设计和优化平台。
纵观整个行业,生命科学领域云服务平台业绩的增长有迹可循。
一方面,是生命科学领域的企业均在加速上“云”。无论是基因测序还是AI制药领域,海量的数据存储、计算、传输等需求,以及对业务发展的弹性支持、IT运维成本的控制等,都在推动生命科学领域企业上“云”加速。
另一方面,企业出于业务稳定性、可控性、资源互补等诸多需求,纷纷开启了多云化业务部署,而这也促成了云市场的进一步扩容。
火山引擎也在生命科学领域云服务市场的逐步扩容中取得了一定成效。自2022年以来,在生命科学领域,火山引擎已与行业数十个代表性头部高校/机构达成合作,并且合作意愿与数量仍在持续增长。而随着火山引擎科研智算云解决方案的发布,在进一步助力生命科学领域解锁新发现的同时,也有望推动其云服务业务进一步增长。
对于火山引擎来说,除了整体市场向好以外,尤为重要的一点,是其避开了厂商算力方面的同质化竞争,面向应用、场景等提供了差异化服务。一言以蔽之,火山引擎找到了足以发挥自身优势的“三板斧”。
其一,是火山引擎依托开源开放策略持续积淀优势。以面向生信领域的生物医学大数据操作系统Bio-OS为例,除商业化解决方案外,火山引擎也在提供开源版Bio-OS,并基于此打造社区,通过不断举行开源大赛,实现Bio-OS能力完善,沉淀更多工具和数据。其首届Bio-OS开源开放大赛更是吸引来自全球45所高校、16所科研机构、8家企业单位和个人参赛者的187支团队参与。作为一款全新的生物医学信息分析支撑底座,Bio-OS生物医学大数据系统基于开源实现了开发和应用的群策群力,对于未来发展无疑具备重要意义。
其二,是火山引擎基于全链路解决方案充分满足客户需求。“相比算力基础等硬件设施,用户(企业)更关注的,一定是上层操作界面的体验和直接的增量价值。”一方面,火山引擎避开了已经同质化、内卷的“算力”竞争;另一方面,面向整个生命科学领域,火山引擎提供了覆盖从基础设施到平台到应用的全链路解决方案,并且覆盖了产学研各端,在充分满足B端需求的同时,基于数据飞轮效应进一步带动着企业及平台快速发展。
其三,是火山引擎基于大模型服务平台“火山方舟”提供着更智能的服务体验。与其他很多云厂商单纯提供算力、基础底座不同,火山方舟平台致力于降低推理成本,并联合客户做重点应用共建和应用落地,催化整个大模型、大算力在千行百业落地加速。诸如在生信领域,基于Bio-OS操作系统及AI大模型的加持,它允许企业完成科研知识检索、论文精读、数据分析Agent、论文编写辅助等工作,更高效精准地开展学术研究,发现知识和科研决策。
值得一提的是,基于数亿用户及DAU产品打磨而来的内容生产能力、多人协同能力,也在火山引擎的发展中贡献着力量。它也推动着有着互联网基因的火山引擎打造极致化的产品体验,诸如在科研领域中充分发挥内容创作、多人协同的优势,满足教科研机构的需求。
随着诸如火山引擎等云服务平台继续面向AI大变革时代不断发挥自身平台价值,助力生命科学领域降本增效、研究提速、商业创新,我们相信,一个生命科学领域大创新爆发的时代或许正在到来。