支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


从8万+数据源提炼洞察,ChatGPT+Zilliz +LangChain如何成创新药研发新范式

发布日期:2025-07-01 20:13:42 浏览次数: 1553
作者:Zilliz

微信搜一搜,关注“Zilliz”

推荐语

AI技术如何颠覆创新药研发?ChatGPT+Zilliz+LangChain组合拳,让临床试验效率飙升!

核心内容:
1. 创新药研发面临的三大痛点:高成本、低成功率、长周期
2. TrialHub平台通过8万+数据源和RAG技术重构临床流程
3. 医疗专用AI系统IQ的三大差异化能力与底层技术架构

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
图片

过去几十年中,如果说有一个行业,成功率比赌博还低,成本投入比芯片还高,那必定是创新药。

先看几个数据我们就有概念了:百亿研发成本、90%以上的失败率,十年起步的研发时间。

具体来说:

过去十多年,全球创新药的平均开发成本高达13亿美元,其中,抗癌和免疫调节药物上,平均每种药物的研发成本高达27亿美元。

但是,药物的研发成功率上,到2022 年仅为 6.3%,且仍有下降趋势。

那么一款新药的研发以及获利期分别是多久呢?

研发一款新药,10-15年是常态。与此同时,创新药产业还长期被专利悬崖所制约:即一款创新药的专利有效期通常仅有20年,而除掉漫长的6-10年临床,企业对药品的实际独占权仅有12-14年。

专利悬崖后若无接替产品,常常会出现企业命悬一线或者市值崩塌的情况。

也就是说,在这中间,加速任何一个环节尤其是耗时最久的临床期的效率与变革,无论对药企的发展,还是对病人的生存质量,都至关重要。

而TrialHub 正是这样一个平台。

通过爬取全球医药相关的 80,000 多个来源(包括 PubMed),包括临床试验数据、各国药品报销体系以及患者治疗路径在内的多种数据,并借助大模型与向量数据库对其进行加工汇总,TrialHub 可以极大加速药企和研究组织的临床试验速度与效率。


01 

RAG如何变革传统医药研发的临床流程


通常来说,一款创新药的研发时间,大概在十年上下。进一步细分,则可以分为三个阶段:

早期研究与预临床阶段大约 3-6年;临床开发阶段(I期、II期、III期)约 6-10年;市场推广阶段:约 2-5年。

其中,临床往往是耗时最久,资本投入最大的阶段。

那么如何加速临床?TrialHub给出的答案是RAG。

TrialHub 旗下核心产品 “IQ” 允许用户以自然语言提问的方式,获取关于试验和患者的核心信息,解答与患者、适应症、治疗领域、药物相关的问题。可以应用于可行性研究、项目管理、临床运营、患者招募与参与、业务拓展等多个细分业务之中。

相比传统的大模型Agent,IQ的工作流程与能力有三大不同:

  • IQ的数据源主要来自各大权威医疗平台,以及企业的内部私有数据,在进行数据汇总时,会分析和交叉核对不同来源的数据进行二次验证,从而保证信息的准确性以及及时性。

  • 不同于传统大模型的有问必答,借助对医疗领域的专业认知与数据积累,TrialHub IQ 做问题检索时,通常会先对问题的背景信息进行检索,并不断追问互动问题的细节,才会最终给出专业结论。

  • IQ支持用户将专有数据以任何格式上传到 TrialHub,可以根据需要自定义数据源,获得量身定制的独特洞察。

在IQ平台的搭建上,TrialHub 则采用了 LangChain + ChatGPT API+Zilliz Cloud的模式进行RAG搭建。Embedding模型,则采用基于 BERT 微调的医学专用模型,生成的embedding数据,则会存储在 Zilliz Cloud 中用于高速、精准的检索。目前,这一套系统已管理超过 2.5 亿个向量。


02 

创新药临床的RAG搭建,需要怎样的向量数据库?


TrialHub 的数据工程师 Todor Voynikov 加入团队后,接到的首个任务就是从零开始构建一个专业的医药RAG 系统。

在他看来,这样一个生产级RAG,必须保证三个原则:

1.高质量搜索是系统的核心

医疗场景,对失误几乎0容忍。

2.通用embedding模型不行,医疗需要定制语义空间

TrialHub 基于真实医疗文档和记录微调了embedding模型,专门用于各种医学术语的表示。

3.环节中的每一个组件都是业内最优。

在模型侧,TrialHub 采用了行业内认可度最高的 ChatGPT;框架选择了相对成熟的LangChain 。

接下来的问题就是向量数据库,Pinecone、Qdrant、Milvus 这么多方案该如何选择?

经梳理发现,TrialHub 的数据量庞大、信息来源复杂,并且有自定义的测试基准,因此,向量数据库需要满足以下特征:能够处理数十亿个向量、具备商业级的系统可靠性、能够同时处理结构化信息,以及PDF在内格式复杂的非结构化内容。

经过多轮测评,Milvus 因为“在处理从 1,000 到几百万条数据的批量检索任务时,表现非常出色”最终脱颖而出。

在此不久后,TrialHub 又将其向量数据库选型升级到了Milvus 的托管版本 —— Zilliz Cloud,在他们看来,Zilliz cloud拥有:

  • 可扩展的检索性能:即使向量规模达到数亿级,Zilliz Cloud 依然保持了快速、稳定的响应能力。

  • 生产级 Serverless 能力:虽然常被用于原型开发,但 Zilliz Cloud 的 Serverless 版本也顺利支持了 TrialHub 的线上 RAG 系统。

  • 更高的易用性与稳定性:Zilliz 提供的 Python 客户端和 API 能顺利集成至 TrialHub 的 LangChain 架构中,Zilliz 团队的支持也为系统稳定性提供保障。

  • 安全第一的架构:医药信息非常敏感,因此向量数据库必须满足企业级合规控制、私钥管理、访问审计功能全覆盖,Zilliz Cloud在设计伊始就考虑到了以上问题,通过 SOC 2 Type 2 认证和全面的安全控制,让其尤其擅长管理处理敏感数据。

  • 成本和部署运维效率:Zilliz Cloud 的部署极其轻量,不需要复杂架构调整即可接入,可以大幅减少 DevOps 负担。

  • 经过大规模验证:Zilliz 已被 金融、医药行业内多个大型企业采用,证明了其大规模处理关键任务应用程序的能力。

结语

放眼未来 ,Zilliz Cloud 与TrialHub 还计划继续增大双方的合作范围,包括:

  • 通过定制的 AI 套餐产品,向更多客户推出 AI 功能

  • 多模态分析:扩展文本以外的语义理解功能,包括图像、音频和视频等

  • minhash功能使用:在构建RAG的过程中,常常会面临相同或相似数据被重复入库的情况,不仅浪费企业的存算资源,也会对内容输出质量造成极大影响。而Milvus 2.6新发布的Minhash查重功能能够简化这一过程。

在TrialHub 看来:高质量的医疗RAG,必须以高质量的非结构化信息检索为起点,Zilliz Cloud是加速创新药临床阶段数据的管理与挖掘的重要基础设施。


推荐阅读
成本降50%、准确率提升40%,美国头部地产AI 公司用Agent弯道超车
向量数据库Zilliz x 西湖心辰:让Agent拥有情商
14家企业非结构化数据治理秘籍全公开,《Zilliz 向量数据库白皮书&案例合集》正式发布
美国连锁百货Nordstrom:推荐系统如何做到让你刚买跑鞋,就推防晒
Milvus×滴滴:超3000w SKU的商超检索系统是如何炼成的

图片
图片

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询