36氪 - 科技频道 08月26日
AI新模型大幅提升有机溶解度预测精度与速度
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

麻省理工学院研究团队开发了一种名为FASTSOLV的新AI模型,通过结合化学信息学工具和BigSolDB数据库,在有机溶解度预测方面取得了重大突破。该模型能够同时考虑溶质、溶剂及温度,并在溶质外推场景下,将预测误差(RMSE)降低2-3倍,推理速度提升高达50倍。这一进展解决了传统实验方法耗时、耗材且数据不准确的难题,为化学、材料科学和环境科学领域的研发与应用提供了高效工具。FASTSOLV模型基于改进的FASTPROP和CHEMPROP架构,并已开源。

💡 **AI驱动的有机溶解度预测突破**:麻省理工学院的研究团队利用化学信息学工具和全新的有机溶解度数据库BigSolDB,改进了FASTPROP和CHEMPROP模型架构,开发出FASTSOLV模型。该模型能够同时输入溶质分子、溶剂分子及温度参数,直接对logS(溶解度对数)进行回归训练,显著提升了预测的精度和效率,尤其是在严格的溶质外推场景下,将RMSE降低了2-3倍,推理速度提升高达50倍,解决了传统方法耗时、数据不准确的痛点。

📊 **BigSolDB数据库与严谨的评测体系**:该研究的核心数据来源于BigSolDB,该数据库系统性收录了有机固体在多种有机溶剂及不同温度下的溶解度数据,为通用预测模型的训练提供了关键支撑。为了确保模型在新化学空间的泛化能力,研究团队设计了严格的训练-评测体系,通过在SolProp和Leeds两个公开数据集上独立测试,并严格控制数据切分,以溶质为单位划分训练集和测试集,有效避免了信息泄露,确保了模型外推性能的准确评估。

🚀 **FASTSOLV模型的性能优势与工程潜力**:FASTSOLV模型在多维度测试中展现出优越性能,在Leeds数据集上的RMSE仅为0.95,远低于现有SOTA模型。同时,其推理速度比Vermeire模型快50倍,支持SHAP可解释性分析,显示出强大的工程潜力。该模型在预测利培酮和L-脯氨酰胺等典型溶质的溶解度时,优势尤为明显,能够准确判断溶剂溶解度顺序和温度依赖性。研究表明,模型性能已接近实验数据的随机不确定性极限,未来研究方向将聚焦于构建更高精度的有机溶剂数据集。

🌍 **“数据集+AI”驱动的全球性进展**:FASTSOLV及BigSolDB的突破性成果正推动全球范围内溶解度预测研究的创新。例如,英国利兹大学的研究者提出了结合AI与物理化学机制的模型,预测精度接近实验误差。同时,在抗生素发现领域,MIT团队利用图神经网络取得了显著成就。产业界也积极拥抱数据驱动模型,如AspenTech的Aspen Solubility Modeler在制药行业中提升了晶体筛选和工艺开发的效率,材料和化工领域也通过类似模型加速了新材料研发和生产工艺优化。

麻省理工学院研究团队结合化学信息学工具与全新有机溶解度数据库 BigSolDB,在 FASTPROP 与 CHEMPROP 模型架构的基础上进行了改进,使模型能够同时输入溶质分子、溶剂分子及温度参数,直接对 logS 进行回归训练。在严格的溶质外推场景下,相较 Vermeire 等人的 SOTA 模型,优化后模型的 RMSE 降低了 2–3 倍;同时,架构相对简洁,推理速度提升最高达 50 倍。

在化学与材料科学领域,有机固体在不同溶剂中的溶解度是一项核心分子性质,其影响贯穿科研与产业全链条。对于合成工艺而言,精准掌握溶解度不仅有助于筛选最优溶剂、优化反应条件,还能显著提升产物产率与纯度,降低生产成本;在环境科学中,它是解析全氟及多氟烷基物质(PFAS)等污染物在土壤与水体中迁移归趋的关键参数,为污染防控与治理提供科学依据;而在结晶、膜分离等工艺中,溶解度更是决定相行为与分离效率的核心变量。 

然而,传统实验测定方法存在诸多局限:不仅耗时耗材,还容易受到有机固体晶型与杂质等因素干扰,导致数据准确性不足。据研究,水溶解度 logS 的跨实验室标准差常达 0.5–0.7 log 单位,极端情况下测定结果差异甚至可超过 10 倍。尽管已有经验基团加和法、量子化学模型与机器学习方法应用于预测,但往往存在通用性不足,或难以兼顾精度与计算效率的问题。

针对这一痛点,美国麻省理工学院研究团队结合化学信息学工具与全新有机溶解度数据库 BigSolDB,在 FASTPROP 与 CHEMPROP 模型架构的基础上进行了改进,使模型能够同时输入溶质分子、溶剂分子及温度参数,直接对 logS 进行回归训练。

在严格的溶质外推场景下,相较 Vermeire 等现有的 SOTA 模型,优化后模型的 RMSE 降低了 2–3 倍,推理速度提升最高达 50 倍。目前,该团队将 FASTPROP 衍生模型命名为 FASTSOLV,并已将其开源发布,为相关科研与产业应用提供了高效而实用的工具。 

相关研究成果以「Data-driven organic solubility prediction at the limit of aleatoric uncertainty」为题,发表于 Nature Communication。 

论文地址:https://www.nature.com/articles/s41467-025-62717-7

BigSolDB 驱动的数据集构建与评测体系设计

该研究的核心数据来源为 BigSolDB,该数据库系统性收录了有机固体在多种有机溶剂及不同温度条件下、接近沉淀极限的溶解度数据,为通用预测模型的训练提供了关键支撑。

为实现「在无额外先验条件下实现新溶质外推」的研究目标,研究团队设计了严格的训练—评测体系:模型在 BigSolDB 上训练,并在 SolProp 与 Leeds 两个公开数据集上独立测试。为避免外推难度被低估,如下图所示,该研究首先剔除了 SolProp 中与 BigSolDB 重叠的全部溶质,并引入化学空间更广的 Leeds 数据集作为补充。 

溶质外推性能 

与 SolProp 相比,Leeds 提供了更高的溶质多样性,但仅覆盖室温条件,既可检验模型在新化学空间的适配性,又因缺乏「多温度平均」的隐式降噪而具有更高的不确定性上限。值得注意的是,如下图所示,3 个数据集的 logS 分布高度一致,均集中在 –1 附近,且在低溶解度端呈现长尾分布,保证了跨数据集性能对比的分布可比性。 

标签的分布 

在数据切分上,如下图所示,研究人员严格以溶质为单位:95% 的溶质用于训练,5% 用于验证和模型选择,同一溶质在不同溶剂与温度下的全部测量不会同时出现在不同子集中,从而有效规避了信息泄露。

此外,研究借助 ASTARTES 工具包,在训练数据中按「完整实验」为单位随机划分验证集,并在最终评测时分别从溶质和实验两个维度再次核查切分边界,确保评测的独立性与严谨性。 

数据分割策略

BigSolDB 驱动下的 FASTSOLV 模型构建

依托 BigSolDB 数据集,如下图所示,本研究对 FASTPROP 与 CHEMPROP 两种经典模型架构展开定制化改造,构建了一套清晰的机器学习建模流程。

首先,将溶质(solute, 如扑热息痛)与溶剂(solvent structures, 如乙酸乙酯)的分子结构,分别映射为对应的表征向量(representation vectors);随后,将这两个分子表征向量与溶液温度参数进行拼接,形成完整的溶液综合表征(solute representation);最终,将该表征输入全连接神经网络(fully-connected neural network),以 logS(溶解度对数)为目标进行回归训练。

通过这一改造,最终开发的模型实现多有机溶剂+不同温度场景下小分子溶解度的统一预测,打破了传统模型对特定溶剂或温度范围的依赖。 

机器学习解决方案 

为进一步提升模型的稳健性与预测可靠性,研究团队并未依赖单一模型输出,而是在 4 个不同随机初始化条件下训练 FASTPROP 模型,再通过集成策略组合得到最终的 FASTSOLV 模型,后续所有性能对比、案例验证等关键分析,均基于这一集成模型展开,有效降低了单一模型的随机波动风险。 

同时,为客观衡量新模型性能,研究引入当前广泛认可的 SOTA 模型——Vermeire 模型作为对照基准。该模型通过 4 个独立热化学子模型训练,再经热力学循环组合输出溶解度结果,在溶剂多样性与温度依赖性的兼顾上具有优势。但研究发现,其测试所用的 SolProp 数据集与自身训练集存在大量溶质结构重叠,这种「数据重叠」可能导致外推性能被高估。为保证对比的公平性与严谨性,本研究严格复现了 Vermeire 模型的原始训练-测试设置,在此基础上开展对照实验,确保性能差异仅源于模型本身而非测试条件。

以 2–3 倍精度与 50 倍速度刷新有机溶解度外推 SOTA

该研究对模型性能展开多维度测试与验证。插值场景下,优化后的 FASTPROP 模型 RMSE=0.22、P₁=94%,CHEMPROP 模型 RMSE=0.28、P₁=90%,性能已逼近实验数据噪声上限,印证了 BigSolDB 的支撑价值。

新溶质外推测试中,如下图所示,Leeds 数据集上 Vermeire 模型因系统性高估表现不佳(RMSE=2.16、P₁=34%),而 FASTPROP 与 CHEMPROP 的 RMSE 分别降至 0.95、0.99,P₁均超 69%;SolProp 数据集上,本研究模型同样更优(RMSE=0.83、P₁=80%),且 FASTPROP 推理速度约为 Vermeire 模型的 50 倍,支持 SHAP 可解释性分析。 

Vermiere、FASTPROP 和 CHEMPROP模型在测试集上的最优解 

训练数据量实验如下图所示,FASTPROP 与 CHEMPROP 虽分子表征不同,但性能收敛于相似极限:SolProp 测试集上约 500 条实验(≈5,000 数据点)即可达平台期,Leeds 测试集上 CHEMPROP 需约 2,000 条实验(≈20,000 数据点)。

通过 BigSolDB 中 34 组同条件多来源数据估算,实验随机不确定极限为 RMSE=0.75 log 单位,而两模型在 SolProp 上的 RMSE=0.83,已接近该极限;与 MolFormer、ChemBERTa-2 等大模型对比,二者表现更优,证明性能瓶颈源于实验数据而非模型表达力。

模型性能达到任意极限的均值检验 

此外,如下图所示,两模型在 SolProp 测试集上预测高度相关(Pearson r=0.81),温度梯度预测分布亦高度一致(EMD=0.03/0.02),系统误差显著低于 Vermeire 模型(EMD=0.06)。 

FASTPROP 和 CHEMPROP 模型的相关性预测 

研究还发现,在典型溶质验证中,如下图所示,FASTSOLV 对利培酮(RMSE=0.16 vs Vermeire 1.64)和 L-脯氨酰胺(RMSE=0.25 vs Vermeire 2.33)的预测优势明显,不仅能正确判断溶剂溶解度顺序与温度依赖,还可区分结构相似的己烷与庚烷。失败模式分析显示,蒽醌类预测误差较高,但在 85 个蒽/蒽醌衍生物子集中,模型整体 RMSE=0.52,且能稳定排序溶剂溶解度,说明分子表征具备合理性。 

对结构不同的解决方案进行模型验证 

综上,FASTSOLV 相较 Vermeire 模型 RMSE 降低 2–3 倍,推理加速最高 50 倍,兼具可解释性与工程潜力,代表严格外推设定下的 SOTA 水平。研究同时指出,额外增加训练数据无法突破性能极限,未来需聚焦高精度有机溶剂数据集构建。

「数据集+AI」驱动分子性质预测的全球突破

在当今化学、医药与材料科学交叉创新的浪潮中,以「大规模数据集+先进机器学习模型」为核心的分子性质预测技术,正成为破解实验耗时久、研发成本高、性能难预测等行业痛点的关键抓手。 

在学术界,世界各地的研究团队正在因应 FASTSOLV 及 BigSolDB 的突破性成果,展开一系列创新性的溶解度预测研究。比如,英国利兹大学的研究者们提出了一种结合人工智能与物理—化学机制的 Causal Structure Property Relationship 模型,在有机溶剂与水体系中进行溶解度预测,其预测精度几乎达到实验误差水平,且可解释性出众,被视为溶解度建模领域的重要里程碑。 

与此同时,美国麻省理工学院(MIT)的科研团队利用图神经网络 Chemprop 在抗生素发现领域成绩斐然。其测定了 39,312 个化合物的抗生素活性和人类细胞毒性图谱,并应用图神经网络集成对 12,076,365 个化合物的抗生素活性和细胞毒性展开预测 ,用于新抗生素挖掘。通过对一组初始化合物筛选评估其对甲氧西林敏感菌株 S. aureus RN4220 的生长抑制活性,获得 512 个活性化合物,随后训练图神经网络进行二分类预测。 

在产业界,同步也涌现出令人瞩目的创新实践。制药行业一直以来都高度关注高通量、低成本的溶解度评估技术。例如 AspenTech 的 Aspen Solubility Modeler 工具,可根据少数溶剂中的实测数据预测数百种其他溶剂组合下的溶解度,在 GSK 和 AstraZeneca 等大厂的晶体筛选与工艺开发流程中显著提升效率与决策可靠性。 

此外,还有企业借助类似数据驱动模型,在材料研发领域,通过分析大量材料分子结构与性能数据,预测新型材料特性,缩短研发周期,降低研发成本。在化工领域,部分企业利用模型预测化学反应中不同溶剂、温度条件下的反应效果,优化生产工艺,提高生产效率与产品质量,这些都是企业将学术研究中的模型与数据理念应用于实际生产创新的体现 。

参考链接:

1.https://eps.leeds.ac.uk/faculty-engineering-physical-sciences/news/article/5678/solubility-prediction-problem-addressed

2.https://www.manufacturingchemist.com/news/article_page/Solubility_modelling/57726

本文来自微信公众号“HyperAI超神经”,作者:田小幺,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

有机溶解度 AI预测 机器学习 化学信息学 BigSolDB FASTSOLV 麻省理工学院 Nature Communication 溶剂 温度 外推 SOTA模型 推理速度 数据驱动 材料科学 环境科学 制药 化工 Organic Solubility AI Prediction Machine Learning Cheminformatics MIT Solvent Temperature Extrapolation Inference Speed Data-driven Materials Science Environmental Science Pharmaceuticals Chemical Engineering
相关文章