AI新模型大幅提升有机溶解度预测精度与速度

麻省理工学院研究团队结合化学信息学工具与全新有机溶解度数据库 BigSolDB，在 FASTPROP 与 CHEMPROP 模型架构的基础上进行了改进，使模型能够同时输入溶质分子、溶剂分子及温度参数，直接对 logS 进行回归训练。在严格的溶质外推场景下，相较 Vermeire 等人的 SOTA 模型，优化后模型的 RMSE 降低了 2–3 倍；同时，架构相对简洁，推理速度提升最高达 50 倍。

在化学与材料科学领域，有机固体在不同溶剂中的溶解度是一项核心分子性质，其影响贯穿科研与产业全链条。对于合成工艺而言，精准掌握溶解度不仅有助于筛选最优溶剂、优化反应条件，还能显著提升产物产率与纯度，降低生产成本；在环境科学中，它是解析全氟及多氟烷基物质（PFAS）等污染物在土壤与水体中迁移归趋的关键参数，为污染防控与治理提供科学依据；而在结晶、膜分离等工艺中，溶解度更是决定相行为与分离效率的核心变量。

然而，传统实验测定方法存在诸多局限：不仅耗时耗材，还容易受到有机固体晶型与杂质等因素干扰，导致数据准确性不足。据研究，水溶解度 logS 的跨实验室标准差常达 0.5–0.7 log 单位，极端情况下测定结果差异甚至可超过 10 倍。尽管已有经验基团加和法、量子化学模型与机器学习方法应用于预测，但往往存在通用性不足，或难以兼顾精度与计算效率的问题。

针对这一痛点，美国麻省理工学院研究团队结合化学信息学工具与全新有机溶解度数据库 BigSolDB，在 FASTPROP 与 CHEMPROP 模型架构的基础上进行了改进，使模型能够同时输入溶质分子、溶剂分子及温度参数，直接对 logS 进行回归训练。

在严格的溶质外推场景下，相较 Vermeire 等现有的 SOTA 模型，优化后模型的 RMSE 降低了 2–3 倍，推理速度提升最高达 50 倍。目前，该团队将 FASTPROP 衍生模型命名为 FASTSOLV，并已将其开源发布，为相关科研与产业应用提供了高效而实用的工具。

相关研究成果以「Data-driven organic solubility prediction at the limit of aleatoric uncertainty」为题，发表于 Nature Communication。

论文地址：https://www.nature.com/articles/s41467-025-62717-7

BigSolDB 驱动的数据集构建与评测体系设计

该研究的核心数据来源为 BigSolDB，该数据库系统性收录了有机固体在多种有机溶剂及不同温度条件下、接近沉淀极限的溶解度数据，为通用预测模型的训练提供了关键支撑。

为实现「在无额外先验条件下实现新溶质外推」的研究目标，研究团队设计了严格的训练—评测体系：模型在 BigSolDB 上训练，并在 SolProp 与 Leeds 两个公开数据集上独立测试。为避免外推难度被低估，如下图所示，该研究首先剔除了 SolProp 中与 BigSolDB 重叠的全部溶质，并引入化学空间更广的 Leeds 数据集作为补充。

溶质外推性能

与 SolProp 相比，Leeds 提供了更高的溶质多样性，但仅覆盖室温条件，既可检验模型在新化学空间的适配性，又因缺乏「多温度平均」的隐式降噪而具有更高的不确定性上限。值得注意的是，如下图所示，3 个数据集的 logS 分布高度一致，均集中在 –1 附近，且在低溶解度端呈现长尾分布，保证了跨数据集性能对比的分布可比性。

标签的分布

在数据切分上，如下图所示，研究人员严格以溶质为单位：95% 的溶质用于训练，5% 用于验证和模型选择，同一溶质在不同溶剂与温度下的全部测量不会同时出现在不同子集中，从而有效规避了信息泄露。

此外，研究借助 ASTARTES 工具包，在训练数据中按「完整实验」为单位随机划分验证集，并在最终评测时分别从溶质和实验两个维度再次核查切分边界，确保评测的独立性与严谨性。

数据分割策略

BigSolDB 驱动下的 FASTSOLV 模型构建

依托 BigSolDB 数据集，如下图所示，本研究对 FASTPROP 与 CHEMPROP 两种经典模型架构展开定制化改造，构建了一套清晰的机器学习建模流程。

首先，将溶质（solute, 如扑热息痛）与溶剂（solvent structures, 如乙酸乙酯）的分子结构，分别映射为对应的表征向量（representation vectors）；随后，将这两个分子表征向量与溶液温度参数进行拼接，形成完整的溶液综合表征（solute representation）；最终，将该表征输入全连接神经网络（fully-connected neural network），以 logS（溶解度对数）为目标进行回归训练。

通过这一改造，最终开发的模型实现多有机溶剂+不同温度场景下小分子溶解度的统一预测，打破了传统模型对特定溶剂或温度范围的依赖。

机器学习解决方案

为进一步提升模型的稳健性与预测可靠性，研究团队并未依赖单一模型输出，而是在 4 个不同随机初始化条件下训练 FASTPROP 模型，再通过集成策略组合得到最终的 FASTSOLV 模型，后续所有性能对比、案例验证等关键分析，均基于这一集成模型展开，有效降低了单一模型的随机波动风险。

同时，为客观衡量新模型性能，研究引入当前广泛认可的 SOTA 模型——Vermeire 模型作为对照基准。该模型通过 4 个独立热化学子模型训练，再经热力学循环组合输出溶解度结果，在溶剂多样性与温度依赖性的兼顾上具有优势。但研究发现，其测试所用的 SolProp 数据集与自身训练集存在大量溶质结构重叠，这种「数据重叠」可能导致外推性能被高估。为保证对比的公平性与严谨性，本研究严格复现了 Vermeire 模型的原始训练-测试设置，在此基础上开展对照实验，确保性能差异仅源于模型本身而非测试条件。

以 2–3 倍精度与 50 倍速度刷新有机溶解度外推 SOTA

该研究对模型性能展开多维度测试与验证。插值场景下，优化后的 FASTPROP 模型 RMSE=0.22、P₁=94%，CHEMPROP 模型 RMSE=0.28、P₁=90%，性能已逼近实验数据噪声上限，印证了 BigSolDB 的支撑价值。

新溶质外推测试中，如下图所示，Leeds 数据集上 Vermeire 模型因系统性高估表现不佳（RMSE=2.16、P₁=34%），而 FASTPROP 与 CHEMPROP 的 RMSE 分别降至 0.95、0.99，P₁均超 69%；SolProp 数据集上，本研究模型同样更优（RMSE=0.83、P₁=80%），且 FASTPROP 推理速度约为 Vermeire 模型的 50 倍，支持 SHAP 可解释性分析。

Vermiere、FASTPROP 和 CHEMPROP模型在测试集上的最优解

训练数据量实验如下图所示，FASTPROP 与 CHEMPROP 虽分子表征不同，但性能收敛于相似极限：SolProp 测试集上约 500 条实验（≈5,000 数据点）即可达平台期，Leeds 测试集上 CHEMPROP 需约 2,000 条实验（≈20,000 数据点）。

通过 BigSolDB 中 34 组同条件多来源数据估算，实验随机不确定极限为 RMSE=0.75 log 单位，而两模型在 SolProp 上的 RMSE=0.83，已接近该极限；与 MolFormer、ChemBERTa-2 等大模型对比，二者表现更优，证明性能瓶颈源于实验数据而非模型表达力。

模型性能达到任意极限的均值检验

此外，如下图所示，两模型在 SolProp 测试集上预测高度相关（Pearson r=0.81），温度梯度预测分布亦高度一致（EMD=0.03/0.02），系统误差显著低于 Vermeire 模型（EMD=0.06）。

FASTPROP 和 CHEMPROP 模型的相关性预测

研究还发现，在典型溶质验证中，如下图所示，FASTSOLV 对利培酮（RMSE=0.16 vs Vermeire 1.64）和 L-脯氨酰胺（RMSE=0.25 vs Vermeire 2.33）的预测优势明显，不仅能正确判断溶剂溶解度顺序与温度依赖，还可区分结构相似的己烷与庚烷。失败模式分析显示，蒽醌类预测误差较高，但在 85 个蒽/蒽醌衍生物子集中，模型整体 RMSE=0.52，且能稳定排序溶剂溶解度，说明分子表征具备合理性。

对结构不同的解决方案进行模型验证

综上，FASTSOLV 相较 Vermeire 模型 RMSE 降低 2–3 倍，推理加速最高 50 倍，兼具可解释性与工程潜力，代表严格外推设定下的 SOTA 水平。研究同时指出，额外增加训练数据无法突破性能极限，未来需聚焦高精度有机溶剂数据集构建。

「数据集+AI」驱动分子性质预测的全球突破

在当今化学、医药与材料科学交叉创新的浪潮中，以「大规模数据集+先进机器学习模型」为核心的分子性质预测技术，正成为破解实验耗时久、研发成本高、性能难预测等行业痛点的关键抓手。

在学术界，世界各地的研究团队正在因应 FASTSOLV 及 BigSolDB 的突破性成果，展开一系列创新性的溶解度预测研究。比如，英国利兹大学的研究者们提出了一种结合人工智能与物理—化学机制的 Causal Structure Property Relationship 模型，在有机溶剂与水体系中进行溶解度预测，其预测精度几乎达到实验误差水平，且可解释性出众，被视为溶解度建模领域的重要里程碑。

与此同时，美国麻省理工学院（MIT）的科研团队利用图神经网络 Chemprop 在抗生素发现领域成绩斐然。其测定了 39,312 个化合物的抗生素活性和人类细胞毒性图谱，并应用图神经网络集成对 12,076,365 个化合物的抗生素活性和细胞毒性展开预测，用于新抗生素挖掘。通过对一组初始化合物筛选评估其对甲氧西林敏感菌株 S. aureus RN4220 的生长抑制活性，获得 512 个活性化合物，随后训练图神经网络进行二分类预测。

在产业界，同步也涌现出令人瞩目的创新实践。制药行业一直以来都高度关注高通量、低成本的溶解度评估技术。例如 AspenTech 的 Aspen Solubility Modeler 工具，可根据少数溶剂中的实测数据预测数百种其他溶剂组合下的溶解度，在 GSK 和 AstraZeneca 等大厂的晶体筛选与工艺开发流程中显著提升效率与决策可靠性。

此外，还有企业借助类似数据驱动模型，在材料研发领域，通过分析大量材料分子结构与性能数据，预测新型材料特性，缩短研发周期，降低研发成本。在化工领域，部分企业利用模型预测化学反应中不同溶剂、温度条件下的反应效果，优化生产工艺，提高生产效率与产品质量，这些都是企业将学术研究中的模型与数据理念应用于实际生产创新的体现。

参考链接：

1.https://eps.leeds.ac.uk/faculty-engineering-physical-sciences/news/article/5678/solubility-prediction-problem-addressed

2.https://www.manufacturingchemist.com/news/article_page/Solubility_modelling/57726

本文来自微信公众号“HyperAI超神经”，作者：田小幺，36氪经授权发布。

BigSolDB 驱动的数据集构建与评测体系设计

BigSolDB 驱动下的 FASTSOLV 模型构建

以 2–3 倍精度与 50 倍速度刷新有机溶解度外推 SOTA

「数据集+AI」驱动分子性质预测的全球突破

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签