【分析示例】通过机器学习估计 χ 参数从两个分子的描述符中创建特征,学习与相互作用参数χ的关系
目标和方法 使用 J-OCTA 机器学习功能(MI-Suite)来估计 χ 参数。使用的数据来自 Flory-Huggins Chi 数据库。获取的数据包括两个化合物 A 和 B 的名称以及它们之间的 χ 参数值。数据量为 263。学习/预测 χ 参数的过程如下:
χ 参数学习/预测过程 1. 从公共化合物数据库 PubChem 获取每种化合物的 SMILES 表示法。 使用 MI-Suite 的数据获取功能 DB-Explorer 获取。使用 MI-Suite 的数据采集功能 DB-Explorer 获取数据。只有同时获得 A 和 B 的 SMILES 表达式的化合物对(169 个)才会被使用。 2. 使用描述符计算功能 ChemDC 计算每个化合物的描述符值和 AutoCorr2D。 3. 根据原始数据中对化合物的描述,将计算出的描述符值进行混合,以创建单一特征。 4. 使用的混合方案是定量地理学中使用的混合方案,因为描述符(AutoCorr2D)可视为空间自相关量。 5. 训练以混合计算的特征为输入值,以每对化合物的χ 参数为目标值。
学习的设置如下: 在 MI-Suite 的学习功能所支持的学习方法中,我们使用了 XGBoost,这是一种基于提升的学习方法。XGBoost 的超参数设置基于 GP(高斯过程),以获得最佳参数设置。 离群点的去除是在第 90 个百分点(两侧)进行的。 在训练过程中,训练集和测试集的数据比例为 8:2。 训练结果 以下是训练结果。 对于通过训练获得的预测模型(即学得的模型),使用训练集时的预测准确率为 R^2=0.937,而使用测试集时的预测准确率为 R^2=0.778。 (转载自:J-OCTA官网) |
|
|