图结构表示下的药物数据增强方法

CAI Yinjiang,XU Guangjun,MA Xibo

Journal of Computer Applications(2023)

引用 0|浏览2
暂无评分
摘要
小样本数据会导致机器学习模型出现过拟合问题,而药物研发中的数据往往都具有小样本特性,这极大地限制了机器学习技术在该领域的应用.针对上述问题,提出了图结构下的药物数据增强方法.所提方法通过对样本微扰生成新的相似样本,以扩充数据集.所提方法包含4个子方法,分别是:基于分子骨干的节点丢弃法、基于分子骨干的边丢弃法、多样本拼接法以及混合策略法.其中,基于分子骨干的节点丢弃和边丢弃法通过少量删减药物分子的组成与结构完成对药物分子的微扰;多样本拼接法则使用一种增添性操作,通过组合不同分子完成微扰;混合策略法按一定比例配比删减性和增添性操作提升数据增强结果的多样性.在公开数据集BACE、BBBP、ToxCast和ClinTox上,所提方法为药物属性预测基线模型MG-BERT(Molecular Graph Bidirectional Encoder Representations from Transformer)的受试者工作特征曲线下面积(AUC)带来了1.94%~12.49%的提升.实验结果验证了所提方法在小样本药物数据增强上的有效性.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要