文章预览
来源:专知 本文 约1200字 ,建议阅读 5 分钟 该团队提供了机器学习(ML)基线模型的示例,证明通过使用该数据集可以提高准确性。 大型语言模型极大地增强了科学家理解生物学和化学的能力,但基于结构的药物发现、量子化学和结构生物学的可靠方法仍然很少。大型语言模型迫切需要精确的生物分子-配体相互作用数据集。 为了解决这个问题,德国亥姆霍兹慕尼黑研究中心结构生物学所和慕尼黑工业大学的研究人员,提出了 MISATO。 这是一个数据集,它结合了小分子的量子力学(QM)特性,还有约 20,000 个实验蛋白质-配体复合物的相关分子动力学(MD)模拟,以及对实验数据的广泛验证。 从现有的实验结构出发,研究人员利用半经验量子力学系统地完善了这些结构。其中包括大量蛋白质-配体复合物在纯水中的分子动力学痕迹,累积时间超过 170μs
………………………………