专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
今天看啥  ›  专栏  ›  AIGC开放社区

IBM推出化学大模型:可精准预测分子性质和行为

AIGC开放社区  · 公众号  · 科技自媒体  · 2024-12-16 02:36
    

主要观点总结

本文主要介绍了一个专用于化学领域的大模型SMI-TED,该模型能够自动提取分子的特征并预测其性质和行为。文章详细描述了SMI-TED模型的架构、预训练策略以及其在多个子数据集上的性能表现。

关键观点总结

关键观点1: SMI-TED模型简介及应用领域

SMI-TED是IBM推出的专用于化学领域的大模型,能够自动提取分子的特征并预测其性质和行为,关注药物开发和新型材料的发现。

关键观点2: SMI-TED模型架构

SMI-TED采用深度双向变压器编码器为基础模型架构,结合编码器-解码器架构来生成SMILES字符串,有效捕捉分子标记之间的复杂关系和上下文信息。

关键观点3: SMI-TED模型的数据集和预训练策略

SMI-TED的训练使用了PubChem数据库中的大量分子数据。研究人员采用双阶段预训练策略,先对标记编码器进行预训练,再对整个模型进行预训练,以提高模型的性能。

关键观点4: SMI-TED模型的性能表现

SMI-TED在多个子数据集上表现出了优异的性能,如ChEMBL数据集中的活性预测、Tox21和ToxCast数据集中的毒性预测、ZINC数据集中的分子生成任务以及QM9数据集中的量子力学性质预测。


文章预览

专注AIGC领域的专业社区,关注微软 、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 在化学领域,理解分子性质对于加速药物开发和新型材料的发现至关重要。传统方法是依赖于费时费力的人工实验,成本高且效率非常低。这是因为分子的性质和行为极其复杂,需要进行大量的实验来测试和验证。 例如,在药物开发中,研究人员需要合成和测试大量的候选药物分子,以确定它们的活性、毒性和药代动力学性质等。 IBM的研究人员推出了专用于化学领域的大模型SMI–TED,一共有2.89亿参数。该模型从全球最大的免费公共化学物质结构数据库PubChem中,精心整理了9100 万个分子的数据集上进行预训练,这些分子相当于 40 亿个分子标记。使SMI–TED能够自动提取分子的特征,并准确预测出它 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览