专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

IBM推出化学大模型：可精准预测分子性质和行为

AIGC开放社区 · 公众号 · 科技自媒体 · 2024-12-16 02:36

主要观点总结

本文主要介绍了一个专用于化学领域的大模型SMI-TED，该模型能够自动提取分子的特征并预测其性质和行为。文章详细描述了SMI-TED模型的架构、预训练策略以及其在多个子数据集上的性能表现。

关键观点总结

关键观点1: SMI-TED模型简介及应用领域

SMI-TED是IBM推出的专用于化学领域的大模型，能够自动提取分子的特征并预测其性质和行为，关注药物开发和新型材料的发现。

关键观点2: SMI-TED模型架构

SMI-TED采用深度双向变压器编码器为基础模型架构，结合编码器-解码器架构来生成SMILES字符串，有效捕捉分子标记之间的复杂关系和上下文信息。

关键观点3: SMI-TED模型的数据集和预训练策略

SMI-TED的训练使用了PubChem数据库中的大量分子数据。研究人员采用双阶段预训练策略，先对标记编码器进行预训练，再对整个模型进行预训练，以提高模型的性能。

关键观点4: SMI-TED模型的性能表现

SMI-TED在多个子数据集上表现出了优异的性能，如ChEMBL数据集中的活性预测、Tox21和ToxCast数据集中的毒性预测、ZINC数据集中的分子生成任务以及QM9数据集中的量子力学性质预测。

文章预览

专注AIGC领域的专业社区，关注微软、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！在化学领域，理解分子性质对于加速药物开发和新型材料的发现至关重要。传统方法是依赖于费时费力的人工实验，成本高且效率非常低。这是因为分子的性质和行为极其复杂，需要进行大量的实验来测试和验证。例如，在药物开发中，研究人员需要合成和测试大量的候选药物分子，以确定它们的活性、毒性和药代动力学性质等。 IBM的研究人员推出了专用于化学领域的大模型SMI–TED，一共有2.89亿参数。该模型从全球最大的免费公共化学物质结构数据库PubChem中，精心整理了9100 万个分子的数据集上进行预训练，这些分子相当于 40 亿个分子标记。使SMI–TED能够自动提取分子的特征，并准确预测出它 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

电脑吧评测室 · 【装机帮扶站】第1194期：聊一套“白送”迷你显示屏的装机方案

昨天

电脑吧评测室 · 【装机帮扶站】第1194期：聊一套“白送”迷你显示屏的装机方案

昨天

地刊速览 · Nature: 用深度学习揭示全球变暖对日降水量的影响

3 天前

李楠或kkk · elevenlabs.io 我们用着还行。//@西三环北25号:-20241212224038

5 天前

古北路烧烤哥 · 开始扒整个字节产业链了。。。

5 天前

国机工程集团 · 甲级资信！国机工程集团获工程咨询行业最高级别资质认证

6 天前

国机工程集团 · 甲级资信！国机工程集团获工程咨询行业最高级别资质认证

6 天前

催化开天地 · 福大Angew: 改变COF孔隙化学微环境，增强H2O2光合作用活性

4 月前

草叔消费升级研究 · 【东吴商社吴劲草团队｜周报】医美再生材料景气度向上，期待童颜针等PLA产品放量

4 月前

小十点 · 比《抓娃娃》更恐怖！英国最新研究：频繁搬家，对孩子后患无穷

3 月前

IVD从业者网 · IVD仪器系统研发概述

2 周前