文章预览
作者:梅菜 编辑:十九, 李宝珠 浙江大学研究团队提出 InstructProtein,利用知识指令对齐蛋白质语言与人类语言, 展示了将生物序列整合到大型语言模型的能力。 作为细胞生存的基础,蛋白质存在于包括人体在内的所有生物体中,是构成组织器官的支架和主要物质,在生命必不可少的化学反应中发挥着核心作用。 面对蛋白质结构的复杂多变,传统实验方法在解析蛋白质结构时既耗时又费力,蛋白质大语言模型 (PLMs) 应运而生——这些专业模型以氨基酸序列作为输入,能预测蛋白质功能,甚至设计全新的蛋白质。然而, PLMs 虽然在理解氨基酸序列方面表现出色,但无法理解人类语言。 同样地,当要求 ChatGPT 和 Claude-2 这类擅长处理自然语言的大语言模型 (LLMs),去描述蛋白质序列的功能或生成具有特定性质的蛋白质时,它们也力不从心。究其原因,
………………………………