注册
登录
专栏名称:
机器之心
专业的人工智能媒体和产业服务平台
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
//@爱可可-爱生活:明日开奖,欢迎参与~- ...
·
10 小时前
爱可可-爱生活
·
【[37星]SAEBench:一个用于评估稀 ...
·
2 天前
爱可可-爱生活
·
【[17.8k星]DS4SD/docling ...
·
2 天前
爱可可-爱生活
·
通俗版解读 查看图片-20250110181846
·
2 天前
黄建同学
·
这也太逼真了//@宝玉xp://@i陆三金: ...
·
4 天前
今天看啥
›
专栏
›
机器之心
「越狱」事件频发,如何教会大模型「迷途知返」而不是「将错就错」?
机器之心
·
公众号
·
AI
· 2024-07-30 10:45
文章预览
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 论文的第一作者是香港中文大学(深圳)数据科学学院二年级博士生袁尤良,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士。该工作是袁尤良在腾讯AI Lab实习时完成。贺品嘉团队的研究重点是软件工程、大模型、AI for SE、可信人工智能。 大型语言模型(LLM)展现出了令人印象深刻的智能水平。因此,确保其安全性显得至关重要。已有研究提出了各种策略,以使 LLM 与人类伦理道德对齐。然而,当前的先进模型例如 GPT-4 和 LLaMA3-70b ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
//@爱可可-爱生活:明日开奖,欢迎参与~-20250113065603
10 小时前
爱可可-爱生活
·
【[37星]SAEBench:一个用于评估稀疏自编码器(SAE)-20250110191041
2 天前
爱可可-爱生活
·
【[17.8k星]DS4SD/docling:让文档为生成式AI-20250110191839
2 天前
爱可可-爱生活
·
通俗版解读 查看图片-20250110181846
2 天前
黄建同学
·
这也太逼真了//@宝玉xp://@i陆三金:众擎机器人,原来小鹏-20250109091136
4 天前
知识管理中心KMCenter
·
模板方法一对一辅导:AI时代知识管理实施与知识库搭建训练营
7 月前
奶爸投研干货基地
·
12/27 差一口气
2 周前