主要观点总结
该题目要求参赛选手对预训练好的猫、狗、狐狸识别模型进行攻击,通过设计算法对图像添加微小扰动,使得模型在预测扰动后的图像时出现错误。具体目标是让模型将猫误识别为狗、狗误识别为狐狸、狐狸误识别为猫。扰动的程度需要量化,通过计算修改后图像与原始图像的相似度(SSIM)进行评判。相似度低于0.95的扰动被视为有效,并能欺骗模型则视为成功攻击。选手需要在成功攻击至少80%的样本才能获得题目的flag。
关键观点总结
关键观点1: 攻击目标
设计算法对图像添加微小扰动,使得模型在预测时出现错误。
关键观点2: 扰动量化
使用SSIM计算修改后图像与原始图像的相似度,作为评判扰动的标准。
关键观点3: 攻击成功率
成功攻击至少80%的样本才能获得题目的flag。
关键观点4: 模型预测
使用提供的猫、狗、狐狸识别模型进行预测,如果预测结果满足对应的攻击映射则视为成功攻击。
关键观点5: 提交要求
将增加扰动后得到的新图片(攻击图片)按照规定的格式上传提交。
文章预览
NLP_Model_Attack 题目名称:NLP_Model_Attack 题目内容:详情阅读readme.md 题目难度:中等 readme 题目描述: 在这个赛题中,我们将提供一个预训练好的 positive、negative、neutral 文本识别模型以及一组 包含这三类的文本数据集 。 参赛选手的任务是: 对这些文本增加 微小 的扰动,生成攻击文本,使得模型在预测这些经过扰动的攻击文本时出现预测错误。 具体要求如下: 选手需要设计一种算法,在不明显改变文本语义的前提下,对文本添加微小扰动(同义词替换或者其他方式),使得提供的三分类 positive、negative、neutral 文本识别模型在预测 扰动文本 时出现错误。例如,将原本能够正确识别为 positive 的文本进行扰动后, 模型 会将其错误地分类为 非positive的类别 。 为了量化扰动的程度,我们将使用修改后的攻击文本与原始文本的相似度作为评判标准。我们
………………………………