专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
今天看啥  ›  专栏  ›  阿里研究院

治理之智 | 检索增强:解决企业“上云用模”的数据安全隐忧

阿里研究院  · 公众号  · 电商  · 2024-09-26 15:42
    

主要观点总结

本文主要介绍了在模型应用阶段,企业“上云用模”面临的数据可控和环境可信的两重顾虑,以及如何通过检索增强(RAG)技术解决这些问题。文章还讨论了RAG的技术特点,包括其框架、外部知识的引入、应用场景等。最后,文章提出以动态、发展的眼光看待模型应用阶段的数据安全。

关键观点总结

关键观点1: 企业‘上云用模’面临的数据可控和环境可信的两重顾虑。

企业在使用模型进行数据处理时,对于数据的可控性和环境的可信度存在担忧,主要体现在数据安全、隐私保护等方面。

关键观点2: 检索增强(RAG)技术可以解决企业‘上云用模’的安全挑战。

RAG技术可以在不改变模型通用能力的前提下,通过在模型应用阶段引入外部知识,增强大模型生成内容对具体场景的适配度,实现数据可控、操作可审、责任可追。

关键观点3: RAG的技术特点包括索引-检索-生成的基本原理和模块化应用。

RAG通过索引、检索和生成三个步骤,对外部知识进行向量化索引,帮助提高大模型输出内容的专业性和准确性。模块化应用则增强了整体灵活性,可以根据需求进行个性化配置。

关键观点4: 云端部署RAG知识库的意义在于企业可以基于自身商业利益考虑,自主选择是否允许他人调用自己企业的内部数据。

通过保障安全性和可控性下的数据共享机制,有助于打通产业链上下游的数据,提高数据使用效率。

关键观点5: 应以动态、发展的眼光看待模型应用阶段的数据安全问题。

在技术演进为模型用数安全带来新的路径和解决方案的同时,也需要制定云上用数的标准规范解决企业顾虑,从事中、事后的角度进行科学评估和措施管控。


文章预览

摘要: ● 在模型应用阶段,企业“上云用模”面临“数据可控”、“环境可信”的两重顾虑。而检索增强(RAG)能够在不改变模型通用能力的前提下,通过在模型应用阶段引入外部知识,让具有秘密属性的企业数据在安全可控的前提下被有效利用,增强大模型生成内容对具体场景的适配度,并实现“数据可控”、“操作可审”、“责任可追”。面对模型云端部署带来的新挑战,要以动态、发展的眼光看待模型用数安全问题,从“事前要求“转变为“事中管理、事后定责”,为技术发展预留空间。 一、从训练走向应用:模型数据利用带来的数据安全挑战 随着大模型从训练阶段的“百模大战”走向应用阶段赋能“千行百业”,模型“训得强”不一定能“用得好”,核心原因在于模型训练的目标是让模型具备更好的通用性能,因此训练数据的供给要求 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览