2023-07-12 13:27 | 出处: AIcore
原文来源:绿洲资本
作者:参赞生命力
图片来源:由无界 AI 生成
2023年3月20日,ChatGPT 发生了数据泄露事件,暴露了部分 ChatGPT 使用者的个人信息。鉴于此,意大利的隐私监管机构认为 ChatGPT 涉嫌非法处理个人数据,侵犯隐私,违反了 GDPR 相关条例。意大利也随后成为首个禁止使用 ChatGPT 的国家,并引发了其他欧盟国家对是否需要采取更严厉的措施来控制相关技术的讨论。
几乎所有在线服务都在收集我们的个人数据,并可能将这些数据用于训练 LLM。然而,模型会如何使用这些用于训练的数据则是难以确定的。如果在模型的训练中使用了诸如地理位置、健康记录、身份信息等敏感数据,那么针对模型中隐私数据的提取攻击(Data extraction attack)将会造成大量的用户隐私泄漏。「Are Large Pre-Trained Language Models Leaking Your Personal Information?」一文中证明,由于 LLM 对于训练数据的记忆,LLM 在对话过程中确实存在泄露个人信息的风险,且其风险随着示例数量的增加而增加。
模型泄漏信息的原因有多种。其中一些是结构性的,与构建模型的方式有关;而另一些是由于泛化能力差、对敏感数据的记忆等因素造成的。在接下来的文章中,我们会先介绍基本的数据泄漏流程,然后介绍隐私攻击、越狱、数据中毒、后门攻击这几种常见的的模型攻击方式,最后会介绍目前关于隐私保护的一些研究。
一个基本的 LLM 威胁模型中包括一个通用的模型环境、各种参与者和敏感资产。其中敏感资产包括训练数据集、模型参数 、模型超参数和架构。其中参与者包括:数据所有者、模型所有者、模型消费者以及窃取方(Adversary)。下图描述了一个威胁模型下的资产、参与者、信息流和可能的操作流:
在这样一个基础的威胁建模中,数据所有者拥有隐私数据资产,模型拥有者拥有模型参数和配置资产,模型的消费者通过 API 或用户界面来使用模型。而窃取方则试图通过某些手段获得隐私数据资产,或者模型参数资产。
隐私攻击分为四种主要的类型:成员推理攻击、重构攻击、属性推理攻击和模型提取。
成员推理试图确定输入样本 x 是否被用作训练集 D 的一部分。例如通常情况下,用户的隐私数据会作保密处理,但依旧可以利用非敏感信息来进行推测。一个例子是假如知道了某个私人俱乐部的成员都喜欢戴紫色墨镜、穿红色皮鞋,那么我们遇到一个戴紫色墨镜且穿红色皮鞋(非敏感信息)的人,就可以推断他很可能是这个私人俱乐部的成员(敏感信息)。
成员推理攻击是目前关于隐私攻击最流行的方式,由 Shokri 等人在「Membership inference attacks against machine learning models」一文中首先提出。文章指出,这种攻击仅假定了解模型的输出预测向量,并且是针对受监督的机器学习模型进行的。如果可以访问模型参数和梯度,则可以进行准确度更高的成员推理攻击。
成员推理攻击的一种典型方式被称为影子模型攻击(shadow attack),即基于已知可访问的数据集去训练一个影子模型,然后通过对影子模型的询问来套取敏感信息。
除了监督式学习模型之外,GAN 和 VAE 等生成式模型也容易受到成员推理攻击。「GAN-Leaks: A Taxonomy of Membership Inference Attacks against Generative Models」一文中介绍了 GAN 在面对成员推理攻击时的问题;「LOGAN: Membership inference attacks against generative models」一文介绍了其他生成式模型在成员推理攻击时的反应,并介绍了如何基于对数据生成组件的了解来检索训练数据的攻击方式;「Language models as zero-shot planners: Extracting actionable knowledge for embodied agents」一文中提出了基于掩码语言建模 (MLM) 的模型也容易受到 MIA 攻击的影响,在某些情况下可以确定样本数据是否属于训练数据。
另一方面,成员推理也可以用于模型安全审查,数据所有者可以借助成员推理去审核黑盒模型。「Membership Inference Attacks on Sequence-to-Sequence Models: Is My Data In Your Machine Translation System?」 一文介绍了数据所有者如何查看数据是否在未经授权的情况下被使用的情况。
「Membership inference attacks against machine learning models」一文中研究了过度拟合和黑盒成员推理之间的联系,作者通过使用相同数据集在不同 MLaaS 平台中训练模型来测量过度拟合对攻击准确性的影响。通过实验表明,过度拟合会导致隐私泄露,但也指出这不是唯一的情况,因为一些泛化程度较高的模型更容易发生成员泄露。
重构攻击试图重建多个训练样本以及它们的训练标签,即在给定输出标签和某些特征的部分知识的情况下,尝试恢复敏感特征或完整数据样本。例如,通过模型反演对模型接口上获取的信息进行逆向重构,恢复训练数据中的生物特征、病诊记录等用户敏感信息,如下图:
重构攻击中,较高的泛化误差会导致推断出数据属性的概率也随之升高。在「The secret revealer: generative model-inversion attacks against deep neural networks」一文中, 作者基于对手知识较弱的假设,证明具有高预测能力的模型更容易受到重构攻击。另外与成员推理中的易受攻击的情况类似,对于不过拟合的模型,分布外数据的记忆和检索也容易受到重构攻击。
属性推理攻击是指利用公开可见的属性和结构,推理出隐蔽或不完整的属性数据。一个示例是提取有关患者数据集中男女比例的信息,或者对一个性别分类的模型推断训练数据集中的人是否戴眼镜。在某些情况下,这种类型的泄漏可能会影响隐私。
「Hacking Smart Machines with Smarter Ones: How to Extract Meaningful Data from Machine Learning Classifiers」提到利用某些类型的属性数据也可用于更深入地了解训练数据,进而导致他人使用此信息来拼凑更全局的信息。
「You are who you know and how you behave: Attribute inference attacks via users’ social friends and behaviors」一文介绍了一类属性推理攻击方式,即通过用户自身已知行为锁定并套取该用户其他信息。「AttriGuard: A Practical Defense Against Attribute Inference Attacks via Adversarial Machine Learning」介绍了应对属性推理攻击的一些防御方法。
属性推理旨在从模型中提取被模型无意学习到信息、或与训练任务无关的信息。即使是泛化良好的模型也可能学习与整个输入数据分布相关的属性,有时这对于模型训练的学习过程来说是难以避免的。
「Exploiting unintended feature leakage in collaborative learning」一文中证明,即使使用泛化良好的模型也可以进行属性推理攻击,因此过度拟合似乎不是导致属性推理攻击的原因。关于属性推理攻击,目前对它们的成因以及它们在什么情况下似乎有效的信息较少,这也许是未来研究的一个值得期待的方向。
模型提取是一类黑盒攻击方式,在这种攻击中,对手试图通过创建一个行为与受攻击模型非常相似的替代模型,以此来提取信息并可能完全重建模型。
「Model Extraction of BERT-based APIs」、「Model Reconstruction from Model Explanations」、「Knockoff nets: Stealing functionality of black-box models 」、「High Accuracy and High Fidelity Extraction of Neural Networks」几篇论文从不同角度阐述了模型提取攻击的一些尝试。
创建替代模型有两个主要步骤:第一步为任务精度提取,即在从输入数据分布中提取与学习任务相关的测试集,从而创建与目标模型的准确性相匹配的模型。第二步为保真度提取,即使得创建的替代品在一组不与学习任务相关的去拟合目标匹配的模型。在任务精度提取中,目标是创建一个替代品,该替代品可以与目标模型同样好或更好地学习相同的任务。保真度提取中,目标是试这个替代品尽可能忠实地复制决策边界。
除了创建替代模型之外,还有一些方法专注于从目标模型中恢复信息,例如「Stealing hyperparameters in machine learning」中提到的窃取目标模型中的超参数;或「Towards Reverse-Engineering Black-Box Neural Networks」中提到的有关提取激活函数、优化算法、数量层等等各种神经网络架构的信息等。
「Towards Reverse-Engineering Black-Box Neural Networks」一文表明,当测试集拟合度高于 98% 的模型受到攻击时,就有可能通过提取攻击窃取模型参数。此外,「ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models」中证明,泛化误差较高的模型更难被窃取,这可能是因为模型记住了不属于攻击者所拥有的数据集的样本。另一个可能影响模型提取成功率的因素是测试集数据类别,当数据类别越多时会导致更差的攻击性能。
上图说明了每个模型算法的攻击类型图。在每个算法或机器学习领域的下方,绿色表明到目前为止研究过可适用的攻击类型,红色表示没有发现适用的攻击类型。
模型越狱是通过某些方式使 LLM 产生退化输出行为,诸如冒犯性输出、违反内容监管输出,或者隐私数据泄漏的输出。越来越多的研究表明,即使非专家用户也可以通过简单地操作提示来越狱 LLM。
比如以下示例,开发者的目标是构建一个翻译模型。场景里有两个用户,第一个用户是善意的,将模型用于其预期用例;而第二个用户则试图通过提供恶意输入来改变模型的目标。在此示例中,语言模型响应为“Haha pwned!!”而不是实际应该翻译句子。在这种越狱情况下,模型的响应可以设计成各种意图,从目标劫持(简单地未能执行任务)到生成冒犯性的种族主义文本,甚至发布私人专有信息。
数据中毒是一种特殊的对抗攻击,是针对生成式模型行为的一种攻击技术。恶意行为者可以利用数据中毒为自己打开进入模型的后门,从而绕过由算法控制的系统。
在人类的眼中,下面的三张图片分别展示了三样不同的东西:一只鸟、一只狗和一匹马。但对于机器学习算法来说,这三者或许表示同样的东西:一个有黑边的白色小方框。这个例子说明机器学习模型有一个十分危险的特性,可以利用这一特性使其对数据进行错误分类。
数据中毒攻击旨在通过插入错误标记的数据来修改模型的训练集,目的是诱使它做出错误的预测。成功的攻击会损害模型的完整性,从而在模型的预测中产生一致的错误。一旦模型中毒,从攻击中恢复是非常困难的,一些开发人员甚至可能放弃模型。
「RealToxicityPrompts: Evaluating neural toxic degeneration in language models」一文中提到了一种方式,在对 GPT-2 提供一组基于文本完成的提示,以暴露其模型的内部参数。「Concealed data poisoning attacks on NLP models」中探索了如何通过修改训练数据以导致语言模型出现故障,以生成不符合目标的文本。
虽然数据中毒非常危险,但需要攻击者能够访问机器学习模型的训练管道,然后才可以分发中毒模型。因此处在持续收集数据迭代的模型,或者基于联邦学习产生的模型,需要额外重视数据中毒所带来的影响。
后门攻击是指暗中插入或修改文本以导致语言模型的恶意输出。「Backdoors against natural language processing: A review」一文介绍了后门攻击的问题,其中某些漏洞在训练期间被传递给模型,并且可以通过使用词汇触发激活模型毒性。
它与数据中毒的不同之处在于保留了模型的预期功能。「Training-free lexical backdoor attacks on language models」中提出了一种称为无训练词法后门攻击 (TFLexAttack) 的方法,该方法涉及通过将词法“触发器”引入语言模型的分词器来操纵嵌入字典。
SolidGoldMagikarp 现象
SolidGoldMagikarp 现象是一个典型的后门攻击现象,当对 ChatGPT 输入 “SolidGoldMagikarp”时,它只回答一个词:“distribute”。当让它重复 “StreamerBot”时,它会回复:“You’re a jerk”。当被要求重复 “TheNitromeFan”时,它的回答是“182”。而如果在这个词两边加上单引号,他的回答就是无穷无尽的“ The”。当被问及 TheNitromeFan 是谁时,ChatGPT 回答说:“182 是一个数字,不是一个人。它通常被用来指代这个数字本身。”
SolidGoldMagikarp 现象是指使用 OpenAI 的 GPT 标记器来识别模型无法谈论的特定标记,以及导致模型输出乱码文本的标记。「Explaining SolidGoldMagikarp by looking at it from random directions」一文探讨该现象背后的可能原因。
以下列举几个比较频繁出现且重要的后门攻击类型
A. 基于指令
a. 直接指令:这些攻击主要可参考「Ignore previous prompt: Attack techniques for language models」,其中简单地指示模型忽略其先前的提示,并在当前位置指派新任务。
b. 认知攻击:最常见的攻击类型,在 LLM 通常通过提供“安全空间”或保证这种响应的情况,通过“诱骗”执行它原本不会执行的错位行为。「Chatgpt: This ai has a jailbreak?!」记录了对 ChatGPT 发动这种攻击的一些尝试。
c. 指令重复:这些类型的攻击涉及多次输入相同的指令,以便看起来好像攻击者正在“乞求”语言模型。从字面意义上来说,乞讨也可以用措辞来表达。
d. 间接任务偏转:这种攻击的重点是伪装成另一个恶意任务。这种攻击针对的是通常不会遵循恶意指令的模型
B. 基于非指令
a. 语法转换:此类攻击涉及对攻击文本的正交转换,例如使用 LeetSpeak 或 Base64,以绕过应用程序中可能存在的内容过滤器,而模型可以固有地转换这种编码文本。
b. 少量黑客攻击:一种涉及语言模型训练范式的简单方法。在这种方法中,攻击包含几个文本特征,这些特征可能旨在恶意错位模型。比如 SolidGoldMagikarp 现象就属于这一类。
c. 文本完成作为指令:这些攻击的工作原理是向模型提供不完整的句子,从而迫使模型完成句子,并在此过程中忽略其先前的指令,从而导致错位。
研究如何防御模型攻击是一个艰巨且重要的任务。大多数针对安全分析的论文都提出并测试了缓解对应攻击的方式,以下是一些比较典型的防御手段。
差分隐私是目前对成员推理攻击最突出的防御手段之一,它为模型输出中的个体数据提供了安全保证。关于差分隐私的论述来自于论文「The algorithmic foundations of differential privacy」。
差分隐私给模型的输出增加了噪声,使得攻击者无法根据输出结果在统计上严格区分两个数据集。差分隐私最初是数据分析的隐私定义,它基于“在学习有关人口的有用信息的同时不了解任何个人”这一想法而设计。差分隐私不保护整体数据集的隐私安全,而是通过噪声机制保护数据集中每个个体的隐私数据。
关于差分隐私的数学定义如下:
差分隐私在隐私保护和效用或模型准确性之间进行权衡。「Membership Inference Attack against Differentially Private Deep Learning Model」中通过评估得出结论,只有当模型显着牺牲其效用时,它们才能提供隐私保护。
机器学习中的正则化技术旨在减少过度拟合并提高模型泛化性能。Dropout 是一种常用的正则化形式,它在训练期间随机丢弃预定义百分比的神经网络单元。鉴于黑盒成员推理攻击与过度拟合有关,这是应对此类攻击的明智方法,并且有多篇论文提出将其作为防御措施,并取得了不错的效果。
另一种形式的正则化使用组合多个单独训练的模型的技术,如模型堆叠(model stacking)针对推理攻击产生了积极的结果。模型堆叠或类似技术的一个优点是它们与模型类别无关。
由于许多模型假设在推理过程中可以访问预测向量,因此提出的对策之一是将输出限制为模型的前 k 个类或预测。然而,这种限制,即使是最严格的形式(仅输出类标签)似乎也没有完全减轻成员推理攻击,因为由于模型错误分类仍然可能发生信息泄漏。另一种选择是降低预测向量的精度,从而减少信息泄漏。
另外有研究表明,向输出向量添加噪声也会影响成员推理攻击。
由于重建攻击通常需要在训练期间访问损失梯度,大多数针对重建攻击的防御措施都提出了影响从这些梯度中检索到的信息的技术。将所有低于某个阈值的损失梯度设置为零,被提议作为防御深度学习中的重建攻击。「Deep Leakage from Gradients」一文中证明这种方式非常有效,且当只有 20% 的梯度设置为零,并且对模型性能的影响可以忽略不计。
「PRADA: protecting against DNN model stealing attacks」一文中提出了基于对手使用的模型查询来检测模型窃取攻击方法。检测基于以下假设:尝试探索决策边界的模型查询将具有与正常查询呈现不同的样本分布。虽然检测成功,但作者指出,如果对手调整其策略,则有可能被规避。
「Thieves on Sesame Street! Model Extraction of BERT-based APIs」中研究了使用成员推理来防御模型提取的想法。它基于使用成员推理的前提,模型所有者可以区分合法的用户查询和无意义的查询,这些查询的唯一目的是提取模型。作者指出,这种类型的防御具有局限性,例如可能会标记合法用户发出的合法但超出分布的查询,但更重要的是,它们可以被进行自适应查询的对手规避。
在「Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning」一文中提出了一种新的方法,它使用提示调整来控制 LLM 中记忆内容的提取率。他们提出了两种提示训练策略来提高和降低提取率,分别对应于攻击和防御。
1. LLM 目前仍具备较大的安全风险以及隐私泄漏风险
2. 提取模型结构和数据的攻击,本质来说是对模型机密性的攻击
3. 学术界目前主要的研究集中在如何攻击模型以及数据泄漏的原理研究
4. 部分导致 LLM 泄漏数据的原理仍不明朗
5. 诸如差分隐私、预测向量篡改等可在一定程度上对数据隐私起到保护,这些方式集中于模型的训练阶段
6. 现有的保护措施并不是完善的,而且需要牺牲模型性能和准确性
1. Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot, and Mohit Iyyer. 2020. Thieves on Sesame Street! Model Extraction of BERT-based APIs. In International Conference on Learning Representations. ICLR, Virtual Conference, formerly Addis Ababa, Ethiopia.
2. The secret sharer: Evaluating and testing unintended memoriza- tion in neural networks
3. Martín Abadi, Andy Chu, Ian J. Goodfellow, H. B. McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. 2016. Deep learning with differential privacy
4. Giuseppe Ateniese, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali, and Giovanni Felici. 2015. Hacking Smart Machines with Smarter Ones: How to Extract Meaningful Data from Machine Learning Classifiers.
5. Bargav Jayaraman and David Evans. 2019. Evaluating Differentially Private Machine Learning in Practice. In 28th USENIX Security Symposium (USENIX Security 19). USENIX Association, Santa Clara, CA, 1895–1912
6. Defending membership inference attacks without losing utility
7. Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, Michael Backes, Emiliano De Cristofaro, Mario Fritz, and Yang Zhang. 2021. ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models
8. Tricking LLMs into Disobedience: Understanding, Analyzing, and Preventing Jailbreaks
9. Maria Rigaki and Sebastian Garcia. 2021. A survey of privacy attacks in machine learning
10. Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ul-far Erlingsson, Alina Oprea, and Colin Raffel. 2021. Extracting training data from large language models
11. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A. Smith. 2020. RealToxi-city Prompts: Evaluating neural toxic degeneration in language models.
12. Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. 2022b. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. In ICML 2022, volume 162 of Proceedings of Machine Learning Research, pages 9118–9147. PMLR
13. Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, and Geoffrey Irving. 2022. Red teaming language models with language models.
14. Eric Wallace, Tony Zhao, Shi Feng, and Sameer Singh. Concealed data poisoning attacks on NLP models.
15. Shaofeng Li, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Suguo Du, and Haojin Zhu. 2022. Backdoors against natural language processing: A review. IEEE Security & Privacy, 20(5):50–59
16. Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan, and Chunyang Chen. 2023. Training-free lexical backdoor attacks on language models.
17. Explaining SolidGoldMagikarp by looking at it from random directions
18. Fábio Perez and Ian Ribeiro. 2022. Ignore previous prompt: Attack techniques for language models. arXiv preprint arXiv:2211.09527.
19. Yannic Kilcher. 2022. Chatgpt: This ai has a jailbreak?! (unbelievable ai progress).
20. Battista Biggio and Fabio Roli. 2018. Wild patterns: Ten years after the rise of adversarial machine learning. Pattern Recognition 84 (2018), 317–331.
21. Ligeng Zhu, Zhijian Liu, and Song Han. 2019. Deep Leakage from Gradients. In Advances in Neural Information Processing Systems 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d‘Alché-Buc, E. Fox, and R. Garnett (Eds.). Curran Associates, Inc., Vancouver, Canada, 14747–14756
22. Nicholas Papernot, Patrick McDaniel, Arunesh Sinha, and Michael P. Wellman. 2018. SoK: Security and Privacy in Machine Learning. In 2018 IEEE European Symposium on Security and Privacy (EuroS P). IEEE, London, UK, 399–414
23. Michael Veale, Reuben Binns, and Lilian Edwards. 2018. Algorithms that remember: model inversion attacks and data protection law. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 376, 2133 (2018), 20180083
24. Reza Shokri, Marco Stronati, Congzheng Song, and Vitaly Shmatikov. 2017. Membership inference attacks against machine learning models. In 2017 IEEE Symposium on Security and Privacy (SP). IEEE, San Francisco, CA, USA, 3–18
25. Sorami Hisamoto, Matt Post, and Kevin Duh. 2020. Membership Inference Attacks on Sequence-to-Sequence Models: Is My Data In Your Machine Translation System?
26. Congzheng Song and Vitaly Shmatikov. 2019. Auditing Data Provenance in Text-Generation Models. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD ’19). Association for Computing Machinery, New York, NY, USA, 196–206.
27. Jinyuan Jia and Neil Zhenqiang Gong. 2018. AttriGuard: A Practical Defense Against Attribute Inference Attacks via Adversarial Machine Learning. In 27th USENIX Security Symposium (USENIX Security 18).
28. Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page, and Thomas Ristenpart. 2014. Privacy in Pharmacogenetics: An End-to-End Case Study of Personalized Warfarin Dosing.
29. Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin, and Nicolas Papernot. 2020. High Accuracy and High Fidelity Extraction of Neural Networks
30. Binghui Wang and Neil Zhenqiang Gong. 2018. Stealing hyperparameters in machine learning. In 2018 IEEE Symposium on Security and Privacy (SP). IEEE, San Francisco, CA, USA, 36–52
31. Seong Joon Oh, Max Augustin, Mario Fritz, and Bernt Schiele. 2018. Towards Reverse-Engineering Black-Box Neural Networks. In Sixth International Conference on Learning Representations. ICLR, Vancouver, Canada.
32. Cynthia Dwork and Aaron Roth. 2013. The algorithmic foundations of differential privacy. Foundations and Trends in Theoretical Computer Science 9, 3-4 (2013), 211–487