GPT模型可信度研究揭示新漏洞安全性存隐患

2025-08-07 08:08:13

评估GPT模型可信度的全面研究

伊利诺伊大学香槟分校与斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院联合发布了一个大型语言模型(LLMs)综合可信度评估平台。该研究在最近发表的论文《DecodingTrust:全面评估GPT模型的可信度》中进行了详细介绍。

研究团队发现了一些与可信度相关的新漏洞。例如,GPT模型容易产生有毒和有偏见的输出,并可能泄露训练数据和对话历史中的隐私信息。虽然GPT-4在标准测试中通常比GPT-3.5更可靠,但在面对恶意设计的提示时,GPT-4反而更容易受到攻击,这可能是因为它更严格地遵循了误导性指令。

这项工作展示了对GPT模型的全面可信度评估,揭示了存在的可信度差距。研究团队与微软产品部门合作,确认所发现的潜在漏洞不会影响当前面向用户的服务。他们还与OpenAI分享了研究成果,OpenAI已在相关模型的系统说明中注明了这些潜在漏洞。

研究团队希望通过这项工作鼓励学术界进一步研究,以预防不良行为者利用漏洞造成危害。他们将这次评估视为起点,希望与其他各方合作,在此基础上继续努力,创造更强大、更可信的模型。为促进合作,他们发布的基准代码具有很强的可扩展性和易用性。

随着大语言模型在各领域的广泛应用,包括医疗保健和金融等敏感领域,对其可信度的全面评估变得尤为重要。研究团队从八个角度对GPT模型进行了全面评估,涵盖了不同的应用场景、任务、指标和数据集。

他们的目标是评估:1)GPT模型在不同可信度视角下的表现;2)其在对抗环境(如对抗性系统/用户提示、演示)中的适应能力。

以评估GPT-3.5和GPT-4对文本对抗攻击的鲁棒性为例,研究团队构建了三种评估场景:

在标准AdvGLUE基准上进行评估,采用中性任务描述,目的是评估: a) GPT模型对现有文本对抗攻击的脆弱性; b) 不同GPT模型与最先进模型在AdvGLUE基准上的鲁棒性比较; c) 对抗攻击对模型指令遵循能力的影响; d) 当前攻击策略的可转移性。
在AdvGLUE基准上进行评估,给出不同的指导性任务说明和设计的系统提示,研究模型在不同(对抗性)任务说明和系统提示下的恢复能力。
对研究团队生成的具有挑战性的对抗性文本AdvGLUE++进行GPT-3.5和GPT-4的评估,进一步测试它们在不同环境下受到强对抗攻击时的脆弱性。

研究发现了大型语言模型在可靠性方面一些之前未披露的优势和威胁:

在对抗性演示的鲁棒性方面,GPT-3.5和GPT-4不会被反事实示例误导,甚至可能从中受益。然而,反欺诈演示可能误导两个模型对反事实输入做出错误预测,尤其是当反事实演示靠近用户输入时,GPT-4更容易受影响。
在有毒性和偏见方面,两个模型在良性和中性系统提示下对大多数刻板印象主题的偏差不大。但在误导性系统提示下,它们可能被"诱骗"同意有偏见的内容。GPT-4比GPT-3.5更容易受到有针对性的误导性系统提示的影响。
模型偏见程度取决于用户提示中提到的人群和刻板印象主题。对某些敏感话题,模型表现出较小的偏见,这可能是由于经过了针对性的微调。
在隐私保护方面,GPT模型可能会泄露训练数据中的敏感信息,如电子邮件地址。在某些情况下,利用补充知识可显著提高信息提取的准确率。两个模型都可能泄露对话历史中注入的私人信息。
GPT-4在保护个人身份信息(PII)方面比GPT-3.5更稳健,但两者对特定类型的PII(如社会安全号码)都很稳健。然而,在某些情况下,两个模型都可能泄露所有类型的PII。
GPT模型对不同隐私相关词汇的理解能力存在差异。在某些提示下,GPT-4比GPT-3.5更可能泄露隐私,这可能是因为它更严格地遵循了误导性指令。

这项研究为GPT模型的可信度评估提供了全面的视角,揭示了现有模型的优势和不足。这些发现对于推动大语言模型的安全发展和应用具有重要意义。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

15人点赞了这条动态

0/400

Gas费刺客

· 22小时前

溜了溜了 GPT这是要自我背刺了

BearMarketBro

· 08-09 04:42

这模型啥也不是

Uncle Whale

· 08-07 08:38

说真的谁还在意安全性

熊市资深生存者

· 08-07 08:29

哎这下GPT凉凉了

FlatlineTrader

· 08-07 08:27

gpt4还不如3.5安全?笑死