OpenAI向1亿ChatGPT用户，公开10种安全措施

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

OpenAI为了保证全球超过1亿的ChatGPT和数百万开发人员，能以安全、稳定的方式使用其产品，更新了安全策略和保护措施。

以下是OpenAI最近更新的10种安全策略，并且会在首尔AI安全峰会上与更多的科学家、政务部门分享。

模型测试与发布前评估：在发布前，OpenAI会准备框架和自愿承诺，对模型安全性进行内部和外部的实证评估。如果新模型的风险等级达到准备框架中的“中等”风险阈值，将不会发布该模型，直到实施足够的安全干预措施，将风险等级降低回“中等”。

例如，在发布GPT-4o时，超过70位外部专家帮助OpenAI通过外部红队努力评估相关的风险。这种评估不仅包括公司内部的审核，还包括外部专家的参与，以获得更全面的风险评估。

对齐和安全研究：OpenAI的模型随着时间的推移变得更加安全。这可以归因于构建更智能的模型，这些模型通常犯的事实错误更少，即使在越狱等对抗条件下也不太可能产生有害内容。未来，OpenAI的模型将被训练遵循的指令，旨在大幅提高AI模型对越狱等攻击的鲁棒性。

监控滥用：随着通过API和ChatGPT部署越来越强大的语言模型，利用了包括专用内容审核模型和使用自己的模型监控安全风险和滥用在内的广泛工具。

OpenAI已经分享了一些关键发现，包括与微软联合披露的滥用技术案例，以便其他人能更好地防范类似风险。还使用GPT-4进行内容政策开发和内容审核决策，实现政策细化的快速反馈循环，减少人类审核员暴露于滥用材料。

模型安全方法：在模型生命周期的每个阶段实施一系列安全措施，从预训练到部署。随着在开发更安全、更一致的模型行为方面取得进展，也投资于预训练数据安全、系统级模型行为引导、数据飞轮为持续安全改进和强大的监控基础设施。

保护儿童：OpenAI在ChatGPT和DALL·E中构建了强大的默认防护措施和安全措施，以减轻对儿童的潜在伤害。2023年，还与Thorn的Safer合作，检测、审查并向国家失踪和受剥削儿童中心报告儿童性虐待材料。

公平诚信：OpenAI与政府和利益相关者合作，防止滥用确保AI生成内容的透明度，并提高获取准确投票信息的途径。为此，还引入了一个工具，用于识别DALL·E 3创建的图像，加入了内容真实性倡议（C2PA）的指导委员会，并在DALL·E 3中加入了C2PA元数据，帮助人们了解在网上找到的媒体的来源。

影响评估和政策分析：OpenAI的影响评估工作在研究、行业规范和政策方面具有广泛影响力，包括早期关于测量AI系统与化学、生物、放射性和核（CBRN）风险相关的工作，以及研究估计不同职业和行业可能受语言模型影响的程度。还发表开创性的工作，探讨社会如何最好地管理相关风险。

安全和访问控制措施：优先保护OpenAI的客户、知识产权和数据。通过API将AI模型部署到世界各地，再通过API控制访问实现政策执行。OpenAI的网络安全工作包括限制对训练环境和高价值算法秘密的访问，基于需要知道的原则，进行内部和外部渗透测试，漏洞赏金计划等。

OpenAI认为，保护先进的AI系统将从基础设施安全的演变中受益，并正在探索像GPU的保密计算和AI在网络防御中的应用等新颖控制措施。为了加强网络防御，通过网络安全资助计划资助第三方安全研究人员。

与政府合作：OpenAI与世界各地的政府合作，为有效和适应性强的AI安全政策的发展提供信息。这包括展示工作和分享OpenAI的学习成果，合作试点政府和其他第三方保证，以及为新的标准和法律的公共辩论提供信息。

安全决策和董事会监督：作为OpenAI准备框架的一部分，建立一个安全决策的操作结构。OpenAI的跨职能安全咨询小组在部署前审查模型能力报告并提出建议。公司领导层会做出最终决定，董事会对这些决定行使监督权。

END