用户安全是Anthropic公司使命的核心,即创建可靠、可解释和可控制的人工智能系统。随着我们推出新的方式让人们与Claude互动,我们也预计会出现新类型的潜在危害,无论是通过生成错误信息、令人反感的内容、仇恨言论还是其他滥用。我们正在积极投资和试验额外的安全功能,以补充我们现有的模型安全努力,并致力于为广大受众提供有用的工具,同时尽最大努力减少危害。在公开测试版中推出新产品使我们能够进行实验、迭代并听取您的反馈。以下是我们引入的一些安全功能:
根据我们的使用政策标记潜在有害内容的检测模型。
对提示的安全过滤,当我们的检测模型将内容标记为有害时,可能会阻止模型的响应。
增强的安全过滤器,使我们能够提高检测模型的敏感度。我们可能会暂时对反复违反我们政策的用户应用增强的安全过滤器,并在一段时间没有或很少违规后移除这些控制。
这些功能并非万无一失,我们可能会通过误报或漏报而犯错。您对这些措施以及我们如何向用户解释它们的反馈将在帮助我们改进这些安全系统方面发挥关键作用,我们鼓励您通过usersafety@anthropic.com与我们联系,提供您可能有的任何反馈。要了解更多信息,请阅读我们关于人工智能安全的核心观点。