跳转到主要内容

我们的用户安全方法

更新于今天

用户安全是Anthropic创建可靠、可解释和可控AI系统使命的核心。随着我们推出人们与Claude互动的新方式,我们也预期会看到新类型的潜在危害出现,无论是通过生成错误信息、令人反感的内容、仇恨言论还是其他滥用行为。我们正在积极投资和试验额外的安全功能,以补充我们现有的模型安全工作,并致力于为广大用户提供有用的工具,同时尽最大努力减轻危害。以开放测试版形式推出新产品让我们能够进行实验、迭代并听取您的反馈。以下是我们引入的一些安全功能:

  • 基于我们的使用政策标记潜在有害内容的检测模型。

  • 对提示的安全过滤器,当我们的检测模型将内容标记为有害时,可能会阻止模型的响应。

  • 增强安全过滤器,允许我们提高检测模型的敏感度。我们可能会对反复违反我们政策的用户临时应用增强安全过滤器,并在一段时间内没有或很少违规后移除这些控制。

这些功能并非万无一失,我们可能会因误报或漏报而犯错。您对这些措施以及我们如何向用户解释这些措施的反馈将在帮助我们改进这些安全系统方面发挥关键作用,我们鼓励您通过usersafety@anthropic.com向我们提供任何反馈。要了解更多信息,请阅读我们关于AI安全的核心观点

这是否解答了您的问题?