所有收藏
信任与安全
我们对用户安全的方法
我们对用户安全的方法
一周前更新

用户安全是Anthropic使命的核心,即创建可靠、可解释和可控制的AI系统。随着我们推出Claude新交互方式,我们也期望看到潜在伤害的新类型出现,无论是通过生成误信息、令人反感的内容、仇恨言论还是其他滥用。我们正在积极投资和尝试补充我们现有的模型安全性努力的其他安全功能,并努力为广大受众提供有用的工具,同时也尽最大努力减轻伤害。通过公开测试版本发布新产品使我们能够尝试、迭代和听取您的反馈。以下是我们引入的一些安全功能:

  • 基于我们的可接受使用政策的检测模型,可标记潜在有害内容。

  • 提示词安全过滤器,当我们的检测模型将内容标记为有害时,可能会阻止模型的响应。

  • 增强的安全过滤器,这使我们能够提高检测模型的敏感度。如果用户反复违反我们的政策,我们可能会暂时对其应用增强的安全过滤器,并在一段时间内没有或很少违规后移除这些控制。

这些功能并非万无一失,我们可能会通过误报或漏报犯错。您对这些措施及我们如何向用户解释它们的反馈将发挥关键作用,帮助我们改进这些安全系统,我们鼓励您通过 usersafety@anthropic.com 向我们提供任何反馈。要了解更多信息,请 阅读我们关于AI安全的核心观点

这是否解答了您的问题?