跳到主要内容

限流策略

限流用于保护平台稳定性并控制成本。具体限制可能因账号、模型、接口和商业计划不同而变化。

限流维度

维度说明
每分钟请求数滚动时间窗口内允许的最大请求次数
每分钟 tokens输入和输出 token 的吞吐限制
并发请求数同一时间允许的最大进行中请求数量
每日额度账期或自然日内允许的最大用量

请求示例

curl https://pinducloud.cc/v1/chat/completions \
-H "Authorization: Bearer $PINDUCLOUD_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-5.5",
"messages": [
{
"role": "user",
"content": "Return a short status update."
}
],
"max_tokens": 120
}'

限流响应

{
"error": {
"message": "Rate limit exceeded. Please retry later.",
"type": "rate_limit_error",
"param": null,
"code": "rate_limit_exceeded"
}
}

重试策略

  • 429 响应使用指数退避重试。
  • 增加随机抖动,避免请求集中重试。
  • 设置最大重试次数,并向用户返回清晰错误。
  • 非紧急任务建议进入队列,而不是立即重试。

生产建议

  • 在调用 API 前先做业务侧用户级限流。
  • 监控请求量、token 量、延迟和失败率。
  • 建议按环境或业务线拆分 API Key,便于隔离和审计。