限流说明
nexusflow 根据不同套餐提供相应的速率限制,以确保服务稳定性和公平使用。
套餐速率限制
| 套餐 | RPM | TPM | 并发数 | 说明 |
|---|
| 免费版 | 20 | 40K | 2 | 适合个人学习和测试 |
| 开发者 | 60 | 150K | 5 | 适合个人开发者和小型项目 |
| 团队版 | 200 | 500K | 20 | 适合团队协作和中型应用 |
| 企业版 | 1000 | 2M | 100 | 适合大规模生产环境 |
| 定制版 | 定制 | 定制 | 定制 | 根据需求定制限额 |
RPM:Requests Per Minute,每分钟请求数限制
TPM:Tokens Per Minute,每分钟 Token 数限制(输入+输出)
并发数:同时进行的请求数量限制
模型 Token 限制
不同模型有不同的上下文窗口和输出长度限制:
| 模型 | 上下文窗口 | 最大输入 | 最大输出 |
|---|
claude-opus-4-6 | 1M | 1M | 128K |
claude-sonnet-4-6 | 200K | 200K | 64K |
claude-haiku-4-5 | 200K | 200K | 8K |
qwen3.5-plus | 128K | 128K | 8K |
qwen3.5-max | 1M | 1M | 8K |
deepseek-r1 | 64K | 64K | 8K |
deepseek-v3 | 64K | 64K | 8K |
限流相关响应头
每个 API 响应都会包含以下头信息,帮助您跟踪配额使用情况:
| 响应头 | 说明 |
|---|
X-RateLimit-Limit-Requests | 每分钟请求数限额 |
X-RateLimit-Limit-Tokens | 每分钟 Token 数限额 |
X-RateLimit-Remaining-Requests | 当前分钟剩余请求数 |
X-RateLimit-Remaining-Tokens | 当前分钟剩余 Token 数 |
X-RateLimit-Reset-Requests | 请求限额重置时间(Unix 时间戳) |
X-RateLimit-Reset-Tokens | Token 限额重置时间(Unix 时间戳) |
Retry-After | 触发限流时,建议等待秒数 |
最佳实践
当遇到 429 错误时,使用指数退避策略重试。建议初始等待 1 秒,最大等待 60 秒。
定期检查响应头中的配额信息,在接近限额时主动降低请求频率。
实现请求队列,控制并发数量,避免突发大量请求触发限流。
尽可能合并多个小请求为一个大请求,减少 RPM 消耗。
需要更高配额?
如果您的业务需要更高的速率限制,请联系我们的销售团队获取定制方案。 企业版用户可享受专属配额和优先技术支持。