nexusflow
Online
Loading...

限流说明

nexusflow 根据不同套餐提供相应的速率限制,以确保服务稳定性和公平使用。

套餐速率限制

套餐RPMTPM并发数说明
免费版2040K2适合个人学习和测试
开发者60150K5适合个人开发者和小型项目
团队版200500K20适合团队协作和中型应用
企业版10002M100适合大规模生产环境
定制版定制定制定制根据需求定制限额

RPM:Requests Per Minute,每分钟请求数限制

TPM:Tokens Per Minute,每分钟 Token 数限制(输入+输出)

并发数:同时进行的请求数量限制

模型 Token 限制

不同模型有不同的上下文窗口和输出长度限制:

模型上下文窗口最大输入最大输出
claude-opus-4-61M1M128K
claude-sonnet-4-6200K200K64K
claude-haiku-4-5200K200K8K
qwen3.5-plus128K128K8K
qwen3.5-max1M1M8K
deepseek-r164K64K8K
deepseek-v364K64K8K

限流相关响应头

每个 API 响应都会包含以下头信息,帮助您跟踪配额使用情况:

响应头说明
X-RateLimit-Limit-Requests每分钟请求数限额
X-RateLimit-Limit-Tokens每分钟 Token 数限额
X-RateLimit-Remaining-Requests当前分钟剩余请求数
X-RateLimit-Remaining-Tokens当前分钟剩余 Token 数
X-RateLimit-Reset-Requests请求限额重置时间(Unix 时间戳)
X-RateLimit-Reset-TokensToken 限额重置时间(Unix 时间戳)
Retry-After触发限流时,建议等待秒数

最佳实践

实现指数退避

当遇到 429 错误时,使用指数退避策略重试。建议初始等待 1 秒,最大等待 60 秒。

监控配额使用

定期检查响应头中的配额信息,在接近限额时主动降低请求频率。

请求队列管理

实现请求队列,控制并发数量,避免突发大量请求触发限流。

批量处理优化

尽可能合并多个小请求为一个大请求,减少 RPM 消耗。

需要更高配额?

如果您的业务需要更高的速率限制,请联系我们的销售团队获取定制方案。 企业版用户可享受专属配额和优先技术支持。