3月1日,DeepSeek官方通过社交媒体账号公布了其线上系统的实际统计数据,称如果所有tokens全部按照DeepSeek R1的定价计算,理论上成本利润率为545%。

DeepSeek官方公布,DeepSeek V3和R1的所有服务均使用H800 GPU,使用和训练一致的精度,即矩阵计算和dispatch传输采用和训练一致的FP8格式,core-attention计算和combine传输采用和训练一致的BF16,最大程度保证了服务效果。

在24小时统计时段内,DeepSeek V3和R1:

输入token总数为608B,其中342B tokens(56.3%)命中KVCache硬盘缓存。

输出token总数为168B。平均输出速率为20~22 tps,平均每输出一个token的KVCache长度是4989。

平均每台H800的吞吐量为:对于prefill任务,输入吞吐约73.7k tokens/s(含缓存命中);对于decode任务,输出吞吐约14.8k tokens/s。

DeepSeek官方表示,实际上没有这么多收入,因为V3的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣。

来源| 观察者网

点赞(0)
发表
评论
返回
顶部