参考:https://developer.nvidia.com/blog/accelerating-ai-training-with-tf32-tensor-cores/
在深度学习中,范围比精度更重要。
FP64
双精度
FP32
单精度
TF32
用于A100架构TensorCore,指数范围i与FP32相同,尾数范围与FP16相同。兼容FP32和FP16,只需截断就可相互转换。先截断为TF32计算再转为FP32对历史工作无影响,且无需更改代码即可使用。
小于 1 分钟
参考:https://developer.nvidia.com/blog/accelerating-ai-training-with-tf32-tensor-cores/
在深度学习中,范围比精度更重要。
双精度
单精度
用于A100架构TensorCore,指数范围i与FP32相同,尾数范围与FP16相同。兼容FP32和FP16,只需截断就可相互转换。先截断为TF32计算再转为FP32对历史工作无影响,且无需更改代码即可使用。