Model Serving: infraestrutura para servir modelos de IA em produção
ONNX Runtime, TorchServe, Triton Inference Server, latência P99, autoscaling e custo. Como servir modelos de ML com SLA de produção em escala.
ONNX Runtime, TorchServe, Triton Inference Server, latência P99, autoscaling e custo. Como servir modelos de ML com SLA de produção em escala.