#model serving

1 artigo com esta tag

Model Serving: infraestrutura para servir modelos de IA em produção

ONNX Runtime, TorchServe, Triton Inference Server, latência P99, autoscaling e custo. Como servir modelos de ML com SLA de produção em escala.

📅 19 de abril de 2026 👁 178