Deploying Models

Using Hosted LLM

https://www.youtube.com/watch?v=vehYE1DfkZg
Local
- Personal Use
  - Ollama
  - llama.cpp
  - LM Studio
- Production
  - vLLM
  - TGI
  - SGLang
- Expose to Internet
  - CloudFlare Tunnel
  - Tailscale
  - Nginx
VPS (Virtual Private Server)
- Workflows
  - Run your (apps + model) on VPS
  - Run your app on VPS + Model on Local
- Primarily CPU VPS
  - Hetzner: Raw computing power (CPU/GPU) for price with their own datacenters
  - Hostinger: Beginner friendly
  - DigitalOcean: Has 1-click apps and managed K8s
- GPU VPS
  - Vast.ai: GPU Marketplace
  - Runpod.io
  - Jarvislabs.ai
Edge Devices
- LiteRT-LM (supports Metal GPU Acceleration)
- llama.cpp (supports Metal GPU Acceleration)
- Apple MLX (iPhones only)