TL;DR — Resumen Rápido
Ejecuta el modelo Whisper de OpenAI localmente para transcripción de audio gratuita y privada. Incluye CLI, Docker, GPU, whisper.cpp para CPU y opciones de interfaz web.
¿Qué es Whisper?
Whisper es el modelo de reconocimiento de voz de OpenAI — transcribe audio en 99 idiomas, traduce voz y genera subtítulos, todo corriendo localmente.
| Modelo | Tamaño | Precisión | Velocidad GPU |
|---|---|---|---|
tiny | 75 MB | Buena | ~32x tiempo real |
base | 142 MB | Mejor | ~16x tiempo real |
small | 466 MB | Muy buena | ~6x tiempo real |
medium | 1.5 GB | Excelente | ~2x tiempo real |
large-v3 | 3 GB | La mejor | ~1x tiempo real |
pip install openai-whisper
whisper audio.mp3 --model base --language es