Cómo transcribir audios y videos localmente en Windows sin subir archivos a la nube usando Whisper.cpp
Aprende a convertir audios, entrevistas, clases o reuniones en texto desde tu propia PC usando Whisper.cpp y FFmpeg. Una guía práctica para transcribir archivos de forma local, privada y sin depender de servicios en línea.
Por Equipo Starbyte
Cómo transcribir audios y videos localmente en Windows sin subir archivos a la nube usando Whisper.cpp
El problema real
Cada vez es más común grabar reuniones, clases, entrevistas, sustentaciones, audiencias, capacitaciones o notas de voz. El problema aparece después: convertir todo ese audio en texto puede tomar horas.
La solución rápida suele ser subir el archivo a una plataforma en línea, pero eso no siempre es conveniente. Si el audio contiene información institucional, entrevistas sensibles, datos personales, reuniones internas o material privado, subirlo a un servicio externo puede ser riesgoso.
Una alternativa práctica es transcribir el audio directamente en tu computadora usando Whisper.cpp, una implementación ligera de Whisper que permite ejecutar modelos de transcripción de forma local.
La ventaja principal es clara: el archivo se procesa en tu propia PC.
¿Qué vas a lograr?
Al finalizar esta guía podrás:
- Convertir audios o videos en texto desde Windows.
- Ejecutar transcripciones locales sin subir archivos a internet.
- Generar archivos
.txt,.srto.vtt. - Preparar audios con FFmpeg para mejorar la compatibilidad.
- Usar comandos reutilizables para entrevistas, clases, reuniones y videos.
Herramientas que usaremos
| Herramienta | Uso principal |
|---|---|
| Whisper.cpp | Ejecutar Whisper localmente desde la terminal |
| FFmpeg | Convertir, limpiar o extraer audio de videos |
| PowerShell | Ejecutar los comandos en Windows |
| Modelo GGML/GGUF de Whisper | Archivo de IA usado para reconocer voz |
Requisitos previos
Antes de empezar necesitas:
- Una PC con Windows 10 o Windows 11.
- Conexión a internet solo para descargar las herramientas y modelos.
- PowerShell o Terminal de Windows.
- Espacio libre en disco, mínimo 2 GB recomendado.
- Un archivo de audio o video de prueba, por ejemplo:
.mp3.wav.m4a.mp4
Recomendación: para empezar, usa un audio corto de 1 a 3 minutos. Así puedes validar que todo funciona antes de procesar archivos largos.
Paso 1: Crear una carpeta de trabajo
Abre PowerShell y crea una carpeta ordenada para trabajar:
mkdir C:\IA-Local
cd C:\IA-Local
mkdir audios
mkdir resultados
Coloca tus audios o videos dentro de:
C:\IA-Local\audios
Ejemplo:
C:\IA-Local\audios\entrevista.mp3
Paso 2: Instalar FFmpeg
FFmpeg es necesario para convertir archivos de audio y video. También te servirá para extraer audio de un video antes de transcribirlo.
Opción recomendada con Winget
Ejecuta:
winget install Gyan.FFmpeg
Luego cierra y vuelve a abrir PowerShell.
Verifica la instalación:
ffmpeg -version
Si aparece información de versión, FFmpeg está instalado correctamente.
Paso 3: Descargar Whisper.cpp
Whisper.cpp se puede descargar desde su repositorio oficial en GitHub. En Windows, lo más práctico es usar una versión compilada para evitar compilar manualmente.
Crea una carpeta:
cd C:\IA-Local
mkdir whisper
cd whisper
Descarga la versión para Windows desde el apartado de releases del proyecto oficial.
Luego descomprime el archivo descargado dentro de:
C:\IA-Local\whisper
Debes ubicar el ejecutable principal. En versiones recientes suele llamarse:
whisper-cli.exe
Si el ejecutable tiene otro nombre, revisa el contenido de la carpeta bin o ejecuta:
dir -Recurse *.exe
Paso 4: Descargar un modelo de transcripción
Whisper necesita un modelo para funcionar. Para empezar, puedes usar un modelo pequeño o base.
Ejemplos comunes:
| Modelo | Velocidad | Precisión | Uso recomendado |
|---|---|---|---|
| tiny | Muy rápida | Baja-media | Pruebas rápidas |
| base | Rápida | Media | Audios simples |
| small | Media | Buena | Reuniones y entrevistas |
| medium | Lenta | Muy buena | Transcripciones más serias |
| large | Muy lenta | Alta | Trabajos exigentes |
Para una PC de gama media, una buena opción inicial es:
ggml-small.bin
Crea una carpeta para modelos:
cd C:\IA-Local\whisper
mkdir models
Coloca el modelo descargado en:
C:\IA-Local\whisper\models
Ejemplo:
C:\IA-Local\whisper\models\ggml-small.bin
Paso 5: Preparar el audio con FFmpeg
Aunque Whisper.cpp puede trabajar con distintos formatos, para evitar errores conviene convertir el archivo a WAV mono de 16 kHz.
Ejemplo con un MP3:
ffmpeg -i "C:\IA-Local\audios\entrevista.mp3" -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\entrevista.wav"
Ejemplo con un video MP4:
ffmpeg -i "C:\IA-Local\audios\reunion.mp4" -vn -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\reunion.wav"
Explicación rápida:
| Parámetro | Significado |
|---|---|
-i |
Archivo de entrada |
-vn |
Ignora el video y extrae solo audio |
-ar 16000 |
Convierte el audio a 16 kHz |
-ac 1 |
Convierte a mono |
pcm_s16le |
Formato WAV compatible |
Paso 6: Ejecutar la transcripción
Ubícate en la carpeta de Whisper.cpp:
cd C:\IA-Local\whisper
Ejecuta la transcripción:
.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\entrevista.wav" -l es -otxt -of "C:\IA-Local\resultados\entrevista"
Este comando generará un archivo similar a:
C:\IA-Local\resultados\entrevista.txt
Paso 7: Generar subtítulos SRT para videos
Si necesitas subtítulos para un video, usa:
.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\reunion.wav" -l es -osrt -of "C:\IA-Local\resultados\reunion_subtitulos"
Resultado esperado:
C:\IA-Local\resultados\reunion_subtitulos.srt
Ese archivo puede usarse en editores de video como DaVinci Resolve, CapCut, Premiere Pro, VLC o plataformas que acepten subtítulos externos.
Paso 8: Generar varios formatos a la vez
Puedes pedir varios formatos en una sola ejecución:
.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\clase.wav" -l es -otxt -osrt -ovtt -of "C:\IA-Local\resultados\clase"
Esto puede generar:
clase.txt
clase.srt
clase.vtt
Casos prácticos de uso
Caso 1: Entrevista de investigación
Tienes una entrevista grabada en .m4a y necesitas pasarla a texto para analizar respuestas.
Comando de conversión:
ffmpeg -i "C:\IA-Local\audios\entrevista.m4a" -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\entrevista.wav"
Comando de transcripción:
.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\entrevista.wav" -l es -otxt -of "C:\IA-Local\resultados\entrevista"
Uso posterior:
- Limpiar repeticiones.
- Identificar ideas clave.
- Extraer citas.
- Preparar matriz de análisis.
Caso 2: Clase grabada
Tienes una clase de 45 minutos y quieres generar apuntes.
ffmpeg -i "C:\IA-Local\audios\clase.mp4" -vn -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\clase.wav"
.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\clase.wav" -l es -otxt -of "C:\IA-Local\resultados\clase"
Luego puedes abrir el .txt y convertirlo en:
- Resumen.
- Esquema de estudio.
- Preguntas de repaso.
- Guion para presentación.
Caso 3: Reunión de trabajo
Tienes una reunión interna y quieres obtener un acta preliminar.
ffmpeg -i "C:\IA-Local\audios\reunion.mp3" -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\reunion.wav"
.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\reunion.wav" -l es -otxt -of "C:\IA-Local\resultados\reunion"
Después puedes estructurar el texto en:
- Participantes.
- Temas tratados.
- Acuerdos.
- Responsables.
- Próximas acciones.
Errores comunes y soluciones
Error 1: ffmpeg no se reconoce como un comando interno o externo
Causa: FFmpeg no está agregado al PATH o PowerShell no se reinició.
Solución:
- Cierra PowerShell.
- Vuelve a abrirlo.
- Ejecuta:
ffmpeg -version
Si sigue fallando, reinstala con:
winget install Gyan.FFmpeg
Error 2: whisper-cli.exe no se reconoce
Causa: No estás ubicado en la carpeta donde está el ejecutable.
Solución:
Busca el ejecutable:
cd C:\IA-Local\whisper
dir -Recurse whisper-cli.exe
Luego entra a la carpeta correcta y ejecuta el comando desde ahí.
Error 3: El audio no se transcribe bien
Causas posibles:
- Audio con mucho ruido.
- Personas hablando al mismo tiempo.
- Volumen bajo.
- Modelo demasiado pequeño.
- Idioma no especificado.
Soluciones:
Usa el parámetro de idioma:
-l es
Prueba con un modelo más preciso:
.\whisper-cli.exe -m ".\models\ggml-medium.bin" -f "C:\IA-Local\audios\entrevista.wav" -l es -otxt -of "C:\IA-Local\resultados\entrevista"
Mejora el audio antes de transcribir:
ffmpeg -i "C:\IA-Local\audios\audio_original.mp3" -af "highpass=f=100, lowpass=f=8000, volume=1.5" -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\audio_limpio.wav"
Error 4: La transcripción demora demasiado
Causa: El modelo es pesado o la PC tiene pocos recursos.
Soluciones:
Usa un modelo más ligero:
.\whisper-cli.exe -m ".\models\ggml-base.bin" -f "C:\IA-Local\audios\audio.wav" -l es -otxt -of "C:\IA-Local\resultados\audio"
Divide el audio en partes de 10 minutos:
ffmpeg -i "C:\IA-Local\audios\reunion.wav" -f segment -segment_time 600 -c copy "C:\IA-Local\audios\parte_%03d.wav"
Luego transcribe cada parte.
Error 5: El resultado mezcla palabras o no respeta nombres propios
Causa: Whisper reconoce patrones de voz, pero puede fallar con nombres, siglas, instituciones o términos técnicos.
Solución:
Después de transcribir, revisa manualmente:
- Nombres de personas.
- Nombres de entidades.
- Códigos.
- Fechas.
- Montos.
- Términos técnicos.
En documentos formales, la transcripción debe considerarse un borrador, no una versión final.
Buenas prácticas
1. Trabaja siempre con copias
No proceses el archivo original directamente. Crea una copia en la carpeta de trabajo.
copy "D:\Grabaciones\reunion_original.mp3" "C:\IA-Local\audios\reunion.mp3"
2. Usa nombres de archivo simples
Evita tildes, espacios excesivos y caracteres especiales.
Mejor:
reunion_equipo_2026_05_12.mp3
Evita:
Reunión final (última versión)!!!.mp3
3. Convierte primero a WAV
Aunque puedas usar otros formatos, WAV mono de 16 kHz reduce errores.
ffmpeg -i "entrada.mp3" -ar 16000 -ac 1 -c:a pcm_s16le "salida.wav"
4. Usa modelos según importancia
| Uso | Modelo recomendado |
|---|---|
| Prueba rápida | tiny o base |
| Clase o reunión simple | small |
| Entrevista importante | medium |
| Audio complejo | medium o large |
5. Protege la información sensible
Si el audio contiene información personal o institucional:
- Guárdalo en una carpeta local segura.
- No lo subas a plataformas externas sin autorización.
- Elimina copias temporales cuando termines.
- Revisa el texto antes de compartirlo.
6. Guarda resultados organizados
Estructura recomendada:
C:\IA-Local
│
├── audios
│ ├── entrevista.wav
│ ├── clase.wav
│
├── resultados
│ ├── entrevista.txt
│ ├── clase.txt
│ ├── clase.srt
│
└── whisper
├── whisper-cli.exe
└── models
└── ggml-small.bin
Comando base reutilizable
Puedes guardar este comando como referencia:
.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\archivo.wav" -l es -otxt -osrt -of "C:\IA-Local\resultados\archivo"
Solo cambia:
archivo.wav
archivo
por el nombre real de tu audio.
¿Cuándo conviene usar esta solución?
Conviene usar Whisper.cpp cuando:
- No quieres subir audios a internet.
- Trabajas con entrevistas o reuniones internas.
- Necesitas subtítulos para videos.
- Tienes muchos audios por procesar.
- Quieres una solución técnica, local y repetible.
- Buscas mayor control sobre tus archivos.
No conviene cuando:
- Necesitas una interfaz visual muy simple.
- No quieres usar terminal.
- Tu PC es demasiado antigua.
- Requieres precisión perfecta sin revisión humana.
Idea clave
Transcribir audios localmente con Whisper.cpp no solo ahorra tiempo: también te da control sobre tus datos. Para entrevistas, clases, reuniones o videos, esta solución permite convertir voz en texto de forma práctica, privada y reutilizable desde Windows.
Tips relacionados
Videos verticales con IA: cómo crear Reels, Shorts y TikToks sin grabar desde cero
Los generadores de video con IA están entre los temas más buscados porque prometen crear contenido para redes sin cámara, locación ni equipo de producción. Esta guía explica cómo producir videos verticales con IA de forma profesional: idea, guion, prompt visual, formato 9:16, edición, revisión de errores y publicación responsable.
Inteligencia artificial aplicadaGemini Intelligence en Android: cómo preparar tu celular para la nueva generación de asistentes con IA
Google anunció Gemini Intelligence para Android, una nueva etapa donde el asistente no solo responde preguntas, sino que puede automatizar tareas entre apps, resumir páginas, llenar formularios, crear widgets y ayudar de forma más contextual. Esta guía explica qué significa, qué beneficios trae, qué riesgos revisar y cómo preparar tu celular antes de activar funciones de IA más proactivas.
Inteligencia artificial aplicadaConecta tu cámara con Python: detección de rostros y objetos en tiempo real con OpenCV y YOLO
Aprende a convertir tu webcam en un sistema básico de visión por computadora. Esta guía práctica muestra cómo abrir la cámara con Python, detectar rostros con OpenCV, detectar objetos con YOLO y aplicar buenas prácticas para crear un prototipo útil sin complicarte con teoría innecesaria.