Inteligencia Artificial Aplicada 10 min lectura

Cómo transcribir audios y videos localmente en Windows sin subir archivos a la nube usando Whisper.cpp

Aprende a convertir audios, entrevistas, clases o reuniones en texto desde tu propia PC usando Whisper.cpp y FFmpeg. Una guía práctica para transcribir archivos de forma local, privada y sin depender de servicios en línea.

Por Equipo Starbyte

Cómo transcribir audios y videos localmente en Windows sin subir archivos a la nube usando Whisper.cpp

Cómo transcribir audios y videos localmente en Windows sin subir archivos a la nube usando Whisper.cpp

El problema real

Cada vez es más común grabar reuniones, clases, entrevistas, sustentaciones, audiencias, capacitaciones o notas de voz. El problema aparece después: convertir todo ese audio en texto puede tomar horas.

La solución rápida suele ser subir el archivo a una plataforma en línea, pero eso no siempre es conveniente. Si el audio contiene información institucional, entrevistas sensibles, datos personales, reuniones internas o material privado, subirlo a un servicio externo puede ser riesgoso.

Una alternativa práctica es transcribir el audio directamente en tu computadora usando Whisper.cpp, una implementación ligera de Whisper que permite ejecutar modelos de transcripción de forma local.

La ventaja principal es clara: el archivo se procesa en tu propia PC.


¿Qué vas a lograr?

Al finalizar esta guía podrás:

  • Convertir audios o videos en texto desde Windows.
  • Ejecutar transcripciones locales sin subir archivos a internet.
  • Generar archivos .txt, .srt o .vtt.
  • Preparar audios con FFmpeg para mejorar la compatibilidad.
  • Usar comandos reutilizables para entrevistas, clases, reuniones y videos.

Herramientas que usaremos

Herramienta Uso principal
Whisper.cpp Ejecutar Whisper localmente desde la terminal
FFmpeg Convertir, limpiar o extraer audio de videos
PowerShell Ejecutar los comandos en Windows
Modelo GGML/GGUF de Whisper Archivo de IA usado para reconocer voz

Requisitos previos

Antes de empezar necesitas:

  1. Una PC con Windows 10 o Windows 11.
  2. Conexión a internet solo para descargar las herramientas y modelos.
  3. PowerShell o Terminal de Windows.
  4. Espacio libre en disco, mínimo 2 GB recomendado.
  5. Un archivo de audio o video de prueba, por ejemplo:
    • .mp3
    • .wav
    • .m4a
    • .mp4

Recomendación: para empezar, usa un audio corto de 1 a 3 minutos. Así puedes validar que todo funciona antes de procesar archivos largos.


Paso 1: Crear una carpeta de trabajo

Abre PowerShell y crea una carpeta ordenada para trabajar:

mkdir C:\IA-Local
cd C:\IA-Local
mkdir audios
mkdir resultados

Coloca tus audios o videos dentro de:

C:\IA-Local\audios

Ejemplo:

C:\IA-Local\audios\entrevista.mp3

Paso 2: Instalar FFmpeg

FFmpeg es necesario para convertir archivos de audio y video. También te servirá para extraer audio de un video antes de transcribirlo.

Opción recomendada con Winget

Ejecuta:

winget install Gyan.FFmpeg

Luego cierra y vuelve a abrir PowerShell.

Verifica la instalación:

ffmpeg -version

Si aparece información de versión, FFmpeg está instalado correctamente.


Paso 3: Descargar Whisper.cpp

Whisper.cpp se puede descargar desde su repositorio oficial en GitHub. En Windows, lo más práctico es usar una versión compilada para evitar compilar manualmente.

Crea una carpeta:

cd C:\IA-Local
mkdir whisper
cd whisper

Descarga la versión para Windows desde el apartado de releases del proyecto oficial.

Luego descomprime el archivo descargado dentro de:

C:\IA-Local\whisper

Debes ubicar el ejecutable principal. En versiones recientes suele llamarse:

whisper-cli.exe

Si el ejecutable tiene otro nombre, revisa el contenido de la carpeta bin o ejecuta:

dir -Recurse *.exe

Paso 4: Descargar un modelo de transcripción

Whisper necesita un modelo para funcionar. Para empezar, puedes usar un modelo pequeño o base.

Ejemplos comunes:

Modelo Velocidad Precisión Uso recomendado
tiny Muy rápida Baja-media Pruebas rápidas
base Rápida Media Audios simples
small Media Buena Reuniones y entrevistas
medium Lenta Muy buena Transcripciones más serias
large Muy lenta Alta Trabajos exigentes

Para una PC de gama media, una buena opción inicial es:

ggml-small.bin

Crea una carpeta para modelos:

cd C:\IA-Local\whisper
mkdir models

Coloca el modelo descargado en:

C:\IA-Local\whisper\models

Ejemplo:

C:\IA-Local\whisper\models\ggml-small.bin

Paso 5: Preparar el audio con FFmpeg

Aunque Whisper.cpp puede trabajar con distintos formatos, para evitar errores conviene convertir el archivo a WAV mono de 16 kHz.

Ejemplo con un MP3:

ffmpeg -i "C:\IA-Local\audios\entrevista.mp3" -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\entrevista.wav"

Ejemplo con un video MP4:

ffmpeg -i "C:\IA-Local\audios\reunion.mp4" -vn -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\reunion.wav"

Explicación rápida:

Parámetro Significado
-i Archivo de entrada
-vn Ignora el video y extrae solo audio
-ar 16000 Convierte el audio a 16 kHz
-ac 1 Convierte a mono
pcm_s16le Formato WAV compatible

Paso 6: Ejecutar la transcripción

Ubícate en la carpeta de Whisper.cpp:

cd C:\IA-Local\whisper

Ejecuta la transcripción:

.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\entrevista.wav" -l es -otxt -of "C:\IA-Local\resultados\entrevista"

Este comando generará un archivo similar a:

C:\IA-Local\resultados\entrevista.txt

Paso 7: Generar subtítulos SRT para videos

Si necesitas subtítulos para un video, usa:

.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\reunion.wav" -l es -osrt -of "C:\IA-Local\resultados\reunion_subtitulos"

Resultado esperado:

C:\IA-Local\resultados\reunion_subtitulos.srt

Ese archivo puede usarse en editores de video como DaVinci Resolve, CapCut, Premiere Pro, VLC o plataformas que acepten subtítulos externos.


Paso 8: Generar varios formatos a la vez

Puedes pedir varios formatos en una sola ejecución:

.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\clase.wav" -l es -otxt -osrt -ovtt -of "C:\IA-Local\resultados\clase"

Esto puede generar:

clase.txt
clase.srt
clase.vtt

Casos prácticos de uso

Caso 1: Entrevista de investigación

Tienes una entrevista grabada en .m4a y necesitas pasarla a texto para analizar respuestas.

Comando de conversión:

ffmpeg -i "C:\IA-Local\audios\entrevista.m4a" -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\entrevista.wav"

Comando de transcripción:

.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\entrevista.wav" -l es -otxt -of "C:\IA-Local\resultados\entrevista"

Uso posterior:

  • Limpiar repeticiones.
  • Identificar ideas clave.
  • Extraer citas.
  • Preparar matriz de análisis.

Caso 2: Clase grabada

Tienes una clase de 45 minutos y quieres generar apuntes.

ffmpeg -i "C:\IA-Local\audios\clase.mp4" -vn -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\clase.wav"
.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\clase.wav" -l es -otxt -of "C:\IA-Local\resultados\clase"

Luego puedes abrir el .txt y convertirlo en:

  • Resumen.
  • Esquema de estudio.
  • Preguntas de repaso.
  • Guion para presentación.

Caso 3: Reunión de trabajo

Tienes una reunión interna y quieres obtener un acta preliminar.

ffmpeg -i "C:\IA-Local\audios\reunion.mp3" -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\reunion.wav"
.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\reunion.wav" -l es -otxt -of "C:\IA-Local\resultados\reunion"

Después puedes estructurar el texto en:

  • Participantes.
  • Temas tratados.
  • Acuerdos.
  • Responsables.
  • Próximas acciones.

Errores comunes y soluciones

Error 1: ffmpeg no se reconoce como un comando interno o externo

Causa: FFmpeg no está agregado al PATH o PowerShell no se reinició.

Solución:

  1. Cierra PowerShell.
  2. Vuelve a abrirlo.
  3. Ejecuta:
ffmpeg -version

Si sigue fallando, reinstala con:

winget install Gyan.FFmpeg

Error 2: whisper-cli.exe no se reconoce

Causa: No estás ubicado en la carpeta donde está el ejecutable.

Solución:

Busca el ejecutable:

cd C:\IA-Local\whisper
dir -Recurse whisper-cli.exe

Luego entra a la carpeta correcta y ejecuta el comando desde ahí.


Error 3: El audio no se transcribe bien

Causas posibles:

  • Audio con mucho ruido.
  • Personas hablando al mismo tiempo.
  • Volumen bajo.
  • Modelo demasiado pequeño.
  • Idioma no especificado.

Soluciones:

Usa el parámetro de idioma:

-l es

Prueba con un modelo más preciso:

.\whisper-cli.exe -m ".\models\ggml-medium.bin" -f "C:\IA-Local\audios\entrevista.wav" -l es -otxt -of "C:\IA-Local\resultados\entrevista"

Mejora el audio antes de transcribir:

ffmpeg -i "C:\IA-Local\audios\audio_original.mp3" -af "highpass=f=100, lowpass=f=8000, volume=1.5" -ar 16000 -ac 1 -c:a pcm_s16le "C:\IA-Local\audios\audio_limpio.wav"

Error 4: La transcripción demora demasiado

Causa: El modelo es pesado o la PC tiene pocos recursos.

Soluciones:

Usa un modelo más ligero:

.\whisper-cli.exe -m ".\models\ggml-base.bin" -f "C:\IA-Local\audios\audio.wav" -l es -otxt -of "C:\IA-Local\resultados\audio"

Divide el audio en partes de 10 minutos:

ffmpeg -i "C:\IA-Local\audios\reunion.wav" -f segment -segment_time 600 -c copy "C:\IA-Local\audios\parte_%03d.wav"

Luego transcribe cada parte.


Error 5: El resultado mezcla palabras o no respeta nombres propios

Causa: Whisper reconoce patrones de voz, pero puede fallar con nombres, siglas, instituciones o términos técnicos.

Solución:

Después de transcribir, revisa manualmente:

  • Nombres de personas.
  • Nombres de entidades.
  • Códigos.
  • Fechas.
  • Montos.
  • Términos técnicos.

En documentos formales, la transcripción debe considerarse un borrador, no una versión final.


Buenas prácticas

1. Trabaja siempre con copias

No proceses el archivo original directamente. Crea una copia en la carpeta de trabajo.

copy "D:\Grabaciones\reunion_original.mp3" "C:\IA-Local\audios\reunion.mp3"

2. Usa nombres de archivo simples

Evita tildes, espacios excesivos y caracteres especiales.

Mejor:

reunion_equipo_2026_05_12.mp3

Evita:

Reunión final (última versión)!!!.mp3

3. Convierte primero a WAV

Aunque puedas usar otros formatos, WAV mono de 16 kHz reduce errores.

ffmpeg -i "entrada.mp3" -ar 16000 -ac 1 -c:a pcm_s16le "salida.wav"

4. Usa modelos según importancia

Uso Modelo recomendado
Prueba rápida tiny o base
Clase o reunión simple small
Entrevista importante medium
Audio complejo medium o large

5. Protege la información sensible

Si el audio contiene información personal o institucional:

  • Guárdalo en una carpeta local segura.
  • No lo subas a plataformas externas sin autorización.
  • Elimina copias temporales cuando termines.
  • Revisa el texto antes de compartirlo.

6. Guarda resultados organizados

Estructura recomendada:

C:\IA-Local
│
├── audios
│   ├── entrevista.wav
│   ├── clase.wav
│
├── resultados
│   ├── entrevista.txt
│   ├── clase.txt
│   ├── clase.srt
│
└── whisper
    ├── whisper-cli.exe
    └── models
        └── ggml-small.bin

Comando base reutilizable

Puedes guardar este comando como referencia:

.\whisper-cli.exe -m ".\models\ggml-small.bin" -f "C:\IA-Local\audios\archivo.wav" -l es -otxt -osrt -of "C:\IA-Local\resultados\archivo"

Solo cambia:

archivo.wav
archivo

por el nombre real de tu audio.


¿Cuándo conviene usar esta solución?

Conviene usar Whisper.cpp cuando:

  • No quieres subir audios a internet.
  • Trabajas con entrevistas o reuniones internas.
  • Necesitas subtítulos para videos.
  • Tienes muchos audios por procesar.
  • Quieres una solución técnica, local y repetible.
  • Buscas mayor control sobre tus archivos.

No conviene cuando:

  • Necesitas una interfaz visual muy simple.
  • No quieres usar terminal.
  • Tu PC es demasiado antigua.
  • Requieres precisión perfecta sin revisión humana.

Idea clave

Transcribir audios localmente con Whisper.cpp no solo ahorra tiempo: también te da control sobre tus datos. Para entrevistas, clases, reuniones o videos, esta solución permite convertir voz en texto de forma práctica, privada y reutilizable desde Windows.

Etiquetas: #ia-local #whisper #whispercpp #ffmpeg #transcripcion-automatica #privacidad-digital #windows #productividad #audio-a-texto