knuspermagier.de
Der privateste Blog von Philipp.

Voice Memo im Tagebuch

Ich habe im letzten Jahr angefangen in der Voice Memo-App ab und zu mal einen oder mehrere Tagebucheinträge aufzunehmen, wenn ich gerade keine Zeit zum Schreiben hatte.

Nun könnte man es sich ja einfach machen und den von Apple automatisch transkribierten Text nehmen und ins Tagebuch kopieren, aber leider ist die Qualität gar nicht mal so gut. Vielleicht nuschel ich zu sehr, aber ohne größere Nachbearbeitungen kann ich die Texte nicht benutzen.

Auf dem Rechner habe ich die Memos mal in Whisper Transcription geworfen, welches das Open AI-Whisper-Modell (v3-large) lokal benutzt und die Qualität ist wesentlich besser, das war schonmal ein Fortschritt.

Nun könnte man es sich ja einfach machen und den Text nehmen und ins Tagebuch kopieren, aber das wäre ja zu einfach. Da ich die Soundschnipsel eh auch im Tagebuch haben wollte, falls man in 40 Jahren mal seine eigene Stimme hören will, dachte ich mir, ich könnte ja direkt auch einen Transkriptionsservice mit anbinden.

Am liebsten hätte ich natürlich etwas genommen, was lokal läuft und trotzdem eine gute Qualität hat. Auf dem Mac läuft whisper-large-v3 ja gut, aber wie würde das auf meinem Homelab mit schwacher AMD Ryzen-CPU ohne GPU funktionieren?

Ich gab mein bestes und probierte verschiedene Docker-Container, die versprachen, eine “Faster Whisper”-Implementierung anzubieten, leider ohne Erfolg. Der Erste stürzte einfach immer ab, wenn ich eine Datei hinschickte, der zweite beschwerte sich über irgendwelche fehlenden Sachen. Was ebenfalls nicht funktionierte war Parakeet TDT.

Wenn lokal nicht funktioniert, wollte ich es aber zumindest in einem privaten Bereich, bzw. in der EU gehostet haben, also schaute ich weiter. Amazon Bedrock kann leider kein Whisper-Model. Huggingface bietet whisper-large-v3 an und ich war schon kurz davor, das jetzt zu nutzen, aber die Erkennungsqualität war erstaunlicherweise wesentlich schlechter als in Whisper Transcription auf meinem Macbook, häää.

Letzendlich bin ich jetzt beim voxtral-small-Model von Mistral gelandet. Das Ergebnis der Transkription ist gut, es ist schnell und in Europa gehostet. Damit kann ich jetzt einfach die Voice Memo in mein Tagebuch werfen, und daraus einen entsprechenden Eintrag erstellen.

Falls jemand einen funktionierenden Docker-Container hat, der mit faster-whisper lokal auf einem Rechner ohne GPU läuft, sagt gerne Bescheid, lokal würde mir natürlich noch besser gefallen!

Kommentare, Feedback und andere Anmerkungen?
Schreib mir eine E-Mail 🤓