TL;DR
- Diktier-App Mac kostenlos gibt es tatsächlich: OpenWhispr ist eine Open-Source-Variante, die die Whisper-Modelle von OpenAI lokal auf deinem Mac laufen lässt. MIT-Lizenz, rund 2.600 GitHub-Stars, Version 1.6.9 vom 16.04.2026.
- Du ersetzt damit Abos wie Wispr Flow (15 Dollar im Monat) komplett. Deine Audios verlassen den Rechner nicht, was OpenWhispr für Coaches, Therapeuten und Solopreneure DSGVO-tauglich macht.
- Setup in unter 5 Minuten. Auf M1 und M2 MacBook Air ist das Small- oder Medium-Modell in der Praxis schneller und angenehmer als das offiziell „schnellere“ Turbo-Modell.
- Ich hab mein Wispr-Flow-Abo gekündigt, nutze jetzt OpenWhispr und spar mir damit 144 Euro im Jahr.
Warum ich Wispr Flow nach einem Jahr gekündigt habe
Ich hatte vorher immer Wispr Flow im Einsatz. Das ist eine sehr gute Diktier-App, keine Frage. Aber sie kostet 15 Dollar im Monat oder 144 Dollar im Jahr, was gerundet 12 Dollar pro Monat sind. Und dann landen deine Audios auf Servern in den USA.
Ganz ehrlich, so geht es mir mittlerweile bei vielen Tools. Du zahlst für Transkription, Abo hier, Credits da und dann landen deine Daten auf irgendeinem Server in den USA. Jedes einzelne Tool ist fair bepreist, aber in Summe zahle ich monatlich einen Betrag, der mich irgendwann nervt. Und bei Diktier-Apps kommt noch das Datenschutz-Thema dazu.
Dann bin ich auf OpenWhispr gestoßen. Open Source, läuft komplett lokal, baut auf denselben Whisper-Modellen auf, die auch Wispr Flow im Hintergrund nutzt. Ich hab es einen Abend lang getestet, am nächsten Tag das Wispr-Flow-Abo gekündigt. Spart mir 144 Euro im Jahr, und die Qualität ist für meinen Alltag in keiner relevanten Weise schlechter.
In diesem Artikel geh ich genau durch, was OpenWhispr ist, wie du es auf dem Mac installierst, welches Modell du für Deutsch nehmen solltest und für wen das Tool wirklich Sinn macht. Das passende Video dazu hab ich dir oben eingebettet.
Was OpenWhispr als Diktier-App für Mac kostenlos kann
OpenWhispr ist eine kostenlose Open-Source-Diktier-App für Mac, Windows und Linux, die gesprochene Sprache direkt in Text umwandelt. Du drückst einen Hotkey, sprichst ins Mikro, und der Text landet in der App, in der dein Cursor gerade steht. E-Mail, Notion, Slack, egal. Und das Ganze ohne Cloud-Verbindung.
Wichtig ist eine Namens-Sache, damit du nichts verwechselst. „OpenAI Whisper“ ist das Sprachmodell, das OpenAI vor einigen Jahren als Open Source veröffentlicht hat. „OpenWhispr“ hingegen ist die Desktop-App, die dieses Modell lokal auf deinem Rechner laufen lässt. Das Modell ist das Gehirn, die App ist die Bedienoberfläche drumherum.
Die Zahlen zum Projekt, Stand April 2026: rund 2.600 GitHub-Stars, Version 1.6.9 (released am 16.04.2026), MIT-Lizenz, 74 Releases, 1.309 Commits. Das ist ein sehr aktives Projekt, nicht so ein Zombie-Repo, das vor drei Jahren geupdatet wurde. Technisch basiert die App auf TypeScript und Electron, und sie unterstützt lokale Whisper-Modelle, NVIDIA Parakeet und optional auch Cloud-APIs per BYOK, falls du das willst.
Was das Ding konkret macht, sind drei Dinge. Erstens: Live-Diktat per Hotkey. Zweitens: Transkription von bestehenden Audio-Dateien. Drittens: optional ein Agent-Modus, den ich selbst noch nicht ausführlich getestet hab.

Ist OpenWhispr wirklich kostenlos?
Ja, im lokalen Modus ist OpenWhispr hundertprozentig kostenlos. MIT-Lizenz, kein Abo, keine Credits, keine versteckten Gebühren. Du lädst die App runter, installierst sie, lädst ein Whisper-Modell auf deinen Rechner und dann läuft das Ding für immer ohne weitere Kosten.
Es gibt in der App auch einen Cloud-Modus. Wenn du den aktivierst, kannst du deinen eigenen OpenAI-API-Key hinterlegen (BYOK) und die Transkription über die OpenAI-Server laufen lassen. Das kostet dann 0,006 Dollar pro Minute für Whisper, also rund 36 Cent pro Stunde Audio. Für GPT-4o Mini Transcribe sind es 0,003 Dollar pro Minute. Klingt günstig, ist in Summe aber das Gegenteil von dem, was ich mit der App erreichen will.
Meine klare Empfehlung: Nimm den lokalen Modus. Cloud-Option deaktiviert lassen. Denn sobald du Cloud nutzt, hast du dieselben Datenschutz-Probleme wie bei Wispr Flow und Co., plus eine Pay-per-Use-Rechnung. Der ganze Witz an OpenWhispr ist ja, dass deine Audios bei dir bleiben.
| Aspekt | Lokaler Modus | Cloud-Modus (BYOK) |
|---|---|---|
| Preis | 0 Euro, für immer | 0,003 bis 0,006 Dollar pro Minute |
| Datenschutz | Audios verlassen den Rechner nicht | Audios gehen an OpenAI (USA) |
| Hardware | RAM und Chip-Power nötig | Auch auf schwacher Hardware okay |
| Datei-Limit | Keins | 25 MB pro Datei |
| Internet | Nicht nötig | Pflicht |
OpenWhispr auf dem Mac installieren (Schritt für Schritt)
Die Installation von OpenWhispr auf dem Mac dauert keine fünf Minuten. Du lädst die App von der offiziellen Seite, öffnest sie, gibst ein paar Berechtigungen frei und lädst dir dein Wunschmodell runter. Fertig. So mach ich das konkret:
- App laden. Geh auf openwhispr.com und klick dort direkt auf den großen „Download for macOS“-Button. Keine Kommandozeile, kein GitHub-Umweg. Achte nur darauf, ob du einen Apple-Silicon-Mac (M1/M2/M3) oder einen Intel-Mac hast, und zieh das passende Build. Den Quellcode findest du zusätzlich auf GitHub, falls du ins Projekt reinschauen willst.
- Installieren und öffnen. App in den Programme-Ordner ziehen, starten. Beim ersten Öffnen will macOS die Berechtigung für Mikrofon und Eingabehilfen haben (für die Hotkey-Funktion). Beides erlauben, ohne geht’s nicht.
- Zu den Einstellungen. Du landest wahrscheinlich auf der Startseite, da steht bei dir natürlich noch keine Transkription drin. Dann gehst du hier auf Einstellungen.
- Modell wählen. Im Bereich Transkription auf „Lokal“ wechseln. Dort hast du verschiedene Whisper-Modelle zur Auswahl. Mein Tipp: Fang mit Small an (rund 2 GB RAM, 466 MB Download) und teste, wie schnell das auf deinem Rechner läuft. Wenn’s gut läuft, kannst du auf Medium hochgehen.
- Hotkey festlegen. Weiter unten legst du die Taste fest, mit der du das Diktat startest. Und dann kannst du hier noch den Aktivierungsmodus einstellen, entweder „Tippen“ oder „Halten“. Mein Tipp: Nimm „Halten“. Spricht: Du drückst die Taste, sprichst, lässt los, der Text erscheint. Keine Fehl-Aktivierungen, weil du beim Suchen mal kurz auf die Taste kommst.
- Optional: Intelligenz-Modus aktivieren. In den Einstellungen findest du einen eigenen Menüpunkt „Intelligenz“. Dort aktivierst du ein zweites AI-Modell, das dein Diktat nachbearbeitet: Grammatik, Füllwörter wie Ähs und Öhs, Formatierung. Lokal läuft das über llama.cpp mit einem kleinen LLM, das du separat herunterlädst (ähnlich dem Whisper-Modell). Alternativ hinterlegst du einen eigenen API-Key von OpenAI, Groq oder Mistral (BYOK, kostet dann pro Anfrage). Ich hab das für E-Mail-Diktate gelegentlich aktiv, für Rohnotizen bewusst aus.

So, das war’s. Wenn du den Hotkey gedrückt hältst, siehst du oben am Bildschirm ein Signal, dass das Mikro aufnimmt. Loslassen, kurze Rechenzeit, Text erscheint. Bei mir auf dem M2 MacBook Air braucht das mit Small-Modell pro zehn Sekunden Sprache circa eine Sekunde Verarbeitungszeit.
Welches Whisper-Modell du für Deutsch nehmen solltest
Für deutsches Diktat auf einem Mac mit Apple Silicon ist Small die ehrliche Einstiegs-Empfehlung, Medium die Sweet-Spot-Wahl. Large-v3-Turbo ist auf dem Papier schneller als Large-v3, frisst aber genug RAM, dass es auf einem MacBook Air eher ausbremst als beschleunigt. Tiny und Base kannst du für Deutsch praktisch vergessen.
Hier die komplette Übersicht der offiziellen Modelle, damit du weißt, was du dir da runterlädst:
| Modell | Parameter | RAM-Bedarf | Deutsch-Qualität |
|---|---|---|---|
| Tiny | 39 Mio. | rund 1 GB | Für Deutsch unbrauchbar |
| Base | 74 Mio. | rund 1 GB | Merkliche Fehler |
| Small | 244 Mio. | rund 2 GB | Alltagstauglich, meine Empfehlung für M1 |
| Medium | 769 Mio. | rund 5 GB | Sehr gut |
| Large-v3 | 1,54 Mrd. | rund 10 GB | Beste Qualität |
| Large-v3 Turbo | 809 Mio. | rund 6 GB | Fast identisch zu Large (1 bis 2 % Delta), 6 bis 8x schneller |

Das Turbo-Modell ist technisch clever gemacht. OpenAI hat die Anzahl der Decoder-Layer von 32 auf 4 reduziert. Das klingt nach Magie und ist es für Rechner mit dedizierter GPU auch. Auf einem MacBook Air mit geteiltem Unified Memory sieht das anders aus.
Das Turbo-Modell ist auf einem M2, auf meinem MacBook Air, ein bisschen langsamer, also es ist nicht viel, aber man merkt es schon. Mein Verdacht: Die 6 GB RAM-Belegung drücken das restliche System in den Swap, und das kostet mehr Zeit als die Layer-Reduktion einspart. Ich hab deswegen Small, manchmal Medium installiert, und das hat wirklich eine super Performance und auch eine ganz, ganz tolle Qualität.
Das Turbo-Modell ist auf dem Papier besser, aber in meinem Praxis-Test auf dem M2 MacBook Air läuft Small schneller. Und das ist kein Wunder, wenn du verstehst, wie RAM-Druck auf einem Apple-Silicon-Chip mit geteiltem Speicher funktioniert.
Noch ein Punkt zur Fehlerrate, weil da gerne mit beeindruckenden Zahlen hantiert wird. Es kursiert die Zahl 2,628 % Word Error Rate für Deutsch. Die gilt aber nur für ein spezifisches Community-Modell auf Hugging Face, nämlich `whisper-large-v3-turbo-german`, das jemand auf deutsche Daten fine-getuned hat. Das Standard-OpenAI-Whisper liegt laut Deepgram-Benchmark bei 8 bis 20 Prozent, je nach Audio-Qualität und Sprecher. Immer noch gut, aber eben nicht Human-Level.
Meine klare Empfehlung in drei Zeilen. Small auf M1 MacBook Air. Medium auf M1 Pro oder M2. Large-v3 oder Turbo nur auf M2 Pro, M3 Pro oder Max mit genug RAM.
Live-Demo: So diktiere ich per Hotkey im Alltag
Der typische Flow sieht bei mir so aus. Cursor ins E-Mail-Feld, Hotkey halten, Satz sprechen, loslassen, Text steht da. Das ist viel schneller als Tippen, besonders bei längeren Antworten. Und es fühlt sich nach zwei Tagen schon an wie ein normaler Teil vom Workflow.
Ich nutze OpenWhispr für drei Hauptsachen. Kundensupport-Antworten in Gmail, weil das oft längere Texte sind und ich dabei klarer denken kann. Notizen in Notion, wenn ich zwischen zwei Aufgaben kurz einen Gedanken festhalten will. Und erste Rohfassungen für Blog-Intros oder E-Mails, die ich dann am Text nochmal schärfe. Im Notion-Second-Brain-Setup hab ich schon beschrieben, warum dieser „erst sprechen, dann tippen“-Reflex für mich produktiver ist.
Zur Hotkey-Wahl: Ich bin bei „rechte Fn-Taste, Halten“ gelandet. Die ist groß genug, dass ich sie im Blindflug finde, aber weit genug weg von den Tasten, die ich beim Tippen nutze. So passieren keine Fehl-Aktivierungen, und ich muss nicht erst umdenken, wenn ich zwischen Diktieren und Tippen wechsele.
Was OpenWhispr „Intelligenz“ nennt, ist ein optionaler AI-Post-Processing-Schritt nach der Transkription. Wenn ich im gleichnamigen Einstellungs-Bereich ein AI-Modell aktiviere (lokal über llama.cpp oder via eigenem Cloud-Key bei OpenAI, Groq, Mistral), werden Ähs, Öhs und „also“-Einschübe automatisch rausgefiltert und Grammatik geglättet. Für E-Mails super, für ehrliche Gesprächs-Notizen lass ich das Feature aus, weil da der Original-Ton mehr Kontext trägt. Agent-Modus? Noch nicht in Produktion getestet, das Feature steht aber auf meiner Liste.
DSGVO-konform diktieren: Für wen der lokale Modus wirklich Pflicht ist
Für alle, die mit personenbezogenen Daten arbeiten und in der EU sitzen, ist der lokale Modus von OpenWhispr kein Nice-to-have, sondern eigentlich die einzige seriöse Option. Cloud-Diktier-Tools schicken dein Audio auf Server in den USA. Und personenbezogene Audio-Inhalte ohne sauberen Auftragsverarbeitungs-Vertrag dorthin zu schicken, ist DSGVO-technisch ein Minenfeld.
Betroffen sind unter anderem Coaches (Coaching-Calls enthalten sensible Klienten-Infos), Therapeuten und Ärzte (Gesundheitsdaten, doppelt heikel), Anwälte (Berufsgeheimnis), Steuerberater und Buchhalter (Finanzdaten) und jeder, der Meetings mit echten Kundennamen und internen Zahlen transkribiert.
Ein konkreter Fall aus meiner Praxis. Ich hab OpenWhispr im März für ein e.V.-Projekt (Karin, Inklusions-Verein im Lahn-Dill-Kreis) getestet. Die Frage: „Können wir damit Sitzungs-Notizen diktieren, ohne einen Auftragsverarbeitungs-Vertrag abschließen zu müssen?“ Das Setup mit Small-Modell auf einem alten M1 MacBook reicht locker, die Cloud-Option war deaktiviert, Audio verlässt den Rechner nicht. DSGVO-Check: sauber, kein AVV nötig, weil kein Auftragsverarbeiter im Spiel ist.
Für Coaches und Therapeuten gibt es aus meiner Sicht aktuell keine ehrlichere Lösung als den lokalen Whisper. Cloud-basierte Diktier-Tools sind ein DSGVO-Minenfeld.
Wichtiger Disclaimer: Ich bin kein Anwalt. Wenn du in einem stark regulierten Umfeld arbeitest (öffentlicher Dienst, medizinische Primärdaten, Strafverteidigung), hol dir zusätzlich eine Einschätzung vom Datenschutzbeauftragten. Aber das Grundprinzip „Daten verlassen den Rechner nicht, also kein AVV“ gilt für 90 Prozent der Solopreneure, die mich nach Coaching-Transkripten fragen. Ich hatte bei Notion in der Cloud-Variante übrigens eine ganz ähnliche Abwägung, nur mit weniger eindeutigem Ergebnis.
OpenWhispr vs. Wispr Flow, MacWhisper und Co. im Preis-Vergleich
Der Markt für Whisper-basierte Tools ist in den letzten zwei Jahren explodiert. Die gute Nachricht: Es gibt für jeden Geschmack das passende Werkzeug. Die schlechte: Du musst erstmal durchsteigen, welches Tool was kann. Hier meine Übersicht, Stand April 2026.
| Tool | Preis | Platform | Open Source | Lokal | Fokus |
|---|---|---|---|---|---|
| OpenWhispr | 0 Euro | Mac, Windows, Linux | Ja (MIT) | Ja | Live-Diktat + Datei |
| Wispr Flow | 15 Dollar/Monat (144 Dollar/Jahr, .edu 10 Dollar) | Mac, Windows, iOS | Nein | Nein (US-Cloud) | Live-Diktat, Free-Tier 2.000 Wörter/Woche |
| MacWhisper | 29 Dollar (Gumroad Pro) oder 59 Euro (App Store Lifetime) | Mac | Nein | Ja | Datei-Transkription |
| Superwhisper | 0 Dollar / 8,49 Dollar Monat / 249,99 Dollar Lifetime | Mac | Nein | Ja | Premium-UX |
| Aiko | 0 Dollar | Mac, iOS | Ja | Ja | Audio-Dateien |
| Buzz | 0 Dollar | Mac, Windows, Linux | Ja | Ja | Terminal-naher Workflow |
| Whisper Notes | 6,99 Dollar einmalig | Mac, iPhone | Nein | Ja | Mobile |
| Dial8 | 0 Dollar | Mac | Ja | Ja | Neu (März 2026) |
Meine ehrliche Reihenfolge für deutsche Solopreneure. OpenWhispr nimmst du, wenn du Live-Diktat plus Datei-Transkription willst, nichts zahlen magst und Datenschutz wichtig ist. MacWhisper ist das beste reine Datei-Transkriptions-Tool für den Mac, wenn du einmal 29 Dollar ausgeben willst und ein schickes UI schätzt. Superwhisper ist für UX-Verwöhnte mit Budget, die bereit sind, 8 Dollar im Monat oder 250 Dollar Lifetime für ein poliertes Erlebnis zu zahlen.
Wispr Flow war lange meine erste Wahl, aber mit OpenWhispr auf dem Markt ist der Mehrpreis für mich nicht mehr gerechtfertigt. Ganz ehrlich, 12 bis 15 Dollar im Monat für eine App, die man auch lokal haben kann, ist für mich mittlerweile Geld, das ich woanders besser investiere.
Mein Workflow: OpenWhispr plus Claude Code für YouTube-Videos
Für Live-Diktat nutze ich OpenWhispr, für Batch-Transkription hab ich mir was Eigenes gebaut. Ich habe das zum Beispiel in Claude Code installiert und habe mir da ein Transkriptions-Tool selber gebaut, wo eben die YouTube-Videos, die ich mache, direkt reinwandern und dann automatisch transkribiert werden.
Das sind zwei unterschiedliche Use-Cases und deshalb zwei unterschiedliche Tools. OpenWhispr ist für den Moment, in dem ich jetzt, sofort, per Hotkey einen Satz in eine App diktieren will. Mein Claude-Code-Tool (läuft unter `~/Projects/transcribe/` mit faster-whisper, Apple-Silicon-optimiert) ist für Batch-Jobs über Nacht, wenn ich zum Beispiel 20 YouTube-Videos auf einmal transkribieren will.
Die Pipeline bei mir: Ich nehme ein YouTube-Video auf. Am Ende des Drehs landet die Datei im Transkriptions-Ordner. Claude Code erkennt die neue Datei, transkribiert mit Large-v3 (für Batch-Jobs lohnt sich die höchste Qualität, Zeit ist ja egal). Danach geht das Transkript in einen zweiten Schritt, der daraus Blog-Artikel, Newsletter und Social-Posts baut. Mit einem gut personalisierten ChatGPT oder Claude geht das erstaunlich sauber.
Wer sich das nicht selbst bauen will oder nicht in Claude Code unterwegs ist, für den ist OpenWhispr die No-Code-Variante davon. Du ziehst einfach eine Audio-Datei in das Transkriptions-Fenster, wählst dein Modell, klickst auf Start und bekommst den Text zurück. Auch dafür gehen die OpenAI-Whisper-Modelle im Hintergrund durch. Wenn du daraus anschließend ein durchsuchbares Wissenssystem bauen willst, ist der NotebookLM-Workflow der logische nächste Schritt.
Fazit: Für wen OpenWhispr die richtige Wahl ist
OpenWhispr ist für mich die ehrlichste Diktier-Lösung auf dem Mac im Jahr 2026. Kostenlos, Open Source, lokal, aktiv entwickelt. Die Qualität mit Small- oder Medium-Modell reicht für 95 Prozent dessen, was ich jeden Tag diktiere. Und das Abo-Geld, das ich spare, fließt in bessere Sachen.
Für wen es passt:
- Solopreneure, die oft E-Mails, Notizen oder Rohtexte diktieren und das Abo-Geld sparen wollen
- Coaches, Therapeuten, Anwälte, Steuerberater mit echtem DSGVO-Bedarf
- Content-Creator, die Audio- und Video-Dateien auch mal manuell durch eine GUI schicken wollen
- Alle, die ein M1- oder M2-MacBook haben und einfach mal ausprobieren wollen, wie gut lokale KI 2026 geworden ist
Für wen es nicht passt. Wer eine iPhone-Integration braucht, ist mit Whisper Notes oder Wispr Flow besser bedient. Wer ausschließlich fertige Audio-Dateien transkribiert und dabei ein poliertes UI will, greift zu MacWhisper. Wer ein altes Intel-MacBook mit 8 GB RAM hat, sollte ehrlich mit sich sein und eher die Cloud-Variante nehmen oder gleich einen neuen Rechner. Und wer sich an Open-Source-Setup null beteiligen mag, für den ist vielleicht Superwhisper mit seinem extrem polierten Erlebnis die entspanntere Wahl.
Meine persönliche Note zum Tool: ehrliche 8 von 10. Abzug gibt es für das noch etwas raue UI an ein paar Stellen und den Agent-Modus, der noch nach Alpha-Stadium aussieht. Dafür ist der Preis halt unschlagbar.
KI ist nicht magisch. KI ist ein Werkzeug. Ein gutes, günstiges, lokales Werkzeug ist ein riesiger Vorsprung. Und wenn du wissen willst, wie ich mit genau solchen Werkzeugen seit über zehn Jahren ein Online-Business bei mir zuhause laufen lasse: Ich hab dir meinen kostenlosen POD-Kurs gemacht, drei Videos, null Verpflichtung. Da zeige ich dir, wie du aus KI-Tools echtes Einkommen machst statt nur Spielkram.


