Building My AI Content Pipeline: From Rambling to Published in 12 Languages

Meine KI-Content-Pipeline aufbauen: Vom Herumreden zur Veröffentlichung in 12 Sprachen

Ich habe diese Pipeline gestern Abend fertiggestellt und bin wirklich stolz darauf. Drei KI-Modelle, ein Telegram-Bot, lokale Spracherkennung und eine Übersetzungsschicht – alles, um ein wackeliges 10-minütiges Telefon-Monolog in einen polierten Blogbeitrag in 12 Sprachen zu verwandeln. Die meisten würden das als übertechnisiert bezeichnen. Ich nenne es den einzigen Weg, mich tatsächlich dazu zu bringen, regelmäßig zu veröffentlichen.

Das Problem: Ich bin noch keine YouTube-Persönlichkeit

Mein Gehirn arbeitet vor der Kamera nicht schnell. Ich bin nicht einer dieser Menschen, die einfach natürlich vor einem Publikum improvisieren können. Also filme ich mich stattdessen dabei, wie ich etwa 10 Minuten lang langsam in mein Telefon spreche – herumredend, stockend, laut denkend. Es ist nicht schön. Aber es ist authentisch, und das ist der Teil, der zählt.

Die Rohheit ist der Ort, an dem das echte Denken stattfindet. Ungeplante, ungeschliffene erste Gedanken enthalten oft die ehrlichsten Einsichten. Das Problem ist, dass niemand ein Transkript von jemandem lesen möchte, der laut denkt. Also habe ich ein System gebaut, das die Authentizität bewahrt und das Durcheinander entfernt.

Die Pipeline: Was tatsächlich passiert

Ich habe ein Python-Skript geschrieben, das Audio aus meinem Handy-Video als M4A-Datei extrahiert. Diese wird an einen Telegram-Bot hochgeladen, den ich gebaut habe und auf meinem VPS hoste. Telegram ist zu meinem Automatisierungs-Hub geworden – es empfängt die Datei, lädt sie herunter und führt sie durch Whisper, OpenAIs Open-Source-Spracherkennungsmodell, das lokal läuft. Heraus kommt ein rohes Transkript.

Dieses Transkript durchläuft eine vierstufige KI-Pipeline, wobei jede Stufe durch meine Zustimmung in Telegram geschützt ist:

Stufe 1 – Claude entwirft. Das rohe Transkript erreicht zuerst Claude. Die Aufforderung bittet darum, einen ansprechenden Blogbeitrag in meiner Stimme zu schreiben – locker, ehrlich, technisch fundiert. Es fügt Struktur und Fluss hinzu und extrahiert die Kernideen. Ich erhalte einen Vorschau-Link und zwei Buttons: Genehmigen oder Bearbeiten.

Stufe 2 – DeepSeek hinterfragt. Wenn ich zustimme, erhält DeepSeek den Claude-Entwurf und zerpflückt ihn. Die Aufforderung verlangt nach Faktenprüfung, zusätzlicher technischer Tiefe und einer leicht konträren analytischen Perspektive – während die persönliche Geschichte erhalten bleibt. DeepSeek ist überraschend gut darin. Es widerspricht dort, wo Claude zu zustimmend war.

Stufe 3 – Claude synthetisiert. Claude erhält beide Entwürfe und führt sie zusammen. Persönliche Stimme aus der Claude-Version, technische Tiefe aus der DeepSeek-Version. Dies ist der endgültige Beitrag. Noch eine Genehmigungsschwelle, bevor etwas live geht.

Veröffentlichen – DeepSeek übersetzt. Wenn ich auf Veröffentlichen klicke, übersetzt DeepSeek das endgültige HTML in 12 Sprachen und bewahrt dabei die gesamte Formatierung. Jede Übersetzung erhält eine eigene Seite im Blog mit einem Sprachauswähler, einer Abonnenten-Fußzeile und integrierten Affiliate-Links.

Warum drei Modelle statt einem

Weil jedes Modell eine andere Fehlerart hat. Claude schreibt wunderschön, kann aber zu zustimmend sein – es wird Ihre schlechte Idee polieren, bis sie überzeugend klingt. DeepSeek ist analytischer und hinterfragt Annahmen, kann aber die persönliche Stimme verlieren. Die sequentielle Nutzung schafft ein System von Kontrolle und Gegengewicht.

Die wahre Magie geschieht in Stufe 3, wenn Claude beide Perspektiven synthetisiert. Es ist wie ein guter Redakteur, der weiß, wann er die Persönlichkeit beibehält und wann er die Strenge hinzufügt.

Was herauskommt

Eine 10-minütige Herumred-Sitzung wird zu einem 900-Wörter-Beitrag, der sich so liest, als hätte ich Stunden daran gearbeitet. Noch wichtiger ist, dass es sich nach mir anhört – nicht nach einem generischen KI-Blogbeitrag – weil das Ausgangsmaterial wirklich mein ungefiltertes Denken ist und die Aufforderungen darauf abgestimmt sind, diese Stimme zu bewahren.

Die 12-sprachige Veröffentlichung bedeutet, dass jeder Beitrag Zielgruppen erreicht, die ich niemals erreichen würde, wenn ich nur auf Englisch schreibe, und das ohne zusätzlichen Aufwand meinerseits.

Der eigentliche Punkt

Dieses System optimiert auf das Richtige – es beseitigt alle Reibung bei dem Teil, der wirklich zählt, nämlich dem Denken. Wenn ich weiß, dass die Pipeline alles Weitere übernimmt, höre ich auf, mir Gedanken darüber zu machen, wie ich klinge, und denke einfach laut nach. Das ist der ganze Sinn.

codebuddy.tech