Building My AI Content Pipeline: From Rambling to Published in 12 Languages

Budowa mojego potoku treści AI: Od chaotycznego gadania do publikacji w 12 językach

Skończyłem budowę tego potoku ostatniej nocy i jestem z niego autentycznie dumny. Trzy modele AI, bot Telegram, lokalne rozpoznawanie mowy i warstwa tłumaczeniowa – wszystko po to, by zamienić trzęsący się, 10-minutowy monolog z telefonu w dopracowany wpis blogowy opublikowany w 12 językach. Większość uznałaby to za przeszarżowanie. Ja nazywam to jedynym sposobem, by faktycznie zmusić się do regularnego publikowania.

Problem: Nie jestem jeszcze youtuberem

Mój mózg nie pracuje szybko przed kamerą. Nie należę do osób, które potrafią swobodnie nawijać przed publicznością. Zamiast tego nagrywam się, jak mówię powoli przez około 10 minut na telefon – gubię wątek, zawieszam się, myślę na głos. To nie jest ładne. Ale jest autentyczne i to się liczy.

Surowość jest tam, gdzie odbywa się prawdziwe myślenie. Nieszablonowe, nieoszlifowane pierwsze przemyślenia często zawierają najszczersze spostrzeżenia. Problem polega na tym, że nikt nie chce czytać transkrypcji z czyjegoś myślenia na głos. Zbudowałem więc system, który zachowuje autentyczność, a usuwa bałagan.

Potok: Co się faktycznie dzieje

Napisałem skrypt w Pythonie, który wyodrębnia dźwięk z mojego nagrania wideo z telefonu jako plik M4A. Trafia on do bota Telegram, którego zbudowałem i hostuję na moim VPS. Telegram stał się moim centrum automatyzacji – odbiera plik, pobiera go i przepuszcza przez Whisper, otwartoźródłowy model mowy na tekst od OpenAI, działający lokalnie. Na wyjściu otrzymuję surowy transkrypt.

Ten transkrypt trafia do czteroetapowego potoku AI, gdzie każdy etap wymaga mojej zgody w Telegramie:

Etap 1 – Claude sporządza szkic. Surowy transkrypt trafia najpierw do Claude. Prompt każe napisać angażujący wpis blogowy w moim stylu – swobodny, szczery, technicznie ugruntowany. Dodaje strukturę i płynność oraz wydobywa kluczowe idee. Otrzymuję podgląd i dwa przyciski: Zatwierdź lub Edytuj.

Etap 2 – DeepSeek podważa. Jeśli zatwierdzę, DeepSeek dostaje szkic Claude’a i rozbiera go na części. Prompt każe sprawdzić fakty, dodać głębię techniczną i nieco kontrariańską perspektywę analityczną – zachowując przy tym osobistą historię. DeepSeek jest w tym zaskakująco dobry. Podważa tam, gdzie Claude był zbyt ugodowy.

Etap 3 – Claude syntetyzuje. Claude dostaje oba szkice i scala je. Osobisty głos z wersji Claude’a, techniczna głębia z wersji DeepSeeka. To jest finalny wpis. Kolejna brama zatwierdzenia, zanim cokolwiek trafi na żywo.

Publikacja – DeepSeek tłumaczy. Kiedy naciskam publikuj, DeepSeek tłumaczy końcowy HTML na 12 języków, zachowując całe formatowanie. Każde tłumaczenie otrzymuje własną stronę na blogu z selektorem języków, stopką subskrypcyjną i wbudowanymi linkami afiliacyjnymi.

Dlaczego trzy modele zamiast jednego

Ponieważ każdy model ma inny tryb awarii. Claude pisze pięknie, ale bywa zbyt ugodowy – wygładzi twój zły pomysł, aż zabrzmi przekonująco. DeepSeek jest bardziej analityczny i kwestionuje założenia, ale może stracić osobisty głos. Użycie ich sekwencyjnie tworzy system kontroli i równowagi.

Prawdziwa magia dzieje się w etapie 3, gdzie Claude syntetyzuje obie perspektywy. To jak dobry redaktor, który wie, kiedy zachować osobowość, a kiedy dodać rygor.

Co wychodzi

10-minutowa chaotyczna sesja zamienia się w 900-słowny wpis, który brzmi, jakbym spędził nad nim godziny. Co ważniejsze, brzmi jak ja – a nie jak generyczny wpis AI – ponieważ materiał źródłowy to autentyczne, niefiltrowane myślenie, a prompty są dostrojone, by zachować ten głos.

Wdrożenie w 12 językach oznacza, że każdy wpis trafia do odbiorców, których nigdy bym nie osiągnął, pisząc tylko po angielsku – bez żadnego dodatkowego wysiłku z mojej strony.

Prawdziwy sens

Ten system optymalizuje pod kątem właściwej rzeczy – usuwa całe tarcie z tego, co faktycznie się liczy, czyli myślenia. Kiedy wiem, że potok obsługuje wszystko dalej, przestaję martwić się, jak brzmię, i po prostu myślę na głos. O to chodzi.

codebuddy.tech