AIコンテンツパイプラインの構築:つぶやきから12言語での公開まで
昨夜このパイプラインを完成させ、本当に誇りに思っている。3つのAIモデル、Telegramボット、ローカル音声認識、翻訳レイヤー。これらすべては、スマホでの10分間の不安定な独り言を、洗練されたブログ記事に変え、12言語で公開するためのものだ。ほとんどの人はこれを過剰設計と呼ぶだろう。私はこれを、一貫して公開し続けるための唯一の方法と呼ぶ。
問題:私はまだYouTubeパーソナリティではない
カメラの前では頭がすぐに回らない。聴衆の前で自然に即興を繰り出せるような人間ではない。だから代わりに、スマホで約10分間、ゆっくり話す自分を撮影する——とりとめなく、途切れ途切れに、声に出して考えながら。見た目は良くない。しかし、それは本物であり、それが重要な部分だ。
生の状態こそ、本当の思考が宿っている。台本のない、洗練されていない最初の考えには、しばしば最も誠実な洞察が含まれている。問題は、誰も誰かが声に出して考えた文字起こしを読みたくないことだ。そこで私は、本物らしさを保ちながら乱雑さを取り除くシステムを構築した。
パイプライン:実際の流れ
Pythonスクリプトを書き、スマホの動画から音声をM4Aファイルとして抽出する。それを、私がVPS上で構築・ホストしているTelegramボットにアップロードする。Telegramは自動化のハブとなっている——ファイルを受信し、ダウンロードし、Whisper(OpenAIのオープンソース音声認識モデル、ローカルで動作)に通す。生の文字起こしが出力される。
その文字起こしは4段階のAIパイプラインに入る。各段階はTelegramでの私の承認によってゲートが制御される:
ステージ1—Claudeが下書き。 生の文字起こしが最初にClaudeに入る。プロンプトは、私の声で魅力的なブログ記事を書くように指示する——カジュアルで、誠実で、技術的に根拠のあるもの。構造と流れを追加し、主要なアイデアを引き出す。プレビューリンクと2つのボタン(承認または編集)が表示される。
ステージ2—DeepSeekが挑戦。 承認すると、DeepSeekがClaudeの下書きを受け取り、徹底的に分析する。プロンプトは、事実確認、技術的深度の追加、やや逆説的な分析視点を求めつつ、個人のストーリーを保持するよう指示する。DeepSeekはこれが驚くほど得意で、Claudeが同意しすぎた部分に反論する。
ステージ3—Claudeが統合。 Claudeが両方の下書きを受け取り、統合する。Claude版からの個人的な声、DeepSeek版からの技術的深度。これが最終的な記事となる。公開前にさらに1つの承認ゲートがある。
公開—DeepSeekが翻訳。 公開ボタンを押すと、DeepSeekが最終HTMLを12言語に翻訳し、すべての書式を保持する。各翻訳はブログ上で独自のページを持ち、言語セレクター、購読者フッター、アフィリエイトリンクが組み込まれる。
なぜ1つではなく3つのモデルを使うのか
各モデルには異なる欠陥の仕方があるからだ。Claudeは美しく書くが、同意しすぎることがある——悪いアイデアを説得力があるように磨き上げる。DeepSeekはより分析的で前提に挑戦するが、個人的な声を失う可能性がある。順番に使うことで、相互チェックとバランスのシステムが生まれる。
本当の魔法はステージ3で起こる。Claudeが両方の視点を統合する。それは、いつ個性を残し、いつ厳密さを追加すべきかを知っている優秀な編集者がいるようなものだ。
出力されるもの
10分間のとりとめのないセッションが、何時間もかけて書いたように読める900語の記事になる。さらに重要なことに、それは私らしく聞こえる——ありきたりなAIブログ記事ではなく——なぜならソース素材は本当にフィルターなしの私の思考であり、プロンプトはその声を保存するように調整されているからだ。
12言語への展開により、すべての記事は英語だけで書いていたら決して届かなかった読者に届き、私の追加の努力はゼロだ。
本当のポイント
このシステムは正しいことに最適化されている——実際に重要な部分である思考からすべての摩擦を取り除く。パイプラインが後続のすべてを処理してくれると分かれば、自分の話し方について心配するのをやめて、ただ声に出して考えるだけだ。それがすべてのポイントだ。
Get new posts
Subscribe in your language
New posts delivered to your inbox. Unsubscribe anytime.
Receive in: