构建我的AI内容管道:从语无伦次到用12种语言发布
昨晚我完成了这个管道,真心为之自豪。三个AI模型、一个Telegram机器人、本地语音识别以及一个翻译层——将一段断断续续的10分钟手机独白变成一篇精美的博客文章,并以12种语言发布。大多数人会说这设计过度了。而我会说,这是唯一能让我持续发布内容的方法。
问题:我还不像个YouTube博主
我在镜头前思维不够敏捷。我不是那种能对着观众即兴发挥的人。所以我改用手机慢慢录10分钟——絮絮叨叨、停顿、边想边说。这并不好看。但很真实,这才是重点。
那些粗糙的部分正是真实思考所在。未经脚本修饰的第一想法往往包含着最诚实的见解。问题在于没人愿意阅读某人边想边说的转录稿。所以我构建了一个系统,保留真实性,同时去掉混乱。
管道:实际发生了什么
我写了一个Python脚本,从手机视频中提取音频为M4A文件。这个文件上传到我构建并托管在VPS上的Telegram机器人。Telegram已成为我的自动化中心——它接收文件、下载并运行Whisper(OpenAI的开源语音转文本模型,本地运行)。输出原始转录稿。
这份转录稿进入一个四阶段AI管道,每个阶段都需要我在Telegram中点击批准才能继续:
第一阶段——Claude起草。原始转录首先交给Claude。提示要求它用我的风格写一篇引人入胜的博客文章——轻松、诚恳、有技术底蕴。它添加结构、理顺逻辑,并提炼出关键观点。我会收到一个预览链接和两个按钮:批准或编辑。
第二阶段——DeepSeek质疑。如果我批准,DeepSeek会拿到Claude的草稿并进行深入分析。提示要求进行事实核查、增加技术深度,并提供略带反讽的分析视角——同时保留个人故事。DeepSeek在这方面出奇地擅长。它会反驳Claude过于附和的地方。
第三阶段——Claude综合。Claude拿到两份草稿并合并它们。保留Claude版本的个人风格和DeepSeek版本的技术深度。这就是最终文章。在发布前再多一层批准环节。
发布——DeepSeek翻译。当我点击发布时,DeepSeek将最终HTML翻译成12种语言,保留所有格式。每种翻译在博客上都有自己的页面,包含语言选择器、订阅页脚和内置联盟链接。
为什么用三个模型而不是一个
因为每个模型有不同的失败模式。Claude文笔优美但过于附和——它会把你的坏主意打磨得听起来很有说服力。DeepSeek更具分析性且挑战假设,但可能会丢失个人风格。按顺序使用它们创建了一个制衡系统。
真正的魔法发生在第三阶段,Claude综合两种视角。就像有一个优秀的编辑,知道何时保留个性、何时增加严谨性。
最终产出
一段10分钟的絮叨变成一篇900字的文章,读起来像是我花了几小时写成的。更重要的是,它听起来像我——不像普通的AI博客文章——因为源材料是我真正未经筛选的思考,且提示经过调优以保留那种风格。
12种语言部署意味着每篇文章都能触及我仅用英文写作时永远接触不到的受众,而且我无需额外费心。
真正的要点
这个系统优化了正确的事情——它消除了真正重要环节(即思考)中的所有摩擦。当我知道管道处理了所有后续工作,我就不再担心自己听起来如何,而只是边想边说。这才是关键所在。
Get new posts
Subscribe in your language
New posts delivered to your inbox. Unsubscribe anytime.
Receive in: