بناء خط أنابيب المحتوى بالذكاء الاصطناعي: من التمتمة إلى النشر بـ 12 لغة
أنهيت هذا الخط الليلة الماضية، وأنا فخور به حقًا. ثلاثة نماذج ذكاء اصطناعي، وبوت تيليجرام، وتعرف على الكلام محلي، وطبقة ترجمة — كل ذلك لتحويل مونولوج هاتفي مهتز مدته 10 دقائق إلى تدوينة مصقولة منشورة بـ 12 لغة. معظم الناس سيعتبرون هذا إفراطًا في الهندسة. أنا أعتبره الطريقة الوحيدة التي جعلتني أنشر باستمرار.
المشكلة: لست يوتيوبر بعد
عقلي لا يعمل بسرعة أمام الكاميرا. لست من أولئك الذين يمكنهم الارتجال بسهولة أمام الجمهور. لذا بدلاً من ذلك، أصور نفسي وأنا أتحدث ببطء لمدة 10 دقائق على هاتفي — أتمتم، أتوقف مؤقتًا، أفكر بصوت عالٍ. ليس جميلًا. لكنه أصيل، وهذا هو الجزء المهم.
الخشونة هي المكان الذي تعيش فيه الأفكار الحقيقية. الأفكار الأولى غير المكتوبة وغير المصقولة غالبًا ما تحتوي على أكثر الرؤى صدقًا. المشكلة هي أن لا أحد يريد قراءة نص لشخص يفكر بصوت عالٍ. لذا بنيت نظامًا يحافظ على الأصالة ويزيل الفوضى.
الخط: ما يحدث فعليًا
كتبت سكربت بايثون يستخرج الصوت من فيديو هاتفي كملف M4A. يُرفع ذلك إلى بوت تيليجرام بنيته وأستضيفه على خادمي الافتراضي الخاص. أصبح تيليجرام مركز الأتمتة الخاص بي — يستقبل الملف، ينزله، ويشغله عبر Whisper، نموذج تحويل الكلام إلى نص مفتوح المصدر من OpenAI، والذي يعمل محليًا. يخرج نص خام.
يذهب ذلك النص إلى خط أنابيب ذكاء اصطناعي من أربع مراحل، كل مرحلة مقيدة بموافقتي عبر تيليجرام:
المرحلة 1 — كلود يصيغ. يصل النص الخام إلى كلود أولاً. يطلب البرنامج كتابة تدوينة جذابة بصوتي — غير رسمية، صادقة، قائمة على التقنية. يضيف هيكلًا وتدفقًا ويستخرج الأفكار الرئيسية. أحصل على رابط معاينة وزرين: موافقة أو تعديل.
المرحلة 2 — ديب سيك يتحدى. إذا وافقت، يحصل ديب سيك على مسودة كلود ويمزقها. يطلب البرنامج التحقق من الحقائق، إضافة عمق تقني، ومنظور تحليلي معارض قليلاً — مع الحفاظ على القصة الشخصية. ديب سيك جيد بشكل مدهش في هذا. يعترض حيث كان كلود متوافقًا جدًا.
المرحلة 3 — كلود يدمج. يحصل كلود على كلتا المسودتين ويدمجهما. الصوت الشخصي من نسخة كلود، والعمق التقني من نسخة ديب سيك. هذه هي التدوينة النهائية. بوابة موافقة أخرى قبل نشر أي شيء.
النشر — ديب سيك يترجم. عندما أضغط نشر، يترجم ديب سيك HTML النهائي إلى 12 لغة، محافظًا على كل التنسيقات. تحصل كل ترجمة على صفحتها الخاصة في المدونة مع محدد لغة، تذييل مشترك، وروابط تابعة مدمجة.
لماذا ثلاثة نماذج بدلاً من واحد
لأن لكل نموذج نمط فشل مختلف. كلود يكتب بشكل جميل لكنه قد يكون متوافقًا جدًا — سوف يصقل فكرتك السيئة حتى تبدو مقنعة. ديب سيك أكثر تحليلاً ويتحدى الافتراضات، لكنه قد يفقد الصوت الشخصي. استخدامها بالتسلسل يخلق نظامًا من الضوابط والتوازنات.
السحر الحقيقي يحدث في المرحلة 3، حيث يدمج كلود كلا المنظورين. إنه مثل وجود محرر جيد يعرف متى يحتفظ بالشخصية ومتى يضيف الدقة.
ما يخرج
جلسة تمتمة مدتها 10 دقائق تتحول إلى تدوينة من 900 كلمة تبدو وكأنني قضيت ساعات عليها. الأهم من ذلك، أنها تبدو مثلي — وليس كتدوينة ذكاء اصطناعي عامة — لأن المادة المصدر هي تفكيري غير المصفى حقًا والبرامج مضبوطة للحفاظ على ذلك الصوت.
النشر بـ 12 لغة يعني أن كل تدوينة تصل إلى جماهير لم أكن لأصل إليها أبدًا بالكتابة بالإنجليزية فقط، مع جهد إضافي صفري من جانبي.
النقطة الحقيقية
يحسن هذا النظام الشيء الصحيح — يزيل كل الاحتكاك من الجزء المهم فعليًا، وهو التفكير. عندما أعلم أن خط الأنابيب يتعامل مع كل شيء في المراحل اللاحقة، أتوقف عن القلق بشأن كيف أبدو وأفكر بصوت عالٍ فقط. هذا هو الهدف كله.
Get new posts
Subscribe in your language
New posts delivered to your inbox. Unsubscribe anytime.
Receive in: