إليك كيف تستفيد من ميزة التفاعل الصوتي في الإصدار الجديد من تشات جي بي تي

أطلقت شركة أوبن أيه آي (OpenAI) بوت دردشة متطوراً يعتمد على الذكاء الاصطناعي ويمكنك أن تتحدث إليه، وهو متاح حالياً بالنسبة إلى عدد محدود من المستخدمين على الأقل.

يمثّل بوت الدردشة الجديد توجهاً من أوبن أيه آي نحو جيلٍ جديدٍ من المساعدات الصوتية التي تعمل بالذكاء الاصطناعي، على غرار سيري (Siri) وأليكسا (Alexa)، لكن بقدراتٍ أكبر بكثير وتُتيح إجراء محادثات أكثر سلاسة وطبيعية بدرجة أكبر. ويمثّل هذا خطوة في مسيرة الجهود الساعية نحو بناء وكلاء ذكاء اصطناعي (AI agents) تتمتّع بقدراتٍ أكبر وأشمل.

يستطيع بوت تشات جي بي تي الجديد للدردشة الصوتية أن يميّز معنى النبرات المختلفة للصوت، ويستجيب للمقاطعات، كما يمكنه الرد على الأسئلة في الزمن الحقيقي. أيضاً تدرب بوت الدردشة هذا على الكلام ليبدو طبيعياً بدرجة أكبر، ويستخدم أصواتاً تعبّر عن نطاقٍ واسع من المشاعر المختلفة.

تشغيل الوضع الصوتي

تشغيل الوضع الصوتي يعتمد على نموذج جي بي تي 4 أو (GPT-4o) الجديد من أوبن أيه آي، الذي يجمع بين الإمكانات الصوتية والنصية والمرئية. قررت الشركة أن تطلق بوت الدردشة في المرحلة الأولى على نطاق "مجموعة صغيرة من المستخدمين" المشتركين في خدمة تشات جي بي تي بلس المدفوعة لجمع ملاحظاتهم، وتقول إنها ستُتيح البوت لمشتركي تشات جي بي تي بلس جميعهم هذا الخريف. يكلف الاشتراك في تشات جي بي تي بلس 20 دولاراً في الشهر. تقول أوبن أيه آي إنها ستُعلِم العملاء الذين يشكّلون جزءاً من موجة الطرح الأولى للخدمة ضمن تطبيق تشات جي بي تي، وتزودهم بالإرشادات التي توضح كيفية استخدام النموذج الجديد.

أطلقت الشركة الميزة الصوتية الجديدة، التي أعلنت عنها في مايو/أيار، بعد شهر من الموعد الذي كان مقرراً وفق خطتها لأنها، كما قالت، في حاجة إلى المزيد من الوقت لتحسين ميزات الأمان، مثل قدرة النموذج على كشف المحتوى غير المرغوب فيه ورفضه. قالت الشركة أيضاً إنها كانت تجهز بنيتها التحتية لتقديم إجابات (النموذج) في الزمن الحقيقي لملايين المستخدمين.

آليات أمان عدة

تقول أوبن أيه آي إنها اختبرت القدرات الصوتية للنموذج مع أكثر من 100 شخص من خارج الشركة من أعضاء الفرق الحمراء، وهم مختصون بسبر النموذج للبحث عن العيوب والأخطاء. كان هؤلاء الأفراد الذين أجروا الاختبارات يتحدثون بأكثر من 45 لغة ويمثّلون 29 دولة، وفقاً لأوبن أيه آي.

تقول الشركة إنها وضعت آليات أمان عدة موضع التطبيق. وفي خطوة تهدف إلى منع استخدام النموذج لإنتاج المزيفات العميقة، أنتجت أوبن أيه آي أربعة أصوات محددة مسبقاً ضمن النموذج، وذلك بالتعاون مع ممثلين صوتيين. لن يقلد جي بي تي 4 أو أصوات أشخاص آخرين أو يولدها.

عندما أعلنت أوبن أيه آي عن جي بي تي 4 أو للمرة الأولى، واجهت موجة من ردود الفعل السلبية بسبب استخدامها صوتاً يحمل اسم "سكاي" (Sky)، حيث كان يشبه صوت الممثلة سكارليت جوهانسون كثيراً. وقد أصدرت جوهانسون بياناً قالت فيه إن الشركة تواصلت معها للحصول على إذنها باستخدام صوتها في النموذج، غير أنها رفضت الطلب. وقالت إنها شعرت بالصدمة عندما سمعت صوتاً "مشابهاً إلى درجة مخيفة" لصوتها في العرض التوضيحي للنموذج. أنكرت أوبن أيه آي أن هذا الصوت هو صوت جوهانسون، غير أنها أوقفت استخدام سكاي مؤقتاً.

أيضاً، تخوض الشركة معارك قانونية عدة بسبب مزاعم بانتهاكها حقوق التأليف والنشر. تقول أوبن أيه آي إنها اعتمدت فلاتر قادرة على التعرف إلى طلبات توليد الموسيقى أو غير ذلك من الأصوات المحمية بموجب حقوق التأليف والنشر، وحظر هذه الطلبات. تقول أوبن أيه آي أيضاً إنها طبقت آليات الأمان نفسها التي تستخدمها في نموذجها النصي على نموذج جي بي تي 4 أو، وذلك لمنعه من مخالفة القوانين وتوليد المحتوى الضار.

يمكن القول في نهاية المطاف، إن أوبن أيه آي تخطط لإضافة المزيد من الميزات المتقدمة، مثل مشاركة الفيديو والشاشة، ما يمكن أن يجعل المساعد أكثر فائدة. خلال العرض التوضيحي الذي نظمته الشركة في مايو/أيار، وجّه موظفوها كاميرات هواتفهم نحو ورقة، وطلبوا من نموذج الذكاء الاصطناعي أن يساعدهم على حل معادلات رياضية، كما شاركوا شاشات أجهزة الكمبيوتر التي تخصهم، وطلبوا من النموذج أن يساعدهم على حل مسائل تتعلق بالبرمجة. تقول أوبن أيه آي إن هذه الميزات لن تكون متاحة في الوقت الحالي، لكنها ستصبح متاحة في وقتٍ لاحق لم تحدده بعد.