أدوات وطرق عملية للتمييز بين الأصوات البشرية والأصوات المولَّدة بالذكاء الاصطناعي

حقوق الصورة: shutterstock.com/Stock-Asso

استمع الى المقالة الآن هذه الخدمة تجريبية

تواجه الأذن البشرية التي تعتبر قاضياً موثوقاً للحقيقة المسموعة تحدياً جديداً اليوم، ففي هذا العصر الرقمي المتسارع والمتطور، حتى الصوت لم يعد محصناً ضد اللمسة المتلاعبة للذكاء الاصطناعي، حيث أصبحت الأصوات المولَّدة بالذكاء الاصطناعي، بدءاً من الأصوات البشرية المقلدة إلى الأغاني الموسيقية التي ألّفتها الخوارزميات، منتشرة بشكلٍ متزايد، فكيف يمكننا -نحن المستمعين- أن نميّز بين الصوت الناتج عن الإنسان والأصوات التي ينشئها الذكاء الاصطناعي؟

نمو العمليات الاحتيالية التي تستخدم تكنولوجيا الأصوات المولَّدة بالذكاء الاصطناعي

تخيل السيناريو التالي: تجلس منهمكاً في أداء مهامك الوظيفية في المكتب، يرن جرس الهاتف فجأة ترفع السماعة لتسمع صوت مديرك المباشر يخبرك مذعوراً أنه نسي تحويل الأموال إلى المقاول الجديد، ويحتاج إليك للقيام بهذه المهمة بشكلٍ عاجل، مع إعطائك تفاصيل الحساب البنكي للمقاول.

ومع تحويلك الأموال، تتنهد بارتياح لمساهمتك في تجنب حدوث أزمة كبيرة للشركة، وبينما تجلس مسترخياً، تشاهد مديرك وهو يدخل إلى مقر الشركة لتكتشف لاحقاً أنك تعرضت إلى عملية خداع احترافية، حيث إن الصوت الذي سمعته على الطرف الآخر في الواقع لم يكن صوت مديرك، بل لم يكن حتى صوتاً بشرياً، إنما هو عبارة عن عينة صوتية أُنشِئت آلياً وصُمِمت باحترافية باستخدام تكنولوجيا الذكاء الاصطناعي لتبدو تماماً مثل صوت مديرك.

السيناريو السابق ليس من نسج الخيال، لكنه أحداث حقيقية حدثت وإن اختلفت التفاصيل، تمكن خلالها مجرمو الإنترنت من إنشاء أصوات تبدو شبه حقيقية باستخدام تكنولوجيا الذكاء الاصطناعي لخداع ضحاياهم الذين من الممكن أن يكونوا أشخاصاً عاديين أو حتى مؤسسات كبرى، بغرض الحصول على الأموال أو الوصول إلى معلومات حساسة وشخصية.

وعلى الرغم من أن هذا النوع من الجرائم الإلكترونية، والتي يُطلق عليها التزييف العميق للصوت (Voice DeepFake)، لا تزال جديدة نسبياً، فإنها شهدت انتشاراً كبيراً في السنوات الأخيرة، خاصة مع الطفرة المتسارعة التي شهدتها تكنولوجيا الذكاء الاصطناعي التوليدي، والتوافر الواسع للمقاطع الصوتية والتسجيلات التي يوفّرها المستخدمون عبر مواقع الإنترنت المختلفة مثل منصات التواصل الاجتماعي ويوتيوب، فقد خلق هذا التوافر الكبير للمحتوى الصوتي بيئة مثالية لتنامي عمليات تزييف الصوت العميق أو الأصوات المولَّدة بالذكاء الاصطناعي.

وفقاً لشركة أبحاث الأمن السيبراني تشيك بوينت (Chick Point)، فإن عمليات الاحتيال القائمة على الذكاء الاصطناعي شهدت زيادة كبيرة عام 2023، بينما يذكر مركز شكاوى جرائم الإنترنت التابع لمكتب التحقيقات الفيدرالي الأميركي أن عمليات الاحتيال التي تستخدم المكالمات الهاتفية والتسجيلات الصوتية المُعِدّة سابقاً، كلفت جيوب الأميركيين أكثر من 10 مليارات دولار عام 2022، وهو الرقم الأعلى منذ خمس سنوات.

تطور تكنولوجيا التعلم الآلي أسهم في انتشار الأصوات المولَّدة بالذكاء الاصطناعي

حتى وقت قريب لم يكن إنشاء الأصوات المولَّدة بالذكاء الاصطناعي ممكناً إلّا مع ظهور وانتشار تطبيقات تكنولوجيا التعلم الآلي وتطورها، ومن المحتمل أن تشكّل الأصوات المولَّدة بالذكاء الاصطناعي تهديداً أكبر في السنوات القادمة، لأن الأشخاص غالباً ما يتواصلون صوتياً بدون فيديو، سواء عبر المكالمات الهاتفية أو التسجيلات الصوتية التي تعمل على توسيع إمكانات مجرمي الإنترنت والمحتالين في استخدام هذه الوسيلة للإيقاع بضحاياهم بشكلٍ كبير.

بالإضافة إلى ذلك، ومع انتشار أدوات استنساخ الصوت المدعومة بالذكاء الاصطناعي، من المتوقع أن يستخدم مجرمو الإنترنت طرقاً أكثر ابتكاراً لإنشاء أصوات بشرية مزيفة تتطابق مع صوت شخص تعرفه فعلاً. علاوة على ذلك، تُتيح الأدوات المدعومة بالذكاء الاصطناعي للمحتالين الاستجابة في الوقت الفعلي في أثناء كتابة الجمل في تطبيقات توليد الأصوات التي يستخدمونها، بل إن بعض المحتالين يذهبون إلى حد البحث عن معلومات شخصية حول الضحية لجعل المكالمة الهاتفية أو الرسالة الصوتية المسجلة أكثر قابلية للتصديق.

كل ما يحتاج المحتال إليه هو مقطع صوتي بطول 3 ثوانٍ فقط، بينما سيكون طول 10 ثوانٍ هو أفضل ما يحتاج إليه لتوليد نسخة صوتية واقعية جداً للضحية المستهدفة، ثم بعد ذلك يشغّل العينة الصوتية من خلال تطبيق الذكاء الاصطناعي الذي يكرر الصوت، ما يسمح للمحتال بجعله يقول ما يكتبه، بالإضافة إلى إمكانية إضافة المشاعر مثل الضحك والخوف إلى الصوت المستنسخ اعتماداً على السيناريو الذي يريد المحتال تنفيذه.

الأصوات المولَّدة بالذكاء الاصطناعي تغزو صناعة الموسيقى

لم يقتصر إنشاء الأصوات المولدة بالذكاء الاصطناعي على عمليات الاحتيال فقط، بل تعداها إلى صناعة الموسيقى، حيث بدأ الهواة والمحترفون على حد سواء باستخدام تطبيقات استنساخ الأصوات المدعومة بالذكاء الاصطناعي لإنشاء أغانٍ تُؤدى بأصوات الفنانين المشهورين سواء بغرض اللهو أو تحقيق الانتشار.

وتأتي صعوبة الحد من انتشار الأغاني المولَّدة بالذكاء الاصطناعي في أن الشركات ليست أمامها سوى المطالبة بإزالة الأغنية المزيفة من خدمات بث الموسيقى بسبب أن العينة الصوتية غير قانونية، وليس لأنها أُنشِئت بالذكاء الاصطناعي، بالإضافة إلى ذلك تشكّل محاولة منع انتشار الموسيقى التي أُنشِئت بالذكاء الاصطناعي تحدياً فريداً للصناعة، وذلك لأن المشهد القانوني والتنظيمي لكيفية عمل الذكاء الاصطناعي غير واضح تماماً حتى الآن، كما أن الأدوات اللازمة لإنشاء الموسيقى المولَّدة بالذكاء الاصطناعي أصبحت متاحة على نطاقٍ واسع، وتوزيعها يبدو أسهل من أي وقتٍ مضى.

كيف يمكنك اكتشاف الأصوات المولَّدة بالذكاء الاصطناعي؟

بينما يعمل العلماء والباحثون على تطوير تقنيات أكثر عملية لقياس الاختلافات الديناميكية الصوتية بين عينات الصوت البشرية والأصوات المولَّدة بالذكاء الاصطناعي، يمكن للمستمع العادي أن يستخدم عدة أدوات وطرق متنوعة للتمييز بين الأصوات البشرية والأصوات التي أُنشِئت بواسطة خوارزميات الذكاء الاصطناعي، ومن ضمنها:

استخدام أدوات وخدمات الذكاء الاصطناعي

يمكنك استخدام أدوات الذكاء الاصطناعي للكشف عن الأصوات المولَّدة بالذكاء الاصطناعي، ومن ضمن هذه الأدوات أداة إليفين لاب (Eleven Lab) المجانية التي تُتيح لك تحميل مقطع صوتي مدته دقيقة واحدة بحجم 10 ميغابايت، ثم تشغّل الأداة المقطع الصوتي واختباره بطرق وتقنيات مختلفة لمقارنته وتجميعه لتعطيك النتائج.

كما يمكنك استخدام أداة رزمبل دتكت (Resemble Detect)، وهي شبكة عصبونية متطورة لكشف الأصوات المولَّدة بالذكاء الاصطناعي في الوقت الفعلي، حيث تعمل من خلال تحليل الصوت إطاراً تلو الآخر لتحديد أي محتوى صوتي أُنشِئ أو تعديله بشكلٍ آلي، ووضع علامة عليه بدقة.

إذا كنت تمتلك بعض المعرفة التقنية في مجال تحرير الأصوات، يمكنك استخدام إحدى أدوات التحليل الطيفي (Spectrogram Analysis) التي يمكن أن تكون أكثر موثوقية لاكتشاف الأصوات المولَّدة بالذكاء الاصطناعي، من خلال تمثيل رسومي لترددات الصوت مع مرور الوقت، وذلك لأن الصوت البشري يُظهر تقلبات طبيعية في حين أن الأصوات التي يولّدها الذكاء الاصطناعي قد يكون لها قوام أكثر سلاسة أو أنماط واضحة.

الوثوق بالأذن البشرية

من خلال الانتباه إلى الإشارات السمعية، مثل فترات التوقف غير الطبيعية، والنطق المثالي للجمل دون تردد، والتنغيم الآلي، وعدم وجود اختلافات عاطفية في الصوت، بالإضافة إلى الانتباه إلى السياق الذي يُستخدم فيه الصوت، هل هو سيناريو واقعي؟ هل يبدو محتوى الخطاب مكتوباً إلى حد كبير أو يفتقر إلى الفروق الدقيقة في المحادثة؟

بالإضافة إلى ذلك من المهم أن تكون حذراً من خلال التحقق من هوية المتصل قبل إرسال أي أموال أو معلومات شخصية، كما يمكن لأفراد الأسرة أو الأصدقاء إنشاء جملة أو بضع كلمات سرية تُستخدم في حالات الطوارئ للتحقق من هوية المتصل.