OpenAI تختبر نموذجًا جديدًا لاستنساخ الصوت
أعلنت شركة OpenAI يوم الجمعة عن برنامج تجريبي لعرضها الجديد المخصص لتحويل النص إلى كلام (TTS)، والذي يسمى Voice Engine، والذي سيسمح للمستخدمين بإنشاء خطاب واقعي من النص باستخدام مقتطف صغير فقط من عينة الصوت.
في منشور بالمدونة، يقول صانع ChatGPT إنه يعمل حاليًا مع المطورين لاختبار أحدث نموذج في واجهة برمجة التطبيقات (API)، والتي يمكن أن تأخذ عينة صوتية واحدة مدتها 15 ثانية لإنشاء خطاب يبدو طبيعيًا يتطابق بشكل وثيق مع الكلام الأصلي. . وقد وافق هؤلاء المطورون على سياسة استخدام صارمة، تحظر انتحال شخصية فرد أو مؤسسة أخرى دون موافقة أو حق قانوني. يجب على الشركاء أيضًا طلب موافقة صريحة ومستنيرة من المتحدث الأصلي.
في عرض توضيحي مباشر مع InformationWeek، أظهر مدير منتج OpenAI، جيف هاريس، كيف يمكن استخدام تسجيل مباشر سريع لصوته لإنشاء عينة تحويل النص إلى كلام لا يمكن تمييزها عن صوته الحقيقي. استغرقت العملية برمتها لحظات فقط.
من المرجح أن تكون سرعة وواقعية تحويل النص إلى كلام (TTS) الصوتي المخصص من OpenAI احتمالًا جذابًا للعديد من الاستخدامات التجارية والاستهلاكية، ولكنها تمثل أيضًا مخاطر وتحديات جسيمة. احتمال سوء الاستخدام عميق.
ولهذا السبب تقوم OpenAI باختبار البرنامج أولاً مع مجموعة مختارة من المطورين.
السلامة اولا
يعد استنساخ الصوت باستخدام الذكاء الاصطناعي مصدر قلق كبير لأخلاقيات الذكاء الاصطناعي، خاصة في عام الانتخابات. دعا الرئيس الأمريكي جو بايدن في خطابه عن حالة الاتحاد في 6 مارس/آذار إلى فرض حظر على انتحال الأصوات باستخدام الذكاء الاصطناعي. تم استخدام صوت بايدن في عملية احتيال لانتحال صوت الذكاء الاصطناعي في يناير/كانون الثاني، والتي حثت الناخبين الأساسيين في نيو هامبشاير على “حفظ أصواتهم” للانتخابات الرئاسية في نوفمبر/تشرين الثاني.
في فبراير/شباط، جعلت لجنة الاتصالات الفيدرالية (FCC) الأصوات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي في المكالمات الآلية غير قانونية بموجب قانون حماية المستهلك الهاتفي.
وتقول شركة OpenAI، من جانبها، إنها تمضي قدمًا في نموذج استنساخ الصوت الخاص بها بعناية. دعا منشور مدونة OpenAI إلى بذل جهد واسع النطاق من أجل التخلص التدريجي من المصادقة الصوتية المستخدمة الآن على نطاق واسع كإجراء أمني.
“سنبدأ بمجموعة محدودة من المطورين والأشخاص الذين لدينا علاقات موثوقة معهم ونطلب منهم الموافقة على مجموعة شاملة جدًا من الشروط التي تتضمن أشياء مثل الحصول على إذن من كل متحدث يتم استخدام صوته والتأكد من عدم وجود أي صوت. يقول هاريس لمجلة InformationWeek: “يتم تصنيف الكلام الذي تم إنشاؤه بوضوح على أنه تم إنشاؤه بواسطة الذكاء الاصطناعي”. وقال هاريس إن OpenAI طورت أيضًا نظام “العلامة المائية” الذي يسمح بتحديد التسجيلات الصوتية التي تم إنشاؤها باستخدام نموذجها.
يعتقد مانوج ساكسينا، مؤسس معهد الذكاء الاصطناعي المسؤول، أن البرنامج التجريبي هو النهج الصحيح، لكنه يقول إن هناك حاجة إلى المزيد من حواجز الحماية مع استمرار تطور تكنولوجيا الذكاء الاصطناعي بسرعة. من خلال توليد الصوت الواقعي للغاية، يمكن للمجرم خداع أفراد العائلة للقيام بعمليات احتيال أو ما هو أسوأ. ومع اقتراب موعد الدورة الانتخابية، تتزايد المخاوف بشأن استخدام التزييف العميق لنشر المعلومات المضللة.
“هذا سيف ضخم ذو حدين”، يقول ساكسينا لـ InformationWeek في مقابلة عبر الهاتف. “قد يكون هذا بمثابة مسمار آخر في نعش الحقيقة وخصوصية البيانات. يضيف هذا المزيد من الديناميكية غير المعروفة حيث يمكن أن يكون لديك شيء يمكن أن يخلق الكثير من الاضطراب العاطفي والتأثيرات النفسية. لكن يمكنني أيضًا رؤية الكثير من الإيجابيات. كل هذا يتوقف على كيفية تنظيمه.”
ويأمل ساكسينا أن يقوم OpenAI بإشراك المنظمين والمدافعين عن السلامة في العملية التجريبية أيضًا.
استنساخ الصوت يمكن أن يؤثر على الأعمال والعمال
تم إصدار إصدار ChatGPT على مستوى المؤسسات من OpenAI في أغسطس 2023. وسرعان ما تبع ذلك مستوى المبتدئين الذي استهدف الشركات الصغيرة والمتوسطة الحجم. يمكن لميزة استنساخ الصوت التي توفر السرعة والحاجز المنخفض للدخول أن تخلق طلبًا هائلاً من الشركات، خاصة في قطاع خدمة العملاء. وفق ستاتيستايوجد أكثر من 2.8 مليون موظف في مراكز الاتصال في الولايات المتحدة وحدها.
يقول ماكس بول، المحلل الرئيسي في شركة Forrester، إن برنامج استنساخ الصوت موجود بالفعل، ولكن كفاءة نموذج OpenAI يمكن أن تغير قواعد اللعبة. “إنها خطوة قوية جدًا من ناحيتين،” يقول بول لموقع InformationWeek في مقابلة. “اليوم، من خلال ما يعرضه لي البائعون، يمكنك إجراء صوت مخصص، ولكن الأمر يستغرق من 15 إلى 20 دقيقة من الصوت حتى تتمكن من تدريبه. في حين أن 15 دقيقة لا تبدو وقتًا طويلاً، فمن الصعب إقناع أي شخص بالجلوس لمدة 15 دقيقة خلال يوم العمل.
بالنسبة لسوق مراكز الاتصال، من المرجح جدًا أن تؤدي سرعة وجودة الصوت المخصص إلى تحول هائل في احتياجات العمالة. “التغيير الذي سنراه هناك هو أنه سيتم أتمتة هذه الوظائف. ووظيفة الوكيل، الوكلاء المتبقين، ستكون مهمة أكثر تحديًا – ولكنها وظيفة أكثر قيمة بكثير.