شهدت السنوات الاخيرة تطورا كبيرا في نماذج الذكاء الاصطناعي التوليدي الصوتي، وبرزت منافسة قوية بين مدرستين هما مدرسة سونو ايه اي التي تركز على المحاكاة الهيكلية الكاملة، ومدرسة غوغل ديب مايند ليريا التي تهتم بالنمذجة الموجية الدقيقة.
ولمعرفة الفروق بينهما، اجريت تجارب ومقارنات كشفت عن تفاصيل مهمة في هذا المجال.
البنية التحتية ونمذجة الصوت
يعتمد سونو في جوهره على هندسة مشابهة للنماذج اللغوية الكبيرة، فهو لا يؤلف الموسيقى كنوتات بل يتنبا بالتوكنات الصوتية التالية بناء على سياق ضخم من البيانات التدريبية.
وابرز ما يميز سونو هو فهمه لتراتبية الاغنية، فهو يدرك الفرق بين المقطع واللازمة والجسر، مما يمكنه من توليد مقاطع طويلة بانسجام لحني مذهل.
واضاف ان التحدي التقني لسونو يكمن في معاناته احيانا من الضجيج الرقمي، حيث تندمج الترددات الصوتية للالات مع الترددات البشرية، مما يصعب عملية الهندسة العكسية او فصل الالات لاحقا.
ليريا 3: النمذجة الموجية والنقاء
ليريا، الذي طورته غوغل ديب مايند، يستخدم تقنيات متطورة في معالجة الاشارات الرقمية والشبكات العصبية العميقة التي تتعامل مع الموجة الصوتية مباشرة بجودة احترافية.
وبين ان ليريا يتفوق في معدل العينة وعمق البت، مما ينتج صوتا عالي الجودة يضاهي جودة الاستوديو.
واكد انه اضافة لذلك، ينفرد بتقنية سينث اي دي، وهي علامة مائية غير مسموعة تدمج في الموجة الصوتية لحماية الحقوق وتحديد المصدر، مما يجعله النموذج الاكثر امانا للمحترفين.
معالجة الموسيقى العربية: المقامات والايقاع
عند الانتقال للموسيقى العربية، تظهر الفجوة التقنية في كيفية معالجة الربع تون والايقاعات المركبة، فسونو يمتلك قاعدة بيانات ضخمة من الاغاني العربية المعاصرة، لذا فهو ينجح في محاكاة الروح والاداء والتعبير الصوتي ببراعة، خاصة في الانماط الشعبية والبوب.
اما ليريا فهو يركز على فيزيائية الالة، فعند طلب عود او قانون، يقوم ليريا بمحاكاة رنين الاوتار بدقة مذهلة، مما يجعله يتفوق في المقطوعات الالية والموسيقى التصويرية التي تتطلب نقاء فائق.
واوضح ان هذه التطبيقات تحاول محاكاة المقامات الشرقية عبر موازنة الترددات الرقمية لتلائم ذائقة المستمع العربي، لكن ورغم نجاحها في تقديم الحان متماسكة لغويا ونغميا، الا ان تنفيذها يظل معتمدا على الانماط الاحصائية، مما يجعلها بارعة في المحاكاة، لكنها لا تزال تطارد ذلك السر الخفي الذي يربط مخارج حروف الضاد بروح الارتجال الشرقي الاصيل.
نموذج تطبيقي
لتحقيق اقصى استفادة من هذه التقنيات في مشروع عربي، اتبع النماذج التالية.
للحصول على افضل نتيجة من سونو، السر يكمن في الوصف الذكي او ما يسمى بالاوامر او التعليمات، اليك الطريقة المثالية لطلب اغنية وكانك مخرج موسيقي:
استخدم الوضع المخصص، هذا الوضع هو الاقوى لانه يمنحك تحكما كاملا، بمجرد تفعيله، ستجد الخانات التالية:
- الكلمات: يمكنك كتابة كلماتك الخاصة، والافضل ان تستخدم وسوم المقاطع لتوجيه الذكاء الاصطناعي.
ونمط الموسيقى: لا تكتف بكلمة واحدة، بل صف الشعور والالات.
واضاف انه اذا اعجبتك بداية الاغنية ولكنها انتهت بسرعة، اضغط على (Extend)، سيسمح لك باضافة مقاطع جديدة بنفس اللحن والروح لتكمل الاغنية.
اما للحصول على الاغنية كاملة، فبعد الانتهاء من التمديد، يمكنك دمج كل المقاطع في ملف واحد طويل.
اما ان اردت ان تنتج اغنية في ليريا، فالتركيز هنا يكون على النسيج الصوتي، ويجب عليك ان تتبع التالي:
الوصف التقني: تخت عربي اصيل، ناي منفرد بصدى عميق، مكبر ميكروفون اولي عتيق من سبعينيات القرن الماضي، دفء تناظري، جودة صوت 4 كيه.
وبين ان طريقة التنفيذ، فابدأ بتوليد 30 ثانية من التقاسيم، ثم استخدم خاصية (Add Section) لادخال الكلمات تدريجيا، مما يضمن الحفاظ على جودة الالات دون تداخل.
وبعد التجربة، ستجد ان الاختلالف كله يكمن بين دقة النغمة في ليريا وطول الاغنية في سونو، وهو امر قد ينتج عنه اندماج مع التطور المستمر لهما، فالعالم يقترب من عصر سيوفر فيه ليريا واجهات برمجية تسمح بتوليد اغان كاملة، بينما يحسن سونو من جودة ضغطه الصوتي، اما للمستخدم العربي، فالخيار يعتمد على الهدف، فسونو مخصص للانتشار والعاطفة، وليريا للاحترافية والابداع الصوتي.
