3 نماذج ذكاء اصطناعي جديدة من «مايكروسوفت» للصوت والصورة والنص
أطلقت «مايكروسوفت» 3 نماذج جديدة من الذكاء الاصطناعي ضمن منصة «فاوندري (Foundry)» في خطوة تعكس توجهاً واضحاً نحو بناء منظومة متكاملة تدعم التطبيقات متعددة الوسائط، بدلاً من الاعتماد على نماذج منفصلة لكل استخدام. وبحسب ما ورد في مدونة رسمية للشركة، تشمل النماذج الجديدة «MAI-Transcribe-1» لتحويل الصوت إلى نص، و«MAI-Voice-1» لتوليد الصوت، و«MAI-Image-2» لإنشاء الصور، وهي متاحة حالياً للمطورين عبر «Foundry» وبيئة «MAI Playground».
من نماذج منفصلة إلى منظومة متكاملة
تعكس هذه الخطوة تحولاً في طريقة بناء تطبيقات الذكاء الاصطناعي. فبدلاً من الاعتماد على نموذج واحد شامل، تتجه «مايكروسوفت» نحو تطوير مجموعة من النماذج المتخصصة، كل منها يعالج نوعاً مختلفاً من بيانات الصوت والصورة والنص.
هذا النهج ينسجم مع الاتجاه الأوسع في الصناعة نحو ما يُعَرف بـ«الذكاء الاصطناعي متعدد الوسائط»، حيث يمكن للأنظمة التعامل مع أنواع مختلفة من المدخلات والمخرجات ضمن تجربة واحدة متكاملة.
أحد أبرز النماذج الجديدة هو «MAI-Transcribe-1»، المصمم لتحويل الكلام إلى نَصٍّ بدقة عالية، حتى في البيئات غير المثالية مثل الضوضاء أو تسجيلات الاجتماعات.
تشير «مايكروسوفت» إلى أنَّ النموذج يدعم 25 لغة من أكثر اللغات استخداماً، ويحقِّق أداءً متقدماً وفق معايير قياس معتمدة، مع سرعة معالجة أعلى مقارنة بأنظمة سابقة. كما تمَّ تصميمه للعمل في ظروف واقعية، مثل مراكز الاتصال أو الاجتماعات، حيث تتداخل الأصوات وتختلف جودة التسجيل. هذا التركيز على «البيئة الواقعية» يعكس تحولاً في تصميم النماذج، من الأداء في المختبرات إلى الأداء في الاستخدام الفعلي.
الصوت الاصطناعي
يركز نموذج «MAI-Voice-1» على توليد الصوت، مع محاولة جعل النتائج أكثر واقعية من حيث النبرة والتعبير. ووفقاً للمدونة، يمكن للنموذج إنتاج صوت طبيعي يحافظ على هوية المتحدث حتى في المحتوى الطويل. كما يتيح إنشاء أصوات مخصصة باستخدام عينة قصيرة من التسجيل الصوتي. ويتميَّز كذلك بسرعة عالية، حيث يمكنه توليد دقيقة من الصوت خلال ثانية واحدة تقريباً، ما يفتح المجال أمام استخدامه في تطبيقات مثل المساعدات الصوتية، أو المحتوى الصوتي التفاعلي.
توليد الصور
أما النموذج الثالث الذي يدعى «MAI-Image-2» فيركز على إنشاء الصور مع تحسينات في السرعة والأداء. تشير «مايكروسوفت» إلى أنَّ النموذج يوفِّر سرعة توليد أعلى تصل إلى ضعفين مقارنة بالإصدارات السابقة، مع الحفاظ على جودة مناسبة للاستخدامات الإبداعية مثل التصميم والإعلانات. كما تمَّ تصميمه ليلبي احتياجات المُصمِّمين وصناع المحتوى، من خلال تحسين عناصر مثل الإضاءM، ودقة التفاصيل، والنصوص داخل الصور.
الشرق الاوسط
