كشفت شركة آبل عن تفاصيل نموذج جديد يحمل اسم Manzano مخصص لفهم الصور وتوليدها في آن واحد، وهو مجال معقد طالما شكّل عقبة أمام النماذج المفتوحة المصدر مقارنةً بالأنظمة التجارية المتقدمة مثل تلك التي تطورها جوجل و OpenAI.
ولم يُطرح النموذج، الذي يعني اسمه “شجرة التفاح” بالإسبانية، بعدُ للاستخدام العام، ولم توفر الشركة عرضًا تجريبيًا له، بل اكتفت بنشر ورقة بحثية تضم عينات صور منخفضة الدقة استُخدمت لمقارنة أدائه مع نماذج مفتوحة المصدر مثل Deepseek Janus Pro وأنظمة تجارية مثل GPT-4o و Gemini 2.5 Flash Image Generation المعروف أيضًا باسم “Nano Banana”.
وتؤكد آبل أن النماذج المفتوحة المصدر غالبًا ما تضطر إلى الاختيار بين قوة تحليل الصور أو جودة توليدها، في حين تجمع النماذج التجارية بين المهمتين معًا.
ويعود ذلك إلى طبيعة معالجة الصور، إذ يتطلب الفهم تدفقات بيانات متواصلة، في حين يحتاج التوليد إلى تقسيم الصور إلى رموز منفصلة، مما يؤدي عادة إلى تضارب داخل النموذج اللغوي.
ولحل هذه المعضلة، ابتكرت آبل تصميمًا هجينًا يعتمد على مُرمّز صور مشترك ينتج نوعين من الرموز، رموز مستمرة تُستخدم لفهم الصور، ورموز منفصلة تُخصص لتوليدها. ويسمح هذا النهج بتقليل التعارض بين المهمتين، ويمنح النموذج مرونة أكبر في التعامل مع النصوص والرسوم المعقدة.
ويتألف Manzano من ثلاثة مكونات رئيسية، وهي المرمّز الهجين، ونموذج لغوي موحّد، ومُفكك صور مستقل للإخراج النهائي.
وتقول آبل إنها طوّرت ثلاث نسخ من مُفكك الصور بأحجام مختلفة (0.9 و 1.75 و 3.52 مليارات معلمة) تدعم دقة تبدأ من 256 بكسلًا وصولًا إلى 2048 بكسلًا. وقد دُرّب النظام باستخدام 2.3 مليار زوج من الصور والنصوص العامة والداخلية، إضافة إلى مليار زوج من النصوص إلى الصور، ليصل إجمالي البيانات إلى 1.6 تريليون رمز.
وأظهرت النتائج الأولية، وفق اختبارات آبل، تفوق Manzano على نماذج أخرى في اختبارات معيارية مثل ScienceQA و MMMU و MathVista، خاصةً في المهام المعتمدة على النصوص كتحليل الوثائق والرسوم البيانية. وبيّنت اختبارات القياس أن الأداء يتحسن تدريجيًا مع تضخم حجم النموذج ليصل إلى 30 مليار معلمة.
وبجانب قدراته في الفهم، أثبت Manzano كفاءة في توليد الصور، إذ تمكن من تنفيذ أوامر معقدة، ونقل الأنماط الفنية، وإجراء تعديلات متنوعة تشمل الإكمال (inpainting) والتوسيع (outpainting) وتقدير العمق.
وترى آبل أن Manzano يُعد خطوة مهمة نحو تطوير أنظمة ذكاء اصطناعي متعددة الوسائط، بفضل بنيته المعيارية التي تسمح بتحديث مكوناته بنحو مستقل والاستفادة من أساليب تدريب متباينة. ومع ذلك، تقر الشركة بأن نماذجها الأساسية ما زالت متأخرة نسبيًا عن المنافسين، وهو ما دفعها إلى الاعتماد على GPT-5 من OpenAI في إطار مزايا Apple Intelligence ابتداءً من iOS 26.
يُذكر أن Manzano يعكس تقدمًا تقنيًا بارزًا، لكن نجاحه في تقليص اعتماد آبل على النماذج الخارجية لن يتضح إلا من خلال التحديثات المستقبلية.
نسخ الرابط تم نسخ الرابط