أنا باندورا 👋 مساعدتك الرقمية التي لا تنام. أرد في ثوانٍ. أبيع تلقائياً.

OpenAI تكشف عن GPT-4o: تطور ثوري في الذكاء الاصطناعي

بعد عام من الانتظار، قدمت OpenAI أحدث إضافة إلى عائلة نماذج transformer، وهو GPT-4o ("omnimodal"). هذا النموذج الجديد ليس مجرد قفزة كبيرة في تقنية الذكاء الاصطناعي، بل هو تحول جذري في طريقة تفاعلنا مع الذكاء الاصطناعي عبر أشكال متعددة من التواصل. فيما يلي كل ما تحتاج معرفته عن هذا الإصدار الرائد.

5/21/20241 min read

Arabic translation:

OpenAI تكشف عن GPT-4o: تطور ثوري في الذكاء الاصطناعي

سرعة ومرونة GPT-4o

GPT-4o سريع للغاية وفعال في معالجة النص والصوت والصور والفيديو، بما في ذلك إنشاء الصور. يقدم تحسينات كبيرة في البرمجة والاستدلال متعدد الوسائط، ويقدم قدرات جديدة مثل التصور ثلاثي الأبعاد. وفقاً لساحة chatbot في lmsys.org، فاز GPT-4o بالفعل بلقب أفضل نموذج للأغراض العامة بناءً على نتائج نموذجه الوكيل، المعروف بـ gpt2-chatbot.

ومع ذلك، فإن إطلاق GPT-4o لا يتعلق فقط بالتطورات التقنية. كما يقول Sam Altman من OpenAI، الهدف هو وضع تقنية الذكاء الاصطناعي المتطورة في أيدي مليارات الأشخاص مجاناً، متجاوزاً مجرد دفع حجاب الجهل.

لعنة تعدد الوسائط

النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) موجودة منذ فترة، لكن GPT-4o هو الأول الذي يتعامل بشكل أصلي مع أربعة أشكال مميزة: الصوت، الفيديو، الصور والنص. النماذج السابقة مثل Gemini 1.5 وGPT-4V قدمت قدرات متعددة الوسائط لكنها اعتمدت على دمج نماذج منفصلة مثل Whisper وDALL-E 3. GPT-4o، على النقيض، هو نموذج موحد يعالج ويُنشئ بشكل أصلي النص والصور والصوت والفيديو (باستثناء إنشاء الفيديو)، مما يسمح باستدلال حقيقي عبر الوسائط.

مدخلات متعددة الوسائط، مخرجات متعددة الوسائط

النماذج اللغوية الكبيرة التقليدية (LLMs) هي نماذج تسلسل-إلى-تسلسل، تعالج عادةً مدخلات نصية وتنتج مخرجات نصية. عند دمجها مع مشفرات الصور، يمكنها معالجة الصور، لكن هذه المكونات غالباً ما تكون خارجية ولا تسمح باستدلال حقيقي عبر الوسائط. يغير GPT-4o هذا بتضمين جميع المكونات الضرورية لمعالجة وإنشاء أشكال متعددة داخل نموذج موحد.

كما أكدت Mira Murati، الكلام يتضمن أكثر من مجرد كلمات. النبرة، العاطفة، التوقفات وعناصر أخرى تضيف عمقاً للتواصل. النماذج السابقة كانت تتلقى فقط النصوص المُفرغة، مفتقدة هذه العناصر. GPT-4o، مع ذلك، يعالج الكلام بالكامل، مما يسمح له بفهم السياق والعواطف بشكل أفضل.

وحش قادر على كل شيء

رغم العرض القصير لمدة 30 دقيقة، أبرزت قدرات GPT-4o إمكانيته لتحويل ChatGPT من منتج يستخدمه الملايين إلى منتج يستخدمه المليارات.

التعرف على الفيديو في الوقت الفعلي: يقوم GPT-4o بالتعرف على الفيديو في الوقت الفعلي، متفوقاً على النماذج السابقة مثل Gemini من Google.

تأخير بمستوى بشري: يقوم النموذج بالترجمة في الوقت الفعلي مع تأخير ضئيل، بفضل معالجة جميع البيانات داخل نموذج موحد.

التطبيقات التعليمية: يمكن لـ GPT-4o العمل كمعلم AI صبور، يساعد الطلاب في المهام المعقدة.