ما هو الذكاء الاصطناعي (AI)؟

الذكاء الاصطناعي هو تقنية تمكّن الحواسيب والآلات من محاكاة التعلم البشري، والفهم، وحل المشكلات، واتخاذ القرارات، والإبداع، والاستقلالية.
تستطيع التطبيقات والأجهزة المزودة بالذكاء الاصطناعي رؤية الأشياء وتحديدها، وفهم اللغة البشرية والاستجابة لها، والتعلم من المعلومات والخبرات الجديدة، وتقديم توصيات مفصلة للمستخدمين والخبراء، والعمل بشكل مستقل، ما يُغني عن الحاجة إلى الذكاء البشري أو التدخل (ومن الأمثلة الكلاسيكية على ذلك السيارات ذاتية القيادة).

لكن في عام 2024، ركّز معظم الباحثين والممارسين في مجال الذكاء الاصطناعي، ومعظم العناوين الرئيسية المتعلقة به، على الإنجازات في مجال الذكاء الاصطناعي التوليدي، وهي تقنية قادرة على إنشاء نصوص وصور وفيديوهات ومحتويات أخرى أصلية. لفهم الذكاء الاصطناعي التوليدي فهمًا كاملًا، من المهم أولًا فهم التقنيات التي تُبنى عليها أدواته: التعلم الآلي والتعلم العميق.

التعلم الآلي

يمكن تبسيط مفهوم الذكاء الاصطناعي من خلال اعتباره سلسلة من المفاهيم المتداخلة أو المشتقة التي ظهرت على مدار أكثر من 70 عامًا:
رسم بياني يقارن بين أنواع مختلفة من مفاهيم التعلم الآلي، ممثلة بمربعات متداخلة بألوان زرقاء.

كيف يرتبط الذكاء الاصطناعي، والتعلم الآلي، والتعلم العميق، والذكاء الاصطناعي التوليدي؟
يقع التعلم الآلي مباشرةً تحت الذكاء الاصطناعي، ويتضمن إنشاء نماذج من خلال تدريب خوارزمية للتنبؤ أو اتخاذ القرارات بناءً على البيانات. ويشمل نطاقًا واسعًا من التقنيات التي تُمكّن أجهزة الكمبيوتر من التعلم من البيانات واستخلاص النتائج منها دون الحاجة إلى برمجتها بشكل صريح لمهام محددة.

توجد أنواع عديدة من تقنيات أو خوارزميات التعلم الآلي، منها الانحدار الخطي، والانحدار اللوجستي، وأشجار القرار، والغابات العشوائية، وآلات المتجهات الداعمة (SVMs)، وخوارزمية أقرب جار (KNN)، والتجميع، وغيرها. كل من هذه الأساليب مناسب لأنواع مختلفة من المشكلات والبيانات.

لكن أحد أكثر أنواع خوارزميات التعلم الآلي شيوعًا هو الشبكة العصبية (أو الشبكة العصبية الاصطناعية). تُحاكي الشبكات العصبية بنية ووظيفة الدماغ البشري. تتكون الشبكة العصبية من طبقات مترابطة من العُقد (شبيهة بالخلايا العصبية) تعمل معًا لمعالجة وتحليل البيانات المعقدة. تُعدّ الشبكات العصبية مناسبة تمامًا للمهام التي تتطلب تحديد الأنماط والعلاقات المعقدة في كميات هائلة من البيانات.

أبسط أشكال التعلّم الآلي هو التعلّم الخاضع للإشراف، والذي يعتمد على استخدام مجموعات بيانات مُصنّفة لتدريب الخوارزميات على تصنيف البيانات أو التنبؤ بالنتائج بدقة. في التعلّم الخاضع للإشراف، يُقرن المُدرّب كل مثال تدريبي بتصنيف مُحدد. الهدف هو أن يتعلم النموذج العلاقة بين المُدخلات والمُخرجات في بيانات التدريب، ليتمكن من التنبؤ بتصنيفات البيانات الجديدة غير المرئية.

التعلم العميق

التعلم العميق هو فرع من فروع التعلم الآلي، يستخدم شبكات عصبية متعددة الطبقات، تُسمى الشبكات العصبية العميقة، والتي تُحاكي بدقة أكبر قدرة الدماغ البشري على اتخاذ القرارات المعقدة.

تتضمن الشبكات العصبية العميقة طبقة إدخال، وثلاث طبقات مخفية على الأقل، وغالبًا مئات الطبقات، وطبقة إخراج، على عكس الشبكات العصبية المستخدمة في نماذج التعلم الآلي التقليدية، والتي عادةً ما تحتوي على طبقة مخفية واحدة أو اثنتين فقط.

تُمكّن هذه الطبقات المتعددة التعلم غير المُشرف عليه: إذ يُمكنها أتمتة استخراج الميزات من مجموعات بيانات ضخمة، غير مُصنفة، وغير مُهيكلة، ووضع تنبؤاتها الخاصة حول ما تُمثله البيانات.

نظرًا لأن التعلم العميق لا يتطلب تدخلًا بشريًا، فإنه يُتيح التعلم الآلي على نطاق واسع للغاية. وهو مُناسب تمامًا لمعالجة اللغة الطبيعية، ورؤية الحاسوب، وغيرها من المهام التي تتطلب تحديدًا سريعًا ودقيقًا للأنماط والعلاقات المعقدة في كميات هائلة من البيانات. ويُشكل التعلم العميق، بشكل أو بآخر، أساس معظم تطبيقات الذكاء الاصطناعي في حياتنا اليومية.

الذكاء الاصطناعي التوليدي

يشير الذكاء الاصطناعي التوليدي، أو ما يُعرف اختصارًا بـ “gen AI”، إلى نماذج التعلم العميق القادرة على إنشاء محتوى أصلي معقد، مثل النصوص الطويلة والصور عالية الجودة والفيديوهات والمقاطع الصوتية الواقعية، وغيرها، استجابةً لطلب المستخدم.

بشكل عام، تقوم النماذج التوليدية بترميز تمثيل مبسط لبيانات التدريب، ثم تستخدم هذا التمثيل لإنشاء محتوى جديد مشابه، ولكنه ليس مطابقًا تمامًا، للبيانات الأصلية.

استُخدمت النماذج التوليدية لسنوات في الإحصاء لتحليل البيانات الرقمية. ولكن خلال العقد الماضي، تطورت هذه النماذج لتحليل وتوليد أنواع بيانات أكثر تعقيدًا. تزامن هذا التطور مع ظهور ثلاثة أنواع متطورة من نماذج التعلم العميق:

المشفرات التلقائية المتغيرة (VAEs)، التي طُرحت عام ٢٠١٣، والتي مكّنت النماذج من توليد تنويعات متعددة للمحتوى استجابةً لطلب أو تعليمات.

نماذج الانتشار، التي ظهرت لأول مرة عام ٢٠١٤، تُضيف “تشويشًا” إلى الصور حتى تصبح غير قابلة للتمييز، ثم تُزيل هذا التشويش لتوليد صور أصلية استجابةً للمُدخلات.

أما نماذج المحولات (أو نماذج المحوّلات)، فتُدرَّب على بيانات مُتسلسلة لتوليد تسلسلات مُطوّلة من المحتوى (مثل الكلمات في الجمل، والأشكال في الصور، وإطارات الفيديو، أو الأوامر في البرامج). تُشكّل نماذج المحولات جوهر معظم أدوات الذكاء الاصطناعي التوليدي الرائجة اليوم، بما في ذلك ChatGPT وGPT-4 وCopilot وBERT وBard وMidjourney.

كيف يعمل الذكاء الاصطناعي التوليدي؟

بشكل عام، يعمل الذكاء الاصطناعي التوليدي على ثلاث مراحل:

التدريب، لإنشاء نموذج أساسي.

الضبط، لتكييف النموذج مع تطبيق محدد.

التوليد، والتقييم، والمزيد من الضبط، لتحسين الدقة.

التدريب

يبدأ الذكاء الاصطناعي التوليدي بنموذج أساسي؛ وهو نموذج تعلّم عميق يُشكّل أساسًا لأنواع متعددة من تطبيقات الذكاء الاصطناعي التوليدي.

أكثر النماذج الأساسية شيوعًا اليوم هي نماذج اللغة الكبيرة (LLMs)، المصممة لتطبيقات توليد النصوص. ولكن توجد أيضًا نماذج أساسية لتوليد الصور والفيديوهات والأصوات والموسيقى، ونماذج أساسية متعددة الوسائط تدعم أنواعًا مختلفة من المحتوى.

لإنشاء نموذج أساسي، يقوم المختصون بتدريب خوارزمية تعلّم عميق على كميات هائلة من البيانات الخام غير المهيكلة وغير المصنفة، مثل تيرابايتات أو بيتابايتات من النصوص أو الصور أو الفيديوهات من الإنترنت. ينتج عن التدريب شبكة عصبية تضم مليارات المعاملات التي تمثل تمثيلات مشفرة للكيانات والأنماط والعلاقات في البيانات، والتي يمكنها توليد المحتوى تلقائيًا استجابةً للمطالبات. هذا هو النموذج الأساسي.

تتطلب عملية التدريب هذه موارد حاسوبية ضخمة، ووقتًا طويلًا، وتكلفة باهظة. فهي تستلزم آلاف وحدات معالجة الرسومات (GPUs) المجمعة، وأسابيع من المعالجة، وكل ذلك يكلف عادةً ملايين الدولارات. تُمكّن مشاريع النماذج الأساسية مفتوحة المصدر، مثل Llama-2 من Meta، مطوري الذكاء الاصطناعي من تجنب هذه الخطوة وتكاليفها.

الضبط

بعد ذلك، يجب ضبط النموذج ليتناسب مع مهمة محددة لتوليد المحتوى. يمكن القيام بذلك بطرق مختلفة، منها:

الضبط الدقيق، والذي يتضمن تزويد النموذج ببيانات مصنفة خاصة بالتطبيق، وأسئلة أو مطالبات من المحتمل أن يتلقاها التطبيق، والإجابات الصحيحة المقابلة بالتنسيق المطلوب.

التعلم المعزز مع التغذية الراجعة البشرية (RLHF)، حيث يُقيّم المستخدمون دقة أو ملاءمة مخرجات النموذج ليتمكن من تحسين نفسه. يمكن أن يكون هذا بسيطًا مثل قيام المستخدمين بكتابة أو نطق تصحيحات لروبوت محادثة أو مساعد افتراضي.

التوليد والتقييم والمزيد من الضبط

يقوم المطورون والمستخدمون بتقييم مخرجات تطبيقات الذكاء الاصطناعي التوليدية بانتظام، ويضبطون النموذج باستمرار، حتى مرة واحدة أسبوعيًا، لزيادة دقته وملاءمته. في المقابل، يتم تحديث النموذج الأساسي نفسه بوتيرة أقل بكثير، ربما كل عام أو كل 18 شهرًا.

خيار آخر لتحسين أداء تطبيق الذكاء الاصطناعي التوليدي هو التوليد المعزز بالاسترجاع (RAG)، وهي تقنية لتوسيع النموذج الأساسي باستخدام مصادر ذات صلة خارج بيانات التدريب لتحسين المعايير وزيادة دقتها وملاءمتها.