تشكل نماذج اللغة الكبيرة الأساس الخوارزمي لبرامج المحادثة الآلية مثل ChatGPT من OpenAI وBard من Google. وترتبط هذه التكنولوجيا بمليارات ــ بل تريليونات ــ من المعلمات التي قد تجعلها غير دقيقة وغير محددة للاستخدام في الصناعات الرأسية. وإليك ما هي نماذج اللغة الكبيرة وكيف تعمل.
عندما وصل ChatGPT في نوفمبر 2022، جعل الفكرة السائدة هي أنه يمكن للشركات والمستهلكين استخدام الذكاء الاصطناعي التوليدي (genAI) لأتمتة المهام، والمساعدة في الأفكار الإبداعية، وحتى برمجة البرامج.
إذا كنت بحاجة إلى تلخيص رسالة بريد إلكتروني أو سلسلة محادثات إلى ملخص موجز، فيمكن لروبوت الدردشة مثل ChatGPT من OpenAI أو Bard من Google القيام بذلك. إذا كنت بحاجة إلى تحسين سيرتك الذاتية بلغة أكثر بلاغة ونقاط موجزة مثيرة للإعجاب، فيمكن للذكاء الاصطناعي المساعدة. هل تريد بعض الأفكار لحملة تسويقية أو إعلانية جديدة؟ الذكاء الاصطناعي التوليدي هو الحل.
ChatGPT هو اختصار لـ chatbot generative pre-trained transformer. يعتمد chatbot على نموذج اللغة الكبير GPT (LLM)، وهو خوارزمية كمبيوترية تعالج مدخلات اللغة الطبيعية وتتنبأ بالكلمة التالية بناءً على ما تم رؤيته بالفعل. ثم تتنبأ بالكلمة التالية، والكلمة التالية، وهكذا حتى تكتمل إجابتها.
ما هي LLMs وكيف يتم استخدامها في الذكاء الاصطناعي التوليدي؟
إلى جانب برنامجي GPT-3 و4 LLM من OpenAI ، تتضمن برامج LLM الشهيرة نماذج مفتوحة مثل LaMDA و PaLM LLM من Google (الأساس لـ Bard)، و BLOOM و XLM-RoBERTa من Hugging Face ، و NeMO LLM ، و XLNet ، وCo:here ، و GLM-130B من Nvidia .
تكتسب برامج الماجستير في القانون مفتوحة المصدر، على وجه الخصوص، زخمًا متزايدًا، مما يتيح لمجموعة من المطورين إنشاء نماذج أكثر قابلية للتخصيص بتكلفة أقل. وقد أدى إطلاق Meta لبرنامج LLaMA (نموذج لغة كبير Meta AI) في فبراير إلى إحداث انفجار بين المطورين الذين يتطلعون إلى البناء على برامج الماجستير في القانون مفتوحة المصدر.
إن برامج التعلم العميق هي نوع من الذكاء الاصطناعي الذي يتم تدريبه حاليًا على مجموعة هائلة من المقالات، ومداخل ويكيبيديا، والكتب، والموارد القائمة على الإنترنت، وغير ذلك من المدخلات لإنتاج استجابات شبيهة بالإنسان لاستفسارات اللغة الطبيعية. وهذه كمية هائلة من البيانات. ولكن برامج التعلم العميق على استعداد للانكماش، وليس النمو، حيث يسعى البائعون إلى تخصيصها لاستخدامات محددة لا تحتاج إلى مجموعات البيانات الضخمة التي تستخدمها النماذج الأكثر شعبية اليوم.
على سبيل المثال، يستخدم برنامج PaLM 2 LLM الجديد من Google، والذي تم الإعلان عنه في وقت سابق من هذا الشهر، بيانات تدريب أكثر بخمس مرات تقريبًا من سابقه قبل عام واحد فقط - 3.6 تريليون رمز أو سلسلة من الكلمات، وفقًا لتقرير واحد . تسمح مجموعات البيانات الإضافية لبرنامج PaLM 2 بأداء مهام أكثر تقدمًا في الترميز والرياضيات والكتابة الإبداعية.
إذن، ما هو LLM؟
إن LLM عبارة عن شبكة عصبية للتعلم الآلي يتم تدريبها من خلال مجموعات إدخال/إخراج البيانات؛ وفي كثير من الأحيان، يكون النص غير مُسمى أو غير مصنف، ويستخدم النموذج منهجية التعلم الذاتي أو شبه الخاضع للإشراف. يتم استيعاب المعلومات أو إدخال المحتوى في LLM، ويكون الناتج هو ما تتوقعه هذه الخوارزمية أن تكون الكلمة التالية. يمكن أن يكون الإدخال بيانات خاصة بالشركة أو، كما في حالة ChatGPT ، أي بيانات يتم تغذيتها واستخراجها مباشرة من الإنترنت.
يتطلب تدريب طلاب الماجستير في القانون على استخدام البيانات الصحيحة استخدام مزارع خوادم ضخمة ومكلفة تعمل كأجهزة كمبيوتر عملاقة.
يتم التحكم في برامج ماجستير القانون من خلال معلمات، مثل الملايين والمليارات وحتى تريليونات منها. (فكر في المعلمة باعتبارها شيئًا يساعد برنامج ماجستير القانون في الاختيار بين خيارات الإجابة المختلفة). يحتوي برنامج GPT-3 LLM من OpenAI على 175 مليار معلمة، ومن المفترض أن يحتوي أحدث طراز للشركة - GPT-4 - على تريليون معلمة .
على سبيل المثال، يمكنك كتابة “تناولت الغداء اليوم…” في نافذة موجه برنامج LLM. يمكن لبرنامج LLM أن يرد بـ “الحبوب” أو “الأرز” أو “ستيك تارتار”. لا توجد إجابة صحيحة بنسبة 100%، ولكن هناك احتمالية بناءً على البيانات التي تم استيعابها بالفعل في النموذج. قد تكون الإجابة “الحبوب” هي الإجابة الأكثر احتمالية بناءً على البيانات الموجودة، لذلك يمكن لبرنامج LLM إكمال الجملة بهذه الكلمة. ولكن نظرًا لأن برنامج LLM عبارة عن محرك احتمالات، فإنه يعين نسبة مئوية لكل إجابة محتملة. قد تظهر الحبوب بنسبة 50% من الوقت، وقد تكون “الأرز” هي الإجابة بنسبة 20% من الوقت، وستيك تارتار بنسبة 0.005% من الوقت.
ولكن حذاري، فالمعلومات التي تصل إلى الطالب غير دقيقة، أو غير كاملة، أو غير مرغوب فيها، أو ربما تكون غير موثوقة، أو غريبة، أو حتى مسيئة. وعندما تخرج المعلومات عن مسارها، يشير محللو البيانات إلى هذه المعلومات باعتبارها “هلوسات”، لأنها قد تكون بعيدة كل البعد عن المسار الصحيح.
يقول جوناثان سيدهارث، الرئيس التنفيذي لشركة تورينج، وهي شركة في بالو ألتو بولاية كاليفورنيا تستخدم الذكاء الاصطناعي للعثور على مهندسي البرمجيات وتوظيفهم وتدريبهم عن بعد: “تحدث الهلوسة لأن برامج الماجستير في القانون، في شكلها الأكثر بساطة، لا تحتوي على تمثيل داخلي للعالم. لا يوجد مفهوم للحقيقة. إنهم يتوقعون الكلمة التالية بناءً على ما رأوه حتى الآن - إنه تقدير إحصائي”.
ولأن بعض برامج الماجستير في القانون تتدرب أيضاً على استخدام البيانات المستندة إلى الإنترنت، فإنها تستطيع أن تتجاوز إلى حد كبير ما أنشأها مطوروها الأصليون من أجله. على سبيل المثال، يستخدم محرك بحث Bing التابع لشركة Microsoft برنامج GPT-3 كأساس له، ولكنه يستفسر أيضاً عن محرك بحث ويحلل أول عشرين نتيجة أو نحو ذلك. وهو يستخدم برنامج الماجستير في القانون والإنترنت لتقديم الإجابات.
“نرى أشياء مثل نموذج يتم تدريبه على لغة برمجة واحدة ثم تقوم هذه النماذج تلقائيًا بإنشاء كود بلغة برمجة أخرى لم ترها من قبل”، كما قال سيدهارث. “حتى اللغة الطبيعية؛ فهي لم يتم تدريبها على اللغة الفرنسية، لكنها قادرة على إنشاء جمل باللغة الفرنسية”.
وأضاف “يبدو الأمر وكأن هناك سلوكًا ناشئًا. لا نعرف تمامًا كيف تعمل هذه الشبكات العصبية. إنه أمر مخيف ومثير في نفس الوقت”.
هناك مشكلة أخرى مرتبطة ببرامج الماجستير في القانون ومعاييرها وهي التحيزات غير المقصودة التي يمكن أن يسببها مطورو برامج الماجستير في القانون وجمع البيانات ذاتيا من الإنترنت.
هل الماجستير في القانون متحيز؟
على سبيل المثال، من المرجح للغاية أن تقدم أنظمة مثل ChatGPT إجابات متحيزة جنسياً بناءً على البيانات التي استوعبتها من الإنترنت والمبرمجين، وفقًا لساياش كابور، وهو مرشح لنيل درجة الدكتوراه في مركز سياسة تكنولوجيا المعلومات بجامعة برينستون.
“لقد اختبرنا ChatGPT بحثًا عن التحيزات الضمنية - أي أن جنس الشخص لم يُذكر بوضوح، بل تم تضمينه فقط كمعلومات حول ضمائره”، كما قال كابور. "أي أنه إذا استبدلنا “هي” في الجملة بـ “هو”، فإن ChatGPT سيكون أقل عرضة لارتكاب خطأ بثلاث مرات."
قال كابور إن التحيزات الفطرية قد تكون خطيرة إذا تم استخدام نماذج اللغة في مواقف واقعية ذات عواقب وخيمة. على سبيل المثال، إذا تم استخدام نماذج اللغة المتحيزة في عمليات التوظيف، فقد تؤدي إلى تحيز بين الجنسين في العالم الحقيقي.
لا تنجم مثل هذه التحيزات عن قيام المطورين ببرمجة نماذجهم بشكل متعمد لتكون متحيزة. ولكن في نهاية المطاف، تقع مسؤولية إصلاح التحيزات على عاتق المطورين، لأنهم هم الذين يطلقون نماذج الذكاء الاصطناعي ويستفيدون منها، كما زعم كابور.
ما هي الهندسة السريعة؟
في حين أن معظم برامج الماجستير في القانون، مثل GPT-4 من OpenAI، مملوءة مسبقًا بكميات هائلة من المعلومات، الهندسة السريعة من قبل المستخدمين يمكنها أيضًا تدريب النموذج لاستخدام صناعي محدد أو حتى تنظيمي.
يقول كيم من معهد ماساتشوستس للتكنولوجيا: “إن الهندسة السريعة تتلخص في تحديد ما نطعمه لهذه الخوارزمية حتى تقول ما نريده منها. إن نظام LLM عبارة عن نظام لا يفعل أكثر من الثرثرة دون أي سياق نصي. وبمعنى ما من المصطلح، فإن نظام LLM هو بالفعل روبوت محادثة”.
هندسة المطالبات هي عملية صياغة وتحسين المطالبات النصية لطلاب الماجستير في القانون لتحقيق النتائج المرجوة. وربما تكون هندسة المطالبات مهمة للمستخدمين، ومن المتوقع أن تصبح مهارة حيوية لمحترفي تكنولوجيا المعلومات والأعمال.
نظرًا لأن هندسة الاستجابة السريعة هي تخصص ناشئ وناشئ، فإن الشركات تعتمد على الكتيبات والأدلة التوجيهية كوسيلة لضمان الاستجابات المثلى من تطبيقات الذكاء الاصطناعي الخاصة بها. حتى أن هناك أسواقًا ناشئة للاستجابة السريعة، مثل أفضل 100 استجابة سريعة لـ ChatGPT .
ولعل هندسة الاستجابة السريعة مهمة بنفس القدر للمستخدمين، ومن المتوقع أن تصبح مهارة حيوية لمحترفي تكنولوجيا المعلومات والأعمال، وفقًا لإينو رييس، مهندس التعلم الآلي في Hugging Face، وهي منصة مجتمعية تعمل على إنشاء واستضافة برامج الماجستير في القانون. وسيتولى مهندسو الاستجابة السريعة مسؤولية إنشاء برامج الماجستير في القانون المخصصة للاستخدام التجاري.
كيف ستصبح برامج الماجستير في القانون أصغر وأسرع وأرخص؟
اليوم، تُستخدم برامج المحادثة الآلية المستندة إلى LLMs بشكل شائع “جاهزة للاستخدام” كواجهة محادثة نصية عبر الويب . وتُستخدم في محركات البحث مثل Bard من Google وBing من Microsoft (المستند إلى ChatGPT) وللمساعدة الآلية للعملاء عبر الإنترنت. يمكن للشركات استيعاب مجموعات البيانات الخاصة بها لجعل برامج المحادثة الآلية أكثر تخصيصًا لأعمالها الخاصة، ولكن الدقة قد تتأثر بسبب الكم الهائل من البيانات المستوعبة بالفعل.
قال توماس وولف، المؤسس المشارك والمدير الاستراتيجي لشركة Hugging Face، أثناء حضوره مؤتمر معهد ماساتشوستس للتكنولوجيا في وقت سابق من هذا الشهر: “ما نكتشفه بشكل متزايد هو أنه باستخدام النماذج الصغيرة التي تدرب على المزيد من البيانات لفترة أطول…، يمكنها القيام بما كانت تفعله النماذج الكبيرة”. "أعتقد أننا ننضج بشكل أساسي في كيفية فهمنا لما يحدث هناك.
“هناك هذه الخطوة الأولى حيث تحاول كل شيء لجعل هذا الجزء الأول من شيء ما يعمل، ثم تكون في المرحلة التي تحاول فيها… أن تكون أكثر كفاءة وأقل تكلفة في التشغيل”، كما قال وولف. “ليس كافياً فقط تنظيف الويب بالكامل، وهو ما كان الجميع يفعلونه. من الأهمية بمكان أن يكون لديك بيانات عالية الجودة”.
يمكن أن تتكلف برامج الماجستير في القانون ما بين بضعة ملايين إلى 10 ملايين دولار للتدريب على حالات استخدام محددة، اعتمادًا على حجمها والغرض منها.
ولكن عندما تركز شركات إدارة التعلم الآلي قدراتها في مجال الذكاء الاصطناعي والحوسبة على مجموعات بيانات أصغر حجماً، فإنها تؤدي نفس الأداء أو أفضل من شركات إدارة التعلم الآلي الضخمة التي تعتمد على مجموعات بيانات ضخمة غير واضحة المعالم. كما يمكنها أن تكون أكثر دقة في إنشاء المحتوى الذي يبحث عنه المستخدمون ــ وهي أرخص كثيراً في التدريب.
تحدث إريك بويد، نائب رئيس قسم منصات الذكاء الاصطناعي في مايكروسوفت، مؤخرًا في مؤتمر MIT EmTech وقال إنه عندما بدأت شركته العمل لأول مرة على نماذج صور الذكاء الاصطناعي مع OpenAI قبل أربع سنوات، كان الأداء سيصل إلى ذروته مع نمو مجموعات البيانات في الحجم. ومع ذلك، كانت نماذج اللغة تتمتع بقدرة أكبر بكثير على استيعاب البيانات دون تباطؤ في الأداء.
استثمرت شركة مايكروسوفت، أكبر داعم مالي لـ OpenAI وChatGPT، في البنية الأساسية لبناء نماذج LLM أكبر. قال بويد: “لذا، فإننا نكتشف الآن كيفية الحصول على أداء مماثل دون الحاجة إلى وجود مثل هذا النموذج الضخم”. "مع المزيد من البيانات ووقت الحوسبة والتدريب، لا يزال بإمكانك العثور على المزيد من الأداء، ولكن هناك أيضًا الكثير من التقنيات التي نتعلمها الآن حول كيفية عدم الاضطرار إلى جعلها كبيرة جدًا والقدرة على إدارتها بكفاءة أكبر.
“هذا مهم للغاية لأن… هذه الأشياء باهظة الثمن. إذا أردنا أن نحظى بتبني واسع النطاق لها، فسوف يتعين علينا أن نحدد تكاليف تدريبها وخدمتها”، كما قال بويد.
على سبيل المثال، عندما يرسل المستخدم مطالبة إلى GPT-3، يجب عليه الوصول إلى جميع معلماته البالغ عددها 175 مليارًا لتقديم إجابة. ومن المتوقع أن تعمل إحدى الطرق لإنشاء نماذج خبيرة متفرقة أصغر حجمًا، والمعروفة باسم نماذج الخبراء المتفرقة ، على تقليل تكاليف التدريب والحساب لنماذج الخبراء المتفرقة، “مما يؤدي إلى إنشاء نماذج ضخمة بدقة أفضل من نظيراتها الكثيفة”، كما قال.
يعتقد باحثون من Meta Platforms (المعروفة سابقًا باسم Facebook) أن النماذج المتفرقة يمكن أن تحقق أداءً مشابهًا لأداء ChatGPT و LLMs الضخمة الأخرى باستخدام “جزء بسيط من الحوسبة”.
“بالنسبة للنماذج ذات ميزانيات الحوسبة المتواضعة نسبيًا، يمكن للنموذج المتناثر أن يعمل على قدم المساواة مع النموذج الكثيف الذي يتطلب ما يقرب من أربعة أضعاف الحوسبة”، كما قال ميتا في ورقة بحثية في أكتوبر 2022 .
يتم بالفعل إصدار نماذج أصغر حجمًا من قبل شركات مثل Aleph Alpha و Databricks و Fixie و LightOn و Stability AI وحتى Open AI. تحتوي نماذج LLM الأكثر مرونة على ما بين بضعة مليارات و100 مليار معلمة.
لا تزال قضايا الخصوصية والأمن كثيرة
في حين يتعجب العديد من المستخدمين من القدرات الرائعة التي تتمتع بها برامج المحادثة الروبوتية القائمة على LLM، لا يمكن للحكومات والمستهلكين أن يغضوا الطرف عن مشكلات الخصوصية المحتملة الكامنة في داخلها، وفقًا لغابرييل كافيكيت، مستشار الخصوصية في شركة الأمن السيبراني Surfshark .
على سبيل المثال، في وقت سابق من هذا العام، أصبحت إيطاليا أول دولة غربية تحظر المزيد من تطوير ChatGPT بسبب مخاوف تتعلق بالخصوصية. ثم تراجعت عن هذا القرار لاحقًا ، لكن الحظر الأولي حدث بعد أن تعرض تطبيق معالجة اللغة الطبيعية لاختراق للبيانات يتعلق بمحادثات المستخدم ومعلومات الدفع.
وقال كافيكيت: “على الرغم من أن ChatGPT أدخل بعض التحسينات بعد الحظر المؤقت في إيطاليا، إلا أنه لا يزال هناك مجال للتحسين. إن معالجة مشكلات الخصوصية المحتملة هذه أمر بالغ الأهمية لضمان الاستخدام المسؤول والأخلاقي للبيانات، وتعزيز الثقة، وحماية خصوصية المستخدم في تفاعلات الذكاء الاصطناعي”.
على سبيل المثال، قامت شركة Kaveckyte بتحليل ممارسات جمع البيانات الخاصة بـ ChatGPT، ووضعت قائمة بالعيوب المحتملة: لقد جمعت كمية هائلة من البيانات الشخصية لتدريب نماذجها، ولكن ربما لم يكن لديها أساس قانوني للقيام بذلك؛ لم تخطر جميع الأشخاص الذين تم استخدام بياناتهم لتدريب نموذج الذكاء الاصطناعي؛ إنها ليست دقيقة دائمًا؛ وتفتقر إلى أدوات فعالة للتحقق من العمر لمنع الأطفال دون سن 13 عامًا من استخدامها.
إلى جانب هذه القضايا، يشعر خبراء آخرون بالقلق من وجود مشاكل أكثر جوهرية لم يتمكن طلاب الماجستير في القانون من التغلب عليها بعد - وهي أمن البيانات التي يتم جمعها وتخزينها بواسطة الذكاء الاصطناعي، وسرقة الملكية الفكرية، وسرية البيانات.
قال سيدهارث من شركة تورينج: “لكي يتمكن المستشفى أو البنك من استخدام شهادات الماجستير في القانون، يتعين علينا حل قضايا الملكية الفكرية والأمن والسرية. هناك حلول هندسية جيدة لبعض هذه القضايا. وأعتقد أن هذه الحلول سوف يتم حلها، ولكن يجب حلها حتى يمكن استخدامها في المؤسسات. لا تريد الشركات استخدام شهادات الماجستير في القانون في سياق تستخدم فيه بيانات الشركة للمساعدة في تقديم نتائج أفضل لمنافس”.
وليس من المستغرب أن تبادر عدد من الدول والهيئات الحكومية في مختلف أنحاء العالم إلى إطلاق جهود للتعامل مع أدوات الذكاء الاصطناعي، وكانت الصين الأكثر استباقية حتى الآن. ومن بين هذه الجهود:
لقد طرحت الصين بالفعل العديد من المبادرات الخاصة بحوكمة الذكاء الاصطناعي ، على الرغم من أن معظم هذه المبادرات تتعلق بخصوصية المواطن وليس بالضرورة السلامة.
كشفت إدارة بايدن في الولايات المتحدة عن قواعد الذكاء الاصطناعي لمعالجة السلامة والخصوصية بناءً على محاولات سابقة لتعزيز شكل من أشكال الابتكار المسؤول، على الرغم من أن الكونجرس لم يقدم حتى الآن أي قوانين من شأنها تنظيم الذكاء الاصطناعي. في أكتوبر 2022، كشفت الإدارة عن مخطط لـ “إعلان حقوق الذكاء الاصطناعي” وإطار عمل لإدارة مخاطر الذكاء الاصطناعي ودفعت مؤخرًا إلى إنشاء مورد بحثي وطني للذكاء الاصطناعي.
دعت دول مجموعة السبع مؤخرًا إلى إنشاء معايير تقنية لإبقاء الذكاء الاصطناعي تحت السيطرة، قائلة إن تطوره تجاوز الرقابة على السلامة والأمن.
والاتحاد الأوروبي يضع اللمسات الأخيرة على التشريع التي من شأنها محاسبة الشركات التي تنشئ منصات الذكاء الاصطناعي التوليدية مثل ChatGPT التي يمكنها أخذ المحتوى الذي تنتجه من مصادر غير مسماة.