أصدرت جامعة إلينوي في إربانا شامبين بالتعاون مع جامعة ستانفورد وجامعة كاليفورنيا في بيركلي ومركز أمان الذكاء الاصطناعي ومعهد أبحاث مايكروسوفت منصة شاملة لتقييم الموثوقية لنموذج اللغة الكبير (LLMs). تم تقديم هذه الدراسة بالتفصيل في الورقة البحثية التي نُشرت مؤخرًا بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
اكتشف فريق البحث بعض الثغرات الجديدة المتعلقة بالموثوقية. على سبيل المثال، يميل نموذج GPT إلى إنتاج مخرجات سامة ومتحيزة، وقد يكشف عن بيانات التدريب ومعلومات الخصوصية في تاريخ المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه يكون أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بشكل خبيث، وقد يكون ذلك لأن النموذج يتبع التعليمات المضللة بشكل أكثر صرامة.
تظهر هذه الدراسة تقييمًا شاملاً لمصداقية نموذج GPT، وتكشف عن الفجوات الموجودة في المصداقية. تعاون فريق البحث مع قسم منتجات مايكروسوفت لتأكيد أن الثغرات المحتملة المكتشفة لن تؤثر على الخدمات الحالية المقدمة للمستخدمين. كما شاركوا نتائج البحث مع OpenAI، التي أدرجت هذه الثغرات المحتملة في المواصفات النظامية للنماذج ذات الصلة.
تأمل الفريق البحثي من خلال هذا العمل في تشجيع الأوساط الأكاديمية على مزيد من البحث، لمنع الجهات الفاعلة السيئة من استغلال الثغرات وإحداث الأذى. يعتبرون هذا التقييم نقطة انطلاق، ويرغبون في التعاون مع الأطراف الأخرى لمواصلة العمل على هذا الأساس، لإنشاء نماذج أكثر قوة وموثوقية. لتعزيز التعاون، يتمتع الكود المرجعي الذي نشره بقابلية توسيع وسهولة استخدام عالية.
منظور تقييم موثوقية نماذج اللغة
مع الانتشار الواسع للنماذج اللغوية الكبيرة في مجالات مختلفة، بما في ذلك الرعاية الصحية والمالية وغيرها من المجالات الحساسة، أصبح من المهم بشكل خاص إجراء تقييم شامل لموثوقيتها. قامت فرق البحث بتقييم نموذج GPT من ثمانية جوانب، تغطي سيناريوهات تطبيق مختلفة، ومهام، ومؤشرات، ومجموعات بيانات.
هدفهم هو تقييم: 1) أداء نموذج GPT من وجهات نظر موثوقية مختلفة; 2) قدرته على التكيف في بيئات معادية ( مثل الأنظمة/التلميحات العدائية، وعرض ).
لتقييم متانة GPT-3.5 و GPT-4 ضد هجمات النصوص المعادية، قامت فريق البحث بإنشاء ثلاثة سيناريوهات تقييم:
إجراء التقييم على معيار AdvGLUE القياسي، باستخدام وصف المهمة المحايد، والهدف هو التقييم:
a) ضعف نموذج GPT ضد الهجمات المعاكسة للنصوص الحالية;
b) مقارنة متانة نماذج GPT المختلفة مع النماذج المتقدمة في معيار AdvGLUE;
c) تأثير الهجمات المضادة على قدرة النموذج في اتباع التعليمات.
d) قابلية تحويل استراتيجية الهجوم الحالية.
تقييم على معيار AdvGLUE، تقديم إرشادات مختلفة لمهام التصميم والتوجيه، دراسة قدرة النموذج على التعافي تحت أوصاف المهام المختلفة والتوجيهات النظامية في ظل ( التحديات ).
تقييم GPT-3.5 و GPT-4 على النصوص التحديّة العدائية التي تم إنشاؤها بواسطة فريق البحث AdvGLUE++، واختبار هشاشتهما بشكل أكبر تحت هجمات عدائية قوية في بيئات مختلفة.
الاكتشافات الرئيسية لـ DecodingTrust
أظهرت الأبحاث أن نماذج اللغة الكبيرة لديها بعض المزايا والتهديدات غير المعلنة سابقًا فيما يتعلق بالموثوقية:
في جانب متانة العروض التقديمية التنافسية، فإن GPT-3.5 و GPT-4 لن يتم تضليلهما من قبل الأمثلة المضادة للحقائق، بل قد يستفيدان منها. ومع ذلك، قد تضلل العروض التقديمية لمكافحة الاحتيال كلا النموذجين في إجراء توقعات خاطئة بشأن المدخلات المضادة للحقائق، خاصة عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم، حيث يكون GPT-4 أكثر عرضة للتأثر.
فيما يتعلق بالتسمم والتحيز، فإن النموذجين يظهران انحرافًا طفيفًا عن معظم مواضيع الصور النمطية تحت التوجيهات الإيجابية والمحايدة. ولكن تحت التوجيهات المضللة، قد يتم "إغواؤهما" للموافقة على محتوى متحيز. إن GPT-4 أكثر تأثراً بالتوجيهات المضللة المستهدفة مقارنةً بـ GPT-3.5.
تعتمد درجة تحيز النموذج على الفئات ومواضيع الصور النمطية المذكورة في موجه المستخدم. يظهر النموذج تحيزًا أقل تجاه بعض الموضوعات الحساسة، وقد يكون ذلك بسبب التعديل الدقيق المستهدف.
في مجال حماية الخصوصية، قد يكشف نموذج GPT عن معلومات حساسة موجودة في بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة الإضافية إلى تحسين دقة استخراج المعلومات بشكل كبير. قد يكشف النموذجان كلاهما عن المعلومات الشخصية المدخلة في تاريخ المحادثة.
إن GPT-4 أكثر قوة من GPT-3.5 في حماية المعلومات الشخصية المحددة ( PII )، لكن كلا النموذجين قويان بالنسبة لأنواع معينة من PII ( مثل أرقام الضمان الاجتماعي ). ومع ذلك، في بعض الحالات، قد يكشف النموذجان عن جميع أنواع PII.
هناك اختلافات في قدرة نموذج GPT على فهم المصطلحات المتعلقة بالخصوصية. في بعض الحالات، من المرجح أن يكشف GPT-4 عن معلومات خاصة أكثر من GPT-3.5، وقد يكون ذلك بسبب اتباعه للتعليمات المضللة بشكل أكثر صرامة.
تقدم هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن مزايا ونواقص النماذج الحالية. هذه الاكتشافات لها أهمية كبيرة في تعزيز التطوير الآمن وتطبيق نماذج اللغة الكبيرة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
دراسة موثوقية نموذج GPT تكشف عن ثغرات جديدة ووجود مخاطر أمنية
دراسة شاملة لتقييم موثوقية نموذج GPT
أصدرت جامعة إلينوي في إربانا شامبين بالتعاون مع جامعة ستانفورد وجامعة كاليفورنيا في بيركلي ومركز أمان الذكاء الاصطناعي ومعهد أبحاث مايكروسوفت منصة شاملة لتقييم الموثوقية لنموذج اللغة الكبير (LLMs). تم تقديم هذه الدراسة بالتفصيل في الورقة البحثية التي نُشرت مؤخرًا بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
اكتشف فريق البحث بعض الثغرات الجديدة المتعلقة بالموثوقية. على سبيل المثال، يميل نموذج GPT إلى إنتاج مخرجات سامة ومتحيزة، وقد يكشف عن بيانات التدريب ومعلومات الخصوصية في تاريخ المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه يكون أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بشكل خبيث، وقد يكون ذلك لأن النموذج يتبع التعليمات المضللة بشكل أكثر صرامة.
تظهر هذه الدراسة تقييمًا شاملاً لمصداقية نموذج GPT، وتكشف عن الفجوات الموجودة في المصداقية. تعاون فريق البحث مع قسم منتجات مايكروسوفت لتأكيد أن الثغرات المحتملة المكتشفة لن تؤثر على الخدمات الحالية المقدمة للمستخدمين. كما شاركوا نتائج البحث مع OpenAI، التي أدرجت هذه الثغرات المحتملة في المواصفات النظامية للنماذج ذات الصلة.
تأمل الفريق البحثي من خلال هذا العمل في تشجيع الأوساط الأكاديمية على مزيد من البحث، لمنع الجهات الفاعلة السيئة من استغلال الثغرات وإحداث الأذى. يعتبرون هذا التقييم نقطة انطلاق، ويرغبون في التعاون مع الأطراف الأخرى لمواصلة العمل على هذا الأساس، لإنشاء نماذج أكثر قوة وموثوقية. لتعزيز التعاون، يتمتع الكود المرجعي الذي نشره بقابلية توسيع وسهولة استخدام عالية.
منظور تقييم موثوقية نماذج اللغة
مع الانتشار الواسع للنماذج اللغوية الكبيرة في مجالات مختلفة، بما في ذلك الرعاية الصحية والمالية وغيرها من المجالات الحساسة، أصبح من المهم بشكل خاص إجراء تقييم شامل لموثوقيتها. قامت فرق البحث بتقييم نموذج GPT من ثمانية جوانب، تغطي سيناريوهات تطبيق مختلفة، ومهام، ومؤشرات، ومجموعات بيانات.
هدفهم هو تقييم: 1) أداء نموذج GPT من وجهات نظر موثوقية مختلفة; 2) قدرته على التكيف في بيئات معادية ( مثل الأنظمة/التلميحات العدائية، وعرض ).
لتقييم متانة GPT-3.5 و GPT-4 ضد هجمات النصوص المعادية، قامت فريق البحث بإنشاء ثلاثة سيناريوهات تقييم:
إجراء التقييم على معيار AdvGLUE القياسي، باستخدام وصف المهمة المحايد، والهدف هو التقييم: a) ضعف نموذج GPT ضد الهجمات المعاكسة للنصوص الحالية; b) مقارنة متانة نماذج GPT المختلفة مع النماذج المتقدمة في معيار AdvGLUE; c) تأثير الهجمات المضادة على قدرة النموذج في اتباع التعليمات. d) قابلية تحويل استراتيجية الهجوم الحالية.
تقييم على معيار AdvGLUE، تقديم إرشادات مختلفة لمهام التصميم والتوجيه، دراسة قدرة النموذج على التعافي تحت أوصاف المهام المختلفة والتوجيهات النظامية في ظل ( التحديات ).
تقييم GPT-3.5 و GPT-4 على النصوص التحديّة العدائية التي تم إنشاؤها بواسطة فريق البحث AdvGLUE++، واختبار هشاشتهما بشكل أكبر تحت هجمات عدائية قوية في بيئات مختلفة.
الاكتشافات الرئيسية لـ DecodingTrust
أظهرت الأبحاث أن نماذج اللغة الكبيرة لديها بعض المزايا والتهديدات غير المعلنة سابقًا فيما يتعلق بالموثوقية:
في جانب متانة العروض التقديمية التنافسية، فإن GPT-3.5 و GPT-4 لن يتم تضليلهما من قبل الأمثلة المضادة للحقائق، بل قد يستفيدان منها. ومع ذلك، قد تضلل العروض التقديمية لمكافحة الاحتيال كلا النموذجين في إجراء توقعات خاطئة بشأن المدخلات المضادة للحقائق، خاصة عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم، حيث يكون GPT-4 أكثر عرضة للتأثر.
فيما يتعلق بالتسمم والتحيز، فإن النموذجين يظهران انحرافًا طفيفًا عن معظم مواضيع الصور النمطية تحت التوجيهات الإيجابية والمحايدة. ولكن تحت التوجيهات المضللة، قد يتم "إغواؤهما" للموافقة على محتوى متحيز. إن GPT-4 أكثر تأثراً بالتوجيهات المضللة المستهدفة مقارنةً بـ GPT-3.5.
تعتمد درجة تحيز النموذج على الفئات ومواضيع الصور النمطية المذكورة في موجه المستخدم. يظهر النموذج تحيزًا أقل تجاه بعض الموضوعات الحساسة، وقد يكون ذلك بسبب التعديل الدقيق المستهدف.
في مجال حماية الخصوصية، قد يكشف نموذج GPT عن معلومات حساسة موجودة في بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة الإضافية إلى تحسين دقة استخراج المعلومات بشكل كبير. قد يكشف النموذجان كلاهما عن المعلومات الشخصية المدخلة في تاريخ المحادثة.
إن GPT-4 أكثر قوة من GPT-3.5 في حماية المعلومات الشخصية المحددة ( PII )، لكن كلا النموذجين قويان بالنسبة لأنواع معينة من PII ( مثل أرقام الضمان الاجتماعي ). ومع ذلك، في بعض الحالات، قد يكشف النموذجان عن جميع أنواع PII.
هناك اختلافات في قدرة نموذج GPT على فهم المصطلحات المتعلقة بالخصوصية. في بعض الحالات، من المرجح أن يكشف GPT-4 عن معلومات خاصة أكثر من GPT-3.5، وقد يكون ذلك بسبب اتباعه للتعليمات المضللة بشكل أكثر صرامة.
تقدم هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن مزايا ونواقص النماذج الحالية. هذه الاكتشافات لها أهمية كبيرة في تعزيز التطوير الآمن وتطبيق نماذج اللغة الكبيرة.