التركيز الجديد في صناعة الذكاء الاصطناعي: بيانات داخل السلسلة تصبح مفتاح تجاوز قيود البيانات

النقطة الجديدة في صناعة الذكاء الاصطناعي: قيمة البنية التحتية للبيانات وداخل السلسلة البيانات

مع تجاوز حجم معلمات نموذج الذكاء الاصطناعي تريليون ، وقياس القدرة الحاسوبية بمعدل مئات تريليونات في الثانية ، أصبحت البيانات هي العنق الزجاجي الرئيسي في تطوير الذكاء الاصطناعي. لن يكون تجديد صناعة الذكاء الاصطناعي في المستقبل مدفوعًا بعد الآن بهياكل النماذج أو قوة شرائح الكمبيوتر ، ولكن يعتمد على كيفية تحويل بيانات السلوك البشري المجزأة إلى موارد قابلة للتحقق ومنظمة ويمكن للذكاء الاصطناعي استخدامها مباشرة. تكشف هذه الاتجاهات عن التناقض الهيكلي الذي يواجه تطوير الذكاء الاصطناعي حاليًا ، بينما ترسم صورة جديدة لعصر "تجميع البيانات المالية" ، حيث ستصبح البيانات عنصر الإنتاج الأساسي القابل للقياس والتداول والإضافة للقيمة مثل الكهرباء وقوة الحوسبة.

التحديات المتعلقة بالبيانات التي تواجه صناعة الذكاء الاصطناعي

تطور الذكاء الاصطناعي مدفوع لفترة طويلة بنموذجي "النموذج - القوة الحاسوبية". منذ ثورة التعلم العميق، ارتفعت معلمات النموذج من مستوى الملايين إلى تريليونات، واحتياجات القوة الحاسوبية في ازدياد أسي. يُقدَّر أن تكلفة تدريب نموذج لغوي متقدم قد تجاوزت 100 مليون دولار، حيث يتم استخدام 90% من ذلك في تأجير مجموعات وحدات معالجة الرسومات. ومع ذلك، بينما يركز القطاع على "نموذج أكبر" و"شرائح أسرع"، فإن أزمة جانب عرض البيانات تأتي بهدوء.

لقد وصلت "البيانات العضوية" التي أنشأها البشر إلى سقف النمو. كمثال على بيانات النصوص، فإن إجمالي كمية النصوص عالية الجودة المتاحة على الإنترنت والقابلة للتنقيب يبلغ حوالي 10^12 كلمة، بينما يتطلب تدريب نموذج يحتوي على مئة مليار معلمة حوالي 10^13 كلمة من البيانات. وهذا يعني أن مجموعة البيانات الحالية يمكن أن تدعم تدريب 10 نماذج بحجم مماثل فقط. والأسوأ من ذلك، أن البيانات المكررة والمحتوى منخفض الجودة تشكل أكثر من 60%، مما يضغط أكثر على إمدادات البيانات الفعالة. عندما تبدأ النماذج في "ابتلاع" البيانات التي تولدها بنفسها، فإن تدهور أداء النموذج الناجم عن "تلوث البيانات" أصبح مصدر قلق في الصناعة.

جذور هذا التناقض تكمن في: أن صناعة الذكاء الاصطناعي طالما اعتبرت البيانات "موارد مجانية"، وليس "أصول استراتيجية" تحتاج إلى رعاية دقيقة. لقد شكلت النماذج وقوة الحوسبة نظامًا سوقيًا ناضجًا، لكن إنتاج البيانات وتنظيفها والتحقق منها وتداولها لا يزال في "عصر همجي". ستكون السنوات العشر القادمة في مجال الذكاء الاصطناعي هي "سنوات البنية التحتية للبيانات"، وبيانات السلسلة داخل الشبكات المشفرة هي المفتاح لحل هذه المعضلة.

داخل السلسلة البيانات: قاعدة بيانات "سلوك الإنسان" الأكثر حاجة للذكاء الاصطناعي

في سياق الجوع للبيانات، تُظهر البيانات الموجودة داخل السلسلة لشبكات التشفير قيمة لا يمكن الاستغناء عنها. بالمقارنة مع بيانات الإنترنت التقليدية، تتمتع البيانات الموجودة داخل السلسلة بصدق "محاذاة الحوافز" بشكل طبيعي. كل معاملة، وكل تفاعل عقد، وكل سلوك لعنوان محفظة، مرتبط مباشرة برأس المال الحقيقي، ولا يمكن التلاعب به. يمكن تعريف هذه البيانات بأنها "أكثر بيانات سلوك محاذاة الحوافز البشرية تركيزًا على الإنترنت"، ويتجلى ذلك في ثلاثة أبعاد:

  1. الإشارات "النيابية" في العالم الحقيقي: تسجل البيانات داخل السلسلة سلوكيات اتخاذ القرار التي تم التصويت عليها بالأموال الحقيقية، وتعكس مباشرة حكم المستخدم بشأن قيمة المشروع، وتفضيلات المخاطر، واستراتيجيات تخصيص الأموال. هذه البيانات "المدعومة برأس المال" لها قيمة عالية في تدريب قدرة اتخاذ القرار للذكاء الاصطناعي.

  2. سلسلة "السلوك القابلة للتتبع": تتيح شفافية البلوك تشين تتبع سلوك المستخدمين بشكل كامل. تشكل المعاملات التاريخية لعنوان المحفظة، والبروتوكولات التي تم التفاعل معها، وتغيرات الأصول المحتفظ بها، سلسلة متماسكة من "السلوك". هذه البيانات السلوكية المنظمة هي بالضبط "عينات الاستدلال البشري" الأكثر ندرة في نماذج الذكاء الاصطناعي الحالية.

  3. الوصول "غير المصرح به" إلى النظام البيئي المفتوح: البيانات داخل السلسلة مفتوحة ولا تحتاج إلى إذن. يمكن لأي مطور الحصول على البيانات الأصلية من خلال متصفح blockchain أو واجهة برمجة تطبيقات البيانات، مما يوفر مصدر بيانات "بلا حواجز" لتدريب نماذج الذكاء الاصطناعي.

ومع ذلك، فإن انفتاح بيانات داخل السلسلة قد جلب أيضًا تحديات: هذه البيانات موجودة في شكل "سجل الأحداث"، وهي "إشارات خام" غير منظمة، وتحتاج إلى التنظيف، والتوحيد، والربط لكي يمكن استخدامها بواسطة نماذج الذكاء الاصطناعي. حاليًا، فإن "معدل تحويل بيانات داخل السلسلة إلى هيكلية" أقل من 5%، ويتم دفن العديد من الإشارات عالية القيمة في مليارات من الأحداث المجزأة.

نظام "التشغيل" لبيانات داخل السلسلة

لحل مشكلة تجزئة البيانات داخل السلسلة، اقترحت الصناعة مفهوم "نظام التشغيل الذكي داخل السلسلة" المصمم خصيصًا للذكاء الاصطناعي. الهدف الرئيسي هو تحويل الإشارات المتناثرة داخل السلسلة إلى بيانات جاهزة للذكاء الاصطناعي قابلة للتنظيم، يمكن التحقق منها، وقابلة للتجميع في الوقت الفعلي. يتضمن هذا النظام المكونات الرئيسية التالية:

  1. معايير البيانات المفتوحة: توحيد تعريفات البيانات الواردة داخل السلسلة وطرق وصفها، لضمان أن نماذج الذكاء الاصطناعي لا تحتاج إلى التكيف مع تنسيقات بيانات سلاسل أو بروتوكولات مختلفة، وبالتالي "فهم" المنطق التجاري وراء البيانات مباشرة.

  2. آلية التحقق من البيانات: من خلال آلية الإجماع في داخل السلسلة لضمان صحة البيانات. عندما يعالج النظام حدثًا في داخل السلسلة، تقوم عقد التحقق بالتحقق المتبادل من قيم التجزئة للبيانات ومعلومات التوقيع وحالة داخل السلسلة، لضمان تطابق البيانات الهيكلية الناتجة تمامًا مع البيانات الأصلية في داخل السلسلة.

  3. طبقة توفر البيانات عالية السعة: من خلال تحسين خوارزميات ضغط البيانات وبروتوكولات النقل، يتم تحقيق معالجة في الوقت الحقيقي لآلاف الأحداث داخل السلسلة في الثانية. هذا التصميم يمكّن النظام من دعم متطلبات البيانات في الوقت الحقيقي لتطبيقات الذكاء الاصطناعي على نطاق واسع.

رؤية عصر "تحويل البيانات إلى مالية"

الهدف النهائي من نظام تشغيل البيانات داخل السلسلة هذا هو دفع صناعة الذكاء الاصطناعي إلى عصر "تمويل البيانات" - حيث لم تعد البيانات مجرد "مواد تدريب" سلبية، بل أصبحت "رأسمال" نشط يمكن تسعيره وتداوله وزيادة قيمته. يعتمد تحقيق هذه الرؤية على تحويل البيانات إلى أربع خصائص أساسية:

  1. هيكلية: تحويل البيانات الأصلية داخل السلسلة إلى بيانات هيكلية يمكن لنموذج الذكاء الاصطناعي استخدامها مباشرة.

  2. قابل للتجميع: يمكن للبيانات الهيكلية أن تتجمع بحرية مثل قطع ليغو، مما يوسع حدود تطبيق البيانات.

  3. قابل للتحقق: من خلال تقنية داخل السلسلة لضمان صحة البيانات وقابلية تتبعها.

  4. يمكن تحقيق الربح: يمكن لمقدمي البيانات تحقيق الربح من البيانات الهيكلية مباشرة، وتحدد قيمة البيانات من خلال العرض والطلب في السوق.

في هذا العصر الجديد، ستصبح البيانات الجسر الذي يربط الذكاء الاصطناعي بالعالم الحقيقي. يمكن لوكلاء التداول أن يدركوا مشاعر السوق من خلال البيانات داخل السلسلة، ويمكن للتطبيقات الذاتية أن تحسن الخدمات من خلال بيانات سلوك المستخدم، في حين يمكن للمستخدمين العاديين الحصول على عوائد مستمرة من خلال مشاركة البيانات.

عندما نتحدث عن مستقبل الذكاء الاصطناعي، يجب ألا نركز فقط على "مستوى ذكاء" النماذج، بل يجب أن نولي اهتمامًا أيضًا لـ"التربة البيانات" التي تدعم الذكاء. إن تطور الذكاء الاصطناعي هو في جوهره تطور البنية التحتية للبيانات. من "محدودية" البيانات التي يولدها الإنسان إلى "اكتشاف القيمة" للبيانات داخل السلسلة، من "الفوضى" للإشارات المجزأة إلى "النظام" للبيانات الهيكلية، من "المورد المجاني" للبيانات إلى "تحويل البيانات المالية" إلى "الأصول الرأسمالية"، هذه التحولات تعيد تشكيل المنطق الأساسي لصناعة الذكاء الاصطناعي.

تمامًا كما أن شبكة الكهرباء ولدت الثورة الصناعية ، فإن شبكة الحوسبة ولدت ثورة الإنترنت ، وشبكة البيانات تولد "ثورة البيانات" للذكاء الاصطناعي. التطبيقات القادمة للذكاء الاصطناعي لا تحتاج فقط إلى نماذج أو محافظ ، ولكنها تحتاج أيضًا إلى بيانات قابلة للبرمجة وغير موثوقة وعالية الإشارة. عندما يتم أخيرًا منح البيانات القيمة التي تستحقها ، يمكن للذكاء الاصطناعي أن يطلق حقًا القوة التي تغير العالم.

READY-6.14%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • مشاركة
تعليق
0/400
AirdropDreamBreakervip
· منذ 11 س
تحقيق الدخل من البيانات، أليس كذلك؟ تسمية جديدة للحمقى.
شاهد النسخة الأصليةرد0
MevWhisperervip
· منذ 11 س
داخل السلسلة البيانات بالفعل تم تداولها بشكل حار مؤخرًا
شاهد النسخة الأصليةرد0
ZkProofPuddingvip
· منذ 11 س
كيف أشعر أن هناك موجة من المفاهيم تُتداول؟ هاها
شاهد النسخة الأصليةرد0
ForkThisDAOvip
· منذ 11 س
لذا ما زلنا نتداول في البيانات
شاهد النسخة الأصليةرد0
AlwaysMissingTopsvip
· منذ 11 س
البيانات هي النفط الحقيقي الجديد
شاهد النسخة الأصليةرد0
  • تثبيت