البيانات تخنق الذكاء الاصطناعي. إليك كيفية التحرر

الذكاء الاصطناعي هو وحش شره متعطش للبيانات. لسوء الحظ، لا تزال المشاكل المتعلقة بهذه البيانات – الجودة والكمية والسرعة والتوافر والتكامل مع أنظمة الإنتاج – مستمرة كعقبة رئيسية أمام تنفيذ المؤسسة الناجح للتكنولوجيا.
المتطلبات سهلة الفهم، ويشتهر بصعوبة تنفيذها: تقديم مدخلات قابلة للاستخدام وعالية الجودة لتطبيقات وقدرات الذكاء الاصطناعي في المكان المناسب بطريقة موثوقة وآمنة وفي الوقت المناسب (غالبًا في الوقت الفعلي).
بعد ما يقرب من عقد من الزمان أصبح التحدي واضحًا، لا تزال العديد من الشركات تعاني من بيانات الذكاء الاصطناعي: الكثير جدًا، قليل جدًا، متسخ جدًا، بطيء جدًا ومنفصل عن أنظمة الإنتاج
. والنتيجة هي مشهد من الاختناقات واسعة النطاق في التدريب والاستدلال والنشر على نطاق أوسع، والأكثر خطورة، عائد الاستثمار الضعيف.
وفقًا لأحدث دراسات الصناعة، تكمن المشكلات المتعلقة بالبيانات وراء معدل النجاح المنخفض والركود حوالي 54٪، كما يقول جارتنر) في نقل إثبات المفاهيم الخاصة بالذكاء الاصطناعي (POCs) والطيارين إلى الإنتاج.
غالبًا ما تكون مشكلات البيانات وراء المشكلات ذات الصلة بالامتثال التنظيمي والخصوصية وقابلية التوسع وتجاوز التكاليف.
يمكن أن يكون لها تأثير مخيف على مبادرات الذكاء الاصطناعي – تمامًا كما تعتمد العديد من المنظمات على التكنولوجيا ومجموعات الأعمال لتقديم أعمال هادفة ومزايا تنافسية من الذكاء الاصطناعي بسرعة.
المفتاح: توافر البيانات والبنية التحتية للذكاء الاصطناعي
نظرًا للتوقعات المتزايدة للرؤساء التنفيذيين ومجالس الإدارة لتحقيق مكاسب من رقمين في الكفاءات والإيرادات من هذه المبادرات، يجب أن يصبح تحرير البيانات الخانقة بشأن توسع الذكاء الاصطناعي والتصنيع أولوية استراتيجية للمؤسسات.
ولكن كيف؟ يعتمد نجاح جميع أنواع الذكاء الاصطناعي بشكل كبير على التوافر والقدرة على الوصول إلى بيانات قابلة للاستخدام وفي الوقت المناسب.
وهذا بدوره يعتمد على البنية التحتية للذكاء الاصطناعي التي يمكنها توفير البيانات وتمكين التكامل بسهولة مع تكنولوجيا المعلومات الخاصة بالإنتاج.
إن التأكيد على توافر البيانات والتواصل السريع والسلس مع أنظمة المؤسسة سيساعد المؤسسات على تقديم تطبيقات وإمكانيات أكثر موثوقية وأكثر فائدة للذكاء الاصطناعي.
لمعرفة سبب منطقية هذا النهج، قبل اللجوء إلى الحلول، دعونا ننظر بإيجاز إلى مشاكل البيانات التي تخنق الذكاء الاصطناعي، والعواقب السلبية التي تنتج عن ذلك.
البيانات أساسية لنجاح الذكاء الاصطناعي – والفشل
يمكن للعديد من العوامل أن تنسف أو توقف نجاح تطوير الذكاء الاصطناعي والتوسع فيه: نقص الدعم التنفيذي والتمويل، والمشاريع المختارة بشكل سيئ، والمخاطر الأمنية والتنظيمية، وتحديات التوظيف، خاصة مع علماء البيانات.
ومع ذلك، في العديد من التقارير على مدى السنوات السبع الماضية، لا تزال المشاكل المتعلقة بالبيانات في قمة تحديات الذكاء الاصطناعي أو بالقرب منها في كل صناعة وجغرافيا. لسوء الحظ، تستمر النضالات.
وجدت دراسة جديدة رئيسية أجرتها شركة Deloitte، على سبيل المثال، أن 44٪ من الشركات العالمية التي شملها الاستطلاع واجهت تحديات كبيرة في الحصول على البيانات والمدخلات لتدريب النموذج وفي دمج الذكاء الاصطناعي مع أنظمة تكنولوجيا المعلومات التنظيمية (انظر الرسم البياني أدناه).
الحواجز | عدم كفاية | الصعوبات |
50٪ إدارة المخاطر المتعلقة بالذكاء الاصطناعي | 50٪ التزام تنفيذي | 46٪ دمج الذكاء الاصطناعي في العمليات اليومية وسير العمل |
42٪ تطبيق تقنيات الذكاء الاصطناعي | 50٪ صيانة أو دعم مستمر بعد الإطلاق الأولي | 44٪ التكامل مع الأنظمة التنظيمية / التجارية الأخرى |
40٪ إثبات قيمة العمل | 44٪ تدريب لدعم التبني | 44٪ من حلول الذكاء الاصطناعي كانت معقدة للغاية أو يصعب على المستخدمين النهائيين تبنيها |
44٪ الحصول على البيانات أو المدخلات اللازمة لتدريب النموذج | 42٪ التوافق بين مطوري الذكاء الاصطناعي وحاجة العمل / المشكلة / الحاجة / المهمة | 42٪ تحديد حالات الاستخدام ذات القيمة التجارية الأكبر |
41٪ مهارات فنية | 38٪ يختارون تقنيات الذكاء الاصطناعي الصحيحة | |
38٪ تمويل لتقنيات وحلول الذكاء الاصطناعي |
إن خطورة المشكلة ومركزتيها واضحان. البيانات هي الوقود الخام (المدخلات) والمنتج المكرر (المخرجات) للذكاء الاصطناعي.
لكي تكون ناجحة ومفيدة، يحتاج الذكاء الاصطناعي إلى مصدر بيانات موثوق به ومتاح وعالي الجودة. لسوء الحظ، هناك مجموعة من العقبات التي ابتليت بها العديد من الشركات.
نقص جودة البيانات وقابلية الملاحظة. تم تحديد GIGO (إدخال / إخراج القمامة) كمشكلة منذ فجر الحوسبة
. يتم تضخيم تأثير هذه الحقيقة البديهية في الذكاء الاصطناعي، وهو جيد فقط مثل المدخلات المستخدمة لتدريب الخوارزميات وتشغيلها.
أحد مقاييس التأثير الحالي: قدرت جارتنر في عام 2021 أن جودة البيانات الرديئة تكلف المنظمة النموذجية متوسط 12.9 مليون دولار سنويًا، وهي خسارة تكاد تكون أكبر اليوم.
تشير إمكانية مراقبة البيانات إلى القدرة على فهم صحة البيانات والأنظمة ذات الصلة عبر خطوط أنابيب البيانات والتخزين والحساب والمعالجة.
إنها ضرورية لضمان جودة البيانات والتدفق الموثوق لبيانات الذكاء الاصطناعي التي يتم استيعابها أو تحويلها أو دفعها إلى المصب.
يمكن أن توفر الأدوات المتخصصة عرضًا شاملاً ضروريًا لتحديد مشاكل الجودة والبنية التحتية والمعالجة وإصلاحها وتحسينها.
ومع ذلك، تصبح المهمة أكثر صعوبة مع نماذج الذكاء الاصطناعي الأكبر والأكثر تعقيدًا اليوم، والتي يمكن تغذيتها بمئات مصادر البيانات متعددة الطبقات، الداخلية والخارجية، وخطوط البيانات المترابطة.
قال ما يقرب من 90٪ من المشاركين في دراسة Gartner إنهم لديهم أو يخططون للاستثمار في مراقبة البيانات وحلول الجودة الأخرى. في الوقت الحالي، لا يزال كلاهما جزءًا كبيرًا من مشكلة بيانات الذكاء الاصطناعي.
سوء إدارة البيانات. تعد القدرة على الإدارة الفعالة لتوافر البيانات المستخدمة وقابليتها للاستخدام وسلامتها وأمنها طوال دورة حياة الذكاء الاصطناعي جانبًا مهمًا من جوانب النجاح ولكن لا يُعترف به كثيرًا.
يؤدي عدم الالتزام بالسياسات والإجراءات والمبادئ التوجيهية التي تساعد على ضمان الإدارة السليمة للبيانات – وهو أمر بالغ الأهمية لحماية سلامة مجموعات البيانات ومصداقيتها – إلى زيادة صعوبة مواءمة الذكاء الاصطناعي مع أهداف الشركة.
كما أنه يفتح الباب أمام مشاكل الامتثال والتنظيم والأمن مثل تلف البيانات والتسمم، والتي يمكن أن تنتج مخرجات ذكاء اصطناعي خاطئة أو ضارة.
عدم توفر البيانات. يظهر الوصول إلى البيانات لبناء نماذج الذكاء الاصطناعي واختبارها باعتباره ربما التحدي الأكثر أهمية للبيانات لنجاح الذكاء الاصطناعي.
تسلط الدراسات الحديثة التي أجراها معهد ماكينزي العالمي ومكتب مساءلة الحكومة الأمريكية (GAO) الضوء على هذه القضية باعتبارها عقبة رئيسية أمام توسيع نطاق الذكاء الاصطناعي واعتماده.
خلصت دراسة حول الذكاء الاصطناعي المؤسسي نُشرت في مجلة MIT Sloan Management بعنوان “مشكلة البيانات المماطلة في الذكاء الاصطناعي” إلى أنه: “على الرغم من أن العديد من الأشخاص يركزون على دقة البيانات واكتمالها،
الدرجة التي يمكن من خلالها الوصول إليها بواسطة الآلات – أحد الأبعاد جودة البيانات – يبدو أنه يمثل تحديًا أكبر في إخراج الذكاء الاصطناعي من المختبر إلى العمل “.
استراتيجيات نجاح البيانات في الذكاء الاصطناعي
للمساعدة في تجنب هذه وغيرها من العروض القائمة على البيانات، يجب على قادة الأعمال والتكنولوجيا في المؤسسات التفكير في استراتيجيتين:
فكر في توفر بيانات الصورة الكبيرة من البداية. تنجم العديد من مشكلات إمكانية الوصول عن كيفية تطوير الذكاء الاصطناعي عادةً في المؤسسات اليوم.
على وجه التحديد، نادرًا ما يتم تضمين التوافر الشامل وتسليم البيانات في العملية. بدلاً من ذلك، في كل خطوة، يكون للمجموعات المختلفة متطلبات متباينة للبيانات.
نادرًا ما ينظر أي شخص إلى الصورة الكبيرة لكيفية تسليم البيانات واستخدامها في أنظمة الإنتاج.
في معظم المؤسسات، يعني هذا طرح المشكلة على الطريق إلى قسم تكنولوجيا المعلومات، حيث يمكن أن تكون الإصلاحات المتأخرة أكثر تكلفة وبطيئة.
ركز على البنية التحتية للذكاء الاصطناعي التي تدمج البيانات والنماذج مع أنظمة تكنولوجيا المعلومات الخاصة بالإنتاج.
يتضمن الجزء الثاني الحاسم من تحدي إمكانية الوصول / التوافر تقديم بيانات عالية الجودة في الوقت المناسب للنماذج والأنظمة حيث ستتم معالجتها واستخدامها.
مقال في هارفارد بيزنس ريفيو، ” السبب الغبي لمشروع الذكاء الاصطناعي الخاص بك سوف يفشل” ، يوضح الأمر على النحو التالي:
“من الصعب جدًا دمج نماذج الذكاء الاصطناعي في الهندسة التكنولوجية الشاملة للشركة.
يتطلب القيام بذلك تضمين التكنولوجيا الجديدة بشكل صحيح في أنظمة تكنولوجيا المعلومات الأكبر والبنية التحتية – لن يفيدك الذكاء الاصطناعي من الدرجة الأولى إذا لم تتمكن من توصيله بأنظمتك الحالية.
يتابع المؤلفون الاستنتاج: “تريد إعدادًا يمكن أن تعمل فيه البرامج والأجهزة معًا بسلاسة، لذلك يمكن للأعمال التجارية الاعتماد عليها لتشغيل عملياتها التجارية اليومية في الوقت الفعلي.
يمكن أن يؤدي وضع هياكل معالجة وتخزين مدروسة جيدًا في مكانها التغلب على مشكلات الإنتاجية ووقت الاستجابة “.
توفر البنية التحتية المستندة إلى السحابة المحسّنة للذكاء الاصطناعي أساسًا لتوحيد التطوير والنشر عبر المؤسسة.
سواء تم نشرها محليًا أو في مركز بيانات قائم على السحابة، فإن البيئة “المبنية لغرض معين” تساعد أيضًا في وظيفة مهمة ذات صلة: تمكين وصول أسرع للبيانات مع حركة أقل للبيانات.
كخطوة أولى رئيسية، توصي McKinsey بتحويل جزء من الإنفاق على البحث والتطوير والطيارين نحو بناء بنية تحتية تسمح لك بالإنتاج الشامل وتوسيع نطاق مشاريع الذكاء الاصطناعي الخاصة بك.
كما تنصح الشركة الاستشارية باعتماد MLOps والمراقبة المستمرة لنماذج البيانات المستخدمة.
تعمل البنية التحتية المتوازنة والمتسارعة على تغذية وحش بيانات الذكاء الاصطناعي
نظرًا لأن الشركات تعمق احتضانها للذكاء الاصطناعي وغيره من الحوسبة عالية الأداء القائمة على البيانات، فمن الأهمية بمكان ضمان عدم تجويع الأداء والقيمة بسبب ضعف أداء المعالجة والتخزين والشبكات.
فيما يلي اعتبارات رئيسية يجب وضعها في الاعتبار.
إحصاء – عد. عند تطوير الذكاء الاصطناعي ونشره، من الضروري النظر إلى المتطلبات الحسابية لدورة حياة البيانات بأكملها: بدءًا من إعداد البيانات ومعالجتها (تجهيز البيانات لتدريب الذكاء الاصطناعي)، ثم أثناء بناء نموذج الذكاء الاصطناعي والتدريب والاستدلال.
إن اختيار البنية الأساسية المناسبة للحوسبة (أو النظام الأساسي) لدورة الحياة الشاملة وتحسين الأداء له تأثير مباشر على التكلفة الإجمالية للملكية وبالتالي العائد على الاستثمار لمشاريع الذكاء الاصطناعي.
يمكن أن يكون سير عمل علم البيانات الشامل على وحدات معالجة الرسومات أسرع بما يصل إلى 50 مرة مقارنة بوحدات المعالجة المركزية.
لإبقاء وحدات معالجة الرسومات مشغولة، يجب نقل البيانات إلى ذاكرة المعالج في أسرع وقت ممكن.
اعتمادًا على حجم العمل، يساعد تحسين التطبيق للتشغيل على وحدة معالجة الرسومات، مع تسريع الإدخال / الإخراج في الذاكرة وخروجها، على تحقيق أعلى سرعات وزيادة استخدام المعالج إلى أقصى حد.
نظرًا لأن تحميل البيانات والتحليلات يمثلان جزءًا كبيرًا من استدلال الذكاء الاصطناعي ووقت معالجة التدريب، فإن التحسين هنا يمكن أن يؤدي إلى تخفيضات بنسبة 90٪ في وقت نقل البيانات.
على سبيل المثال، نظرًا لأن العديد من مهام معالجة البيانات متوازية، فمن الحكمة استخدام تسريع GPU لاستعلامات معالجة بيانات Apache Spark.
مثلما يمكن لوحدة معالجة الرسومات (GPU) تسريع أعباء التعلم العميق في الذكاء الاصطناعي، فإن تسريع استخراج خطوط الأنابيب وتحويلها وتحميلها يمكن أن يؤدي إلى تحسينات هائلة هنا.
التخزين. يعد أداء I / O (الإدخال / الإخراج) للتخزين أمرًا بالغ الأهمية لتدفق عمل الذكاء الاصطناعي، لا سيما في مراحل الحصول على البيانات والمعالجة المسبقة وتدريب النموذج.
مدى سرعة قراءة البيانات من مصادر متنوعة ونقلها إلى وسائط التخزين يتيح أداءً متباينًا بشكل أكبر. يعد معدل نقل البيانات أمرًا بالغ الأهمية لمنع وحدات معالجة الرسومات من الانتظار عند الإدخال / الإخراج.
اعلم أن تدريب الذكاء الاصطناعي (الذي يستغرق وقتًا طويلاً) والاستدلال (الإدخال / الإخراج الثقيل وحساس زمن الوصول) لهما متطلبات مختلفة لسلوك الوصول إلى المعالجة والتخزين باستخدام الإدخال / الإخراج.
بالنسبة لمعظم الشركات، يعد NVMe + BLOB المحلي هو الخيار الأفضل والأكثر فعالية من حيث التكلفة هنا. ضع في اعتبارك ملفات Azure Managed Luster و Azure NetAppإذا لم تكن هناك سعة NVMe SSD محلية كافية أو إذا كان الذكاء الاصطناعي يحتاج إلى نظام ملفات مشترك عالي الأداء. اختر ملفات Azure NetApp عبر Azure Managed Luster إذا كان نمط الإدخال / الإخراج يتطلب نظام ملفات مشترك بزمن انتقال منخفض للغاية.
الشبكات. هناك مجال آخر عالي التأثير لتحسين إمكانية الوصول إلى البيانات وحركتها وهو الرابط المهم ومسار العبور بين التخزين والحساب.
انسداد حركة المرور هنا كارثي. يعد النطاق الترددي العالي والشبكات ذات زمن الوصول المنخفض مثل InfiniBand أمرًا بالغ الأهمية لتمكين التدريب على نطاق واسع.
إنه مهم بشكل خاص للتعلم العميق في نماذج اللغات الكبيرة (LLM)، حيث يكون الأداء غالبًا مقيدًا باتصالات الشبكة.
عند تسخير خوادم متعددة معجلة GPU للتعاون في أعباء عمل الذكاء الاصطناعي الكبيرة، يمكن تصنيف أنماط الاتصالات بين وحدات معالجة الرسومات على أنها اتصالات من نقطة إلى نقطة أو اتصالات جماعية.
قد تحدث العديد من الاتصالات من نقطة إلى نقطة في وقت واحد في نظام كامل بين المرسل والمستقبل، ومن المفيد أن تنتقل البيانات بسرعة على “طريق سريع” وتجنب الازدحام.
الاتصالات الجماعية، بشكل عام، هي أنماط تشارك فيها مجموعة من العمليات، كما هو الحال في البث أو عملية الاختزال.
توجد عمليات جماعية كبيرة الحجم في خوارزميات الذكاء الاصطناعي، مما يعني أن برامج الاتصالات الذكية يجب أن تنقل البيانات إلى العديد من وحدات معالجة الرسومات وبشكل متكرر أثناء عملية جماعية من خلال اتخاذ المسار الأسرع والأقصر وتقليل النطاق الترددي.
تعمل الشبكات ذات النطاق الترددي العالي على تحسين البنية التحتية للشبكة للسماح بالاتصالات متعددة العقد في قفزة واحدة أو أقل.
ونظرًا لأن العديد من خوارزميات تحليل البيانات تستخدم عمليات جماعية، فإن استخدام الحوسبة داخل الشبكة يمكن أن يضاعف كفاءة عرض النطاق الترددي للشبكة.
يتيح وجود محول شبكة عالي السرعة لكل وحدة معالجة رسومات (GPU) للبنية التحتية للشبكة الخاصة بك لأحمال عمل AI (فكر في النماذج الكبيرة التي تعتمد على البيانات مثل المحركات الموصي بها) التوسع بكفاءة والسماح لوحدات معالجة الرسومات بالعمل بشكل تعاوني.
التقنيات المجاورة. إلى جانب إنشاء بنية تحتية تأسيسية قوية لدعم دورة الحياة الشاملة لاستخدام البيانات مع الذكاء الاصطناعي، تواجه الصناعات الخاضعة للتنظيم مثل الرعاية الصحية والتمويل حاجزًا آخر أمام تسريع التبني.
غالبًا ما تكون البيانات التي يحتاجون إليها لتدريب نماذج الذكاء الاصطناعي / تعلم الآلة حساسة وتخضع لمجموعة سريعة التطور من قوانين الحماية والخصوصية (القانون العام لحماية البيانات، قانون حماية الأطفال والمراهقين، قانون حماية خصوصية المستهلك، وما إلى ذلك).
تؤمن الحوسبة السرية البيانات المستخدمة ونماذج الذكاء الاصطناعي / تعلم الآلة أثناء العمليات الحسابية. تساعد هذه القدرة على الحماية من الوصول غير المصرح به على ضمان الامتثال التنظيمي وتفتح مجموعة من حالات استخدام الذكاء الاصطناعي المستندة إلى مجموعة النظراء والتي كانت تعتبر في السابق شديدة الخطورة.
لمواجهة التحدي المتمثل في حجم البيانات وجودتها، يمكن للبيانات التركيبي، الناتجة عن عمليات المحاكاة أو الخوارزميات، توفير الوقت وتقليل تكاليف إنشاء وتدريب نماذج الذكاء الاصطناعي الدقيقة التي تتطلب مجموعات بيانات متنوعة ومُصنفة بعناية.
المصدر: venturebeat
شاهد ايضا: