ما هي البيانات غير المهيكلة في الذكاء الاصطناعي؟

تمتلئ العديد من قواعد البيانات بمعلومات منظمة بعناية في صفوف وأعمدة. يتم تحديد نوع ودور كل جزء مسبقًا ويتم فرضه غالبًا بواسطة البرامج التي تتحقق من البيانات قبل وبعد تخزينها.
تعد دراسة هذه الجداول للحصول على رؤى بسيطة نسبيًا ومباشرة لعلماء البيانات.
ومع ذلك، تفتقر بعض مصادر البيانات إلى ترتيب يمكن التنبؤ به، لكن هذا لا يعني أنها لا يمكن أن تكون مفيدة. المصدر الأكثر شيوعًا في هذا السياق هو نصوص البيانات التي يقرأها الإنسان والمكتوبة بلغات بشرية.
بصرف النظر عن القواعد الأساسية لقواعد اللغة وبعض أعراف رواية القصص والصحافة، لا توجد بنية واضحة قليلة يمكن استخدامها لفهم المعلومات وتحويلها إلى بيانات صلبة.
تأتي المصادر المحتملة الأخرى للمعلومات غير المنظمة من التجميع التلقائي، غالبًا من القياس عن بُعد من الأجهزة الذكية. ينتج عالم إنترنت الأشياء المزدهر (IoT) بيتابايت من المعلومات غير المنظمة إلى حد كبير.
قد تحتوي هذه الملفات على تنسيق أساسي مع بعض الحقول المحددة مسبقًا للطوابع الزمنية، ولكن القراءة من المستشعرات تصل في كثير من الأحيان في شكل خام مع تصنيف أو تفسير ضئيل أو معدوم.
يتخصص بعض علماء الذكاء الاصطناعي (AI) في فهم ما يُعرف بالبيانات غير المنظمة. بمعنى ما، تأتي جميع ملفات البيانات مع قدر معين من البنية أو القواعد، ويتمثل التحدي في النظر إلى ما وراء هذه البنية للحصول على رؤى أكثر تعمقًا.
كيف يتم تحليل البيانات غير المهيكلة؟
المناهج إحصائية إلى حد كبير. تبحث الخوارزميات عن الأنماط أو العلاقات بين الإدخالات المختلفة. هل توجد الكلمات نفسها عادة في نفس الجملة أو الفقرة؟ هل ترتفع قيمة المستشعر قبل الآخر مباشرة؟ هل بعض الألوان شائعة في الصورة؟
تفرض العديد من الخوارزميات الحديثة طبقة أساسية إضافية من البنية على مصدر البيانات، وهي عملية تسمى غالبًا تضمين البيانات أو بناء التضمين.
قد يتم البحث عن نص، على سبيل المثال، عن أكثر 10000 كلمة شيوعًا غير شائعة في الكتب أو المصادر الأخرى. قد يتم تقسيم الصورة إلى أقسام. يصبح هذا الهيكل الخام أساسًا للتحليل الإحصائي اللاحق.
غالبًا ما يكون إنشاء هذه الزخارف فنًا بقدر ما هو علم. يتضمن الكثير من العمل الذي أنجزه علماء البيانات تصميم واختبار استراتيجيات مختلفة لبناء التضمين الخام.
في كثير من الحالات، يمكن أن تتيح خبرة المجال للإنسان نقل فهمه من المنطقة إلى الخوارزمية. على سبيل المثال، قد يقرر الطبيب أن جميع قراءات ضغط الدم التي تزيد عن قيمة معينة يجب تصنيفها على أنها “مرتفعة”.
قد يقرر ضابط التأمين أن جميع الاصطدامات الخلفية ناتجة عن خطأ السيارة الخلفية. تضفي هذه القواعد بنية على حفلات الزفاف والبيانات للمساعدة في تصنيفها.
[ذات صلة: البيانات التي ستغير العالم مبعثرة في كل مكان حولنا]
ما هي أهداف الذكاء الاصطناعي غير المنظم؟
تختلف الأهداف من مجال إلى مجال. الطلب الشائع هو العثور على عناصر مماثلة في قاعدة بيانات. هل يوجد وجه مشابه في هذه المجموعة من الصور؟ هل هذا النص مسروق من كتاب؟ هل هناك شخص آخر لديه سيرة ذاتية مماثلة؟
يحاول الآخرون عمل تنبؤات للمستقبل للمساعدة في خطة المؤسسة. قد يعني هذا التنبؤ بعدد السيارات التي قد يتم بيعها العام المقبل أو كيف يمكن أن تؤثر الأحوال الجوية على الطلب.
غالبًا ما يكون هذا العمل أكثر صعوبة من البحث عن إدخالات مماثلة.
يعمل البعض فقط لتصنيف البيانات.
باحثو الأمن، على سبيل المثال، يريدون استخدام الذكاء الاصطناعي للبحث عن الحالات الشاذة في ملفات السجل التي يجب التحقيق فيها.
من ناحية أخرى، قد يحتاج مبرمجو البنوك إلى الإبلاغ عن المعاملات التي يحتمل أن تكون احتيالية أو مشبوهة بسبب القواعد التي يفرضها المنظمون.
تعمل بعض خوارزميات التصنيف على تدوين البيانات ببساطة. بالإضافة إلى ذلك، قد تنظر خوارزميات الرؤية الآلية، على سبيل المثال، إلى الوجوه وتحاول تصنيف ما إذا كان الناس سعداء أو حزينين أو غاضبين أو قلقين أو أي مجموعة كبيرة من المشاعر.
كيف تعمل بعض الشركات الكبرى مع البيانات غير المهيكلة؟
قامت الشركات السحابية الكبرى بتوسيع خدماتها السحابية لدعم إنشاء بحيرات البيانات من البيانات غير المهيكلة.
يقدم جميع الموفرين حلول تخزين متنوعة مقترنة بإحكام بخدمات الذكاء الاصطناعي المختلفة الخاصة بهم لتحويل البيانات إلى رؤى ذات مغزى.
يستخدم Azure AI من Microsoft مزيجًا من تحليل النص والتعرف البصري على الأحرف والتعرف على الصوت ورؤية الجهاز لفهم مجموعة غير منظمة من الملفات التي قد تكون نصوصًا أو صورًا.
ستنشئ خدمة البحث المعرفي الخاصة بها فهرسًا مدركًا للغة للبيانات لتوجيه البحث والعثور على الوثائق الأكثر صلة.
تتكامل خوارزميات التعلم الآلي مع البحث التقليدي عن النص للتركيز على المصطلحات المهمة مثل الأسماء الشخصية أو العبارات الرئيسية.
يمكن ضبط خوارزميات التنقيب عن المعرفة من قبل علماء البيانات لفتح المزيد من الدراسات المتعمقة للبيانات. تعد خدمة البحث المعرفي منتجًا مجمعًا، ولكن الخوارزميات المختلفة للتعلم الآلي والبحث متاحة أيضًا بشكل مستقل.
تقدم Google مجموعة واسعة من الأدوات لتخزين البيانات وتطبيق خوارزميات الذكاء الاصطناعي المختلفة عليها. تعد العديد من الأدوات مثالية لاستخدام البيانات غير المهيكلة.
تم تصميم AutoML ، على سبيل المثال، لتبسيط بناء نماذج التعلم الآلي ويتم دمجه مباشرة مع عدد من خيارات تخزين البيانات في Google لتمكين بحيرات البيانات. يمكن لـ Vision AI تحليل الصور وفك تشفير النص وحتى تصنيف مشاعر الأشخاص في الصور.
يمكن أن تجد لغة Cloud Natural الممرات الرئيسية والكلمات الخاصة بالمجال وترجمة الكلمات. تُباع جميعها كمنتجات سحابية ويتم إصدار فواتير بها وفقًا للاستخدام.
تدعم IBM أيضًا بناء مستودعات البيانات وبحيرات البيانات بأدوات لتخزين البيانات وتحليلها والتي تشمل الخوارزميات الرئيسية من التحليل الإحصائي والذكاء الاصطناعي.
تجمع بعض منتجاتها العديد من هذه الخيارات معًا في أدوات تتمحور حول المهام. يمكن للفرق التي تبحث عن التحليلات التنبؤية، على سبيل المثال، استخدام حزمة SPSS Statistics مع Watson AI Studio لإنشاء نماذج للسلوك المستقبلي.
تتكامل التقنيات مع خيارات التخزين الخاصة بشركة IBM مثل قاعدة البيانات db2، ويمكن تثبيتها في أماكن العمل أو استخدامها في السحابة.
تدعم AWS إنشاء بحيرات بيانات للبيانات غير المهيكلة بمجموعة متنوعة من المنتجات.
يمكن لأداة Redshift الخاصة بالشركة، على سبيل المثال، البحث عن البيانات وتحليلها من مجموعة متنوعة من المصادر من تخزين الكائنات S3 إلى قواعد بيانات SQL الأكثر تنظيمًا. يبسط العمل مع البنى المعقدة بواجهة واحدة.
تقدم أمازون أيضًا مجموعة متنوعة من خدمات التعلم الآلي والرؤية الآلية والذكاء الاصطناعي التي ستعمل مع جميع خيارات تخزين البيانات الخاصة بها.
تتوفر هذه بشكل عام إما كمثيلات مخصصة أو في بعض الأحيان كخيارات بدون خادم يتم إصدار فواتير بها فقط عند استخدامها.
تقدم Oracle أيضًا مجموعة واسعة من أدوات الذكاء الاصطناعي.
تم تحسين Oracle Cloud Infrastructure (OCI) للغة لتصنيف النص غير المهيكل من خلال البحث عن العبارات والكيانات المهمة.
يمكنه اكتشاف اللغات وبدء الترجمة وتصنيف مشاعر الكاتب. توفر أداة تكامل البيانات كل قوة الذكاء الاصطناعي إلى أداة خالية من التعليمات البرمجية لتحليل البيانات وإعداد التقارير.
يمكن لمجموعة من النماذج المبنية مسبقًا أن تعمل مع اللغات القياسية، بينما قد ترغب بعض الفرق في إنشاء نماذجها الخاصة.
[ذو صلة: كيفية إتقان دورة حياة البيانات من أجل الذكاء الاصطناعي الناجح]
كيف تستهدف الشركات الناشئة البيانات غير المهيكلة؟
إن فهم بعض البيانات غير المهيكلة هو محور تركيز العديد من الشركات الناشئة المتخصصة في الذكاء الاصطناعي والتعلم الآلي ومعالجة اللغة الطبيعية.
يركز البعض على بناء خوارزميات أفضل ذات رؤية أعمق، والبعض الآخر ينشئ نماذج أفضل يمكن تطبيقها مباشرة على المشكلات.
يتداخل هذا المجال بشكل طبيعي مع علم البيانات والتحليلات التنبؤية. تعتبر عملية العثور على البصيرة في البيانات النصية والمرئية مكملاً طبيعيًا لإنشاء التقارير وإنشاء تنبؤات من بيانات أكثر تنظيماً.
تركز بعض الشركات الناشئة على توفير الأدوات بحيث يمكن للمطورين إنشاء نماذجهم الخاصة من خلال العمل مع البيانات مباشرة.
شركات مثل Squirro و TeX AI و RapidMiner و Indico و Dataiku و Alteryx وH2O AI هي مجرد بعض الشركات التي تبني الأساس لإجراء تجارب الذكاء الاصطناعي باستخدام بياناتك الخاصة.
تركيز خاص واحد هو معالجة اللغة الطبيعية. أنشأت Hugging Face منصة حيث يمكن للشركات مشاركة نماذجها مع الآخرين، وهي عملية تشجع على تطوير نماذج أكثر تعقيدًا وعمومية بقدرة واسعة.
تقوم Basis Technology أيضًا بإنشاء أدوات تحدد الأسماء والكيانات المهمة في نص غير منظم. يبحث منتجهم Rosette عن العلاقات بين الهويات ويخلق خرائط دلالية بينها.
يقوم آخرون بتسويق نماذجهم الخاصة وإعادة بيعها مباشرة. يقوم OpenAI بإنشاء نموذج كبير للغة البشرية، GPT-3 وفتح الوصول من خلال واجهة برمجة التطبيقات، حتى يتمكن المطورون من إضافة ميزاته.
إنه مثالي للعمل مثل كتابة النصوص وتصنيف النص وتلخيص النص. تقوم الشركة أيضًا ببناء مجموعة من ملخصات الكتب.
GitHub ، على سبيل المثال، يستخدم تقنية OpenAI في أداة CoPilot الخاصة بهم والتي تعمل كمساعد ذكي يساعد المبرمجين على كتابة المزيد من التعليمات البرمجية بشكل أسرع.
تقوم Cohere AI أيضًا ببناء نموذجها الخاص وفتحه عبر واجهة برمجة التطبيقات. يستخدم بعض المطورين النموذج لتصنيف المستندات لمشاريع مثل دعم التقاضي.
يستخدم البعض الآخر النموذج لمساعدة الكتاب في العثور على الكلمات الصحيحة وإنشاء مستندات أفضل.
يركز البعض على نماذج اللغة الطبيعية للمساعدة في مهام محددة.
أنت، على سبيل المثال، تقوم ببناء محرك بحث جديد يوفر مزيدًا من التحكم للمستخدمين مع الاعتماد أيضًا على ذكاء اصطناعي أكثر ذكاءً لاستخراج المعنى والعثور على أفضل الإجابات.
يقوم البعض الآخر بتجميع أساليب مماثلة مثل واجهات برمجة التطبيقات للمطورين. تقوم ZIR و Algolia ببناء محرك بحث قابل للتوصيل بنماذج دلالية يمكن أن تؤدي بشكل أفضل من البحث بالكلمات الرئيسية الخالصة.
يرغب عدد من الشركات الناشئة في جلب قوة الخوارزميات إلى صناعات أو مجالات محددة.
يمكنهم الاستفادة من البيانات غير المهيكلة كجزء من التركيز الأكبر على حل المشكلات الواضحة للسوق المستهدف.
تقوم شركة Viz AI، على سبيل المثال، بإنشاء منسق رعاية ذكي لتتبع المرضى في مراحل مختلفة من الشفاء.
تأمل Socure في تحسين التحقق من الهوية والكشف عن الاحتيال للبنوك والصناعات الأخرى التي تحاول التمييز بين السلوك الحقيقي وغير الأصيل.
تعمل Exceed AI على إنشاء مساعدين افتراضيين للمبيعات يساعدون العملاء في العثور على الإجابات والمنتجات.
ما لا يستطيع الذكاء الاصطناعي والبيانات غير المهيكلة القيام به
أكبر قيد للخوارزميات هو جودة أي إشارة في البيانات.
في بعض الأحيان، لا تقدم البيانات – المنظمة أو غير المنظمة – الكثير من الارتباط الذي يمكن أن يؤدي إلى إجابة قوية لسؤال معين.
إذا لم يكن هناك اتصال مهم أو كان هناك الكثير من الضوضاء العشوائية، فلن تكون هناك إشارة تحددها الخوارزميات.
يعتبر هذا التحدي أكثر أهمية للبيانات غير المهيكلة لأنه من المرجح أن تكون البنات الإضافية غير المفيدة جزءًا من المعلومات.
في حين أن الخوارزميات مصممة للتنقيب في المعلومات واستبعاد الأجزاء غير المفيدة، لا تزال هناك حدود لقوتها. عادة ما يكون هناك ضوضاء أكثر بكثير في البيانات غير المهيكلة.
تتفاقم المشكلة بسبب قيمة العثور على أي إشارة ضعيفة.
إذا لم يحدث حدث ما بشكل متكرر، فقد لا يؤدي اكتشافه إلى تحقيق ربح كبير. حتى عندما تنجح الخوارزميات، فإن بعض تحليلات البيانات غير المهيكلة لا تؤتي ثمارها لأن النجاح نادر جدًا.
في كثير من الأحيان، تؤدي الأسئلة غير المحددة بشكل جيد إلى نتائج غامضة. يتعامل البعض مع البيانات غير المهيكلة التي تبحث عن رؤى، ولكن بدون تعريفات مكتوبة بوضوح، قد تكون الإجابات غامضة بنفس القدر.
التحدي الكبير للعديد من المشاريع غير المهيكلة هو ببساطة تحديد هدف واضح، بحيث يمكن تدريب النماذج بدقة.
المصدر: venturebeat
شاهد المزيد: