مجموعة تعلم الآلة و معالجة اللغة العربية
تتصف اللغة العربية بأنها لغة سامية لها خصائصها الصوتية والصرفية والنحوية والطوبولوجية المعقدة. حيث تساهم هذه الخصائص في تعقيد معالجة اللغة العربية. إضافةً لذلك، تحتوي اللغة العربية على مفردات غنية جدًا؛ وتتميز انحرافات صرفية أكثر من اللغة الإنجليزية. ونظرًا لكون اللغة العربية صعبة للغاية، فهي توفر فرصًا مختلفة للدراسة والتحقيق. على سبيل المثال، بينما تحتوي اللغة الإنجليزية على ما يقرب من 50 علامة جزء من الكلام، فإن علامات جزء من الكلام في اللغة العربية الفصحى الحديثة تجاوز 300,000 جزءًا. كما تستخدم اللغة العربية علامات التشكيل وتحتوي العديد من استثناءات القواعد.
تتجلى اللغة العربية في شكلين رئيسيين: اللغة العربية الفصحى الحديثة واللهجات العربية العامية. وقد برزت أهمية اللهجات العربية العامية بسبب انتشار الشبكات الاجتماعية، مما أدى إلى وجود نصوص لهجية غير منظمة واسعة النطاق متاحة على شبكة الإنترنت. وعلى الرغم من الارتفاع القوي لمحتوى اللغة العربية الفصحى الحديثة واللهجات العربية العامية على شبكة الإنترنت، إلا أنه لم يتم إجراء سوى القليل من الأبحاث لاستخراج مثل هذا المحتوى. لذا دعت الحاجة إلى القيام ببعض الجهود الإضافية لإثراء مجموعات البيانات أو مجموعات النصوص باللغة العربية للأشكال المكتوبة والمنطوقة. وهذا شرط أساسي لتطوير أبحاث قوية في مجالات استرجاع وتحليل الوثائق/المعلومات، ومعالجة اللغة، وتحليل المشاعر، والتعرف على الكلام، والتعلم الآلي. إن أحد مجالات البحث الحاسمة للمجموعة المقترحة هو إنشاء مثل هذا المحتوى (للغة العربية الفصحى الحديثة واللهجات العربية العامة) وجعله في متناول الباحثين الآخرين في هذا المجال لتحقيق مساهمة ملموسة وتلبية التوقعات المرجوة.
وبالنسية لمعالجة اللغة العربية، فهو مجال فرعي يجمع بين الأبحاث من مجالات اللغويات الحاسوبية والذكاء الاصطناعي. ويهدف إلى تسهيل التفاعل بين أجهزة الكمبيوتر والبشر باستخدام اللغة العربية أو أصنافها العامية. حيث تتضمن العديد من التحديات في معالجة اللغة العربية التحليل النحوي والوسم، والتحليل الصرفي وإزالة الغموض، ومجموعات النصوص (للغة العربية الفصحى الحديثة واللهجات العربية العامة) وتحليل المشاعر، والتعرف على الكلام، والتعلم الآلي غير الخاضع للإشراف والخاضع الإشراف من مجموعات النصوص، وروبوتات الدردشة وتطبيقاتها، والبحث واسترجاع المعلومات. كما تتضمن بعض المشاريع التي نتوقع البدء فيها إنشاء مستودعات (اللغة العربية الفصحى الحديثة واللهجات العربية العامة)، وتحليل المشاعر لنصوص (اللغة العربية الفصحى الحديثة واللهجات العربية العامة)، والتعرف على الكلام العربي وفهمه في اللغة العربية الفصحى الحديثة واللهجة العربية العامة الإماراتية.
أما فيما يتعلق بمجال معالجة الكلام والتعرف عليه، فنحن مهتمون بدراسة وتحليل مشاكل مختلفة مثل التعرف على الكلام، والتعرف على المتحدث (التعريف والتحقق)، والتعرف على حالة الكلام، والتعرف على الجنس، والتعرف على اللهجة، والتعرف على اللغة، وبيئات الحديث غير الطبيعية - بيئات الحديث غير الطبيعية هي بيئات الحديث المجهدة وبيئات الحديث العاطفية. وبشكل خاص، نحتاج إلى دراسة وتحليل قاعدة بيانات اللهجة العربية العامة الإماراتية في كل من بيئات الحديث المجهدة والعاطفية لتطبيقات مختلفة.
وفي مجال اللغويات الحاسوبية، يتكون نظام اللغة الإجمالي من أنظمة فرعية مثل علم الأصوات، وعلم الصرف، والنحو، والدلالات، والبراغماتية. حيث يمكن دراسة القواعد المتعلقة باستخدام اللغة بشكل أفضل من خلال مجموعة كبيرة من النصوص التي يمكن تحليلها من خلال استخدام برامج الكمبيوتر. كما يمكن استخدام بعض برامج الكمبيوتر لتجميع قواميس التراكيب اللغوية العربية التي لها أهمية قصوى لتعلم اللغة والترجمة وتعليم اللغة العربية لغير الناطقين بها وكتابة الكتب المدرسية للعرب والمتعلمين الأجانب للغة العربية. ويعود ذلك لإيماننا بأن بناء مجموعة ضخمة من القواميس العربية يسهل البحث في تحديد تواتر بعض العناصر المعجمية وهياكل اللغة. علاوةً على ذلك، يمكن أن يكون مثل هذا المشروع مفيدًا أيضًا في تطوير التفسير والترجمة الآلية.
حاليًا، يعد التعلم الآلي مجالًا هامًا للغاية للأبحاث، كما أن تطبيقاته واسعة، لذا سنحاول في مجموعتنا بدء أبحاث حديثة من خلال الجمع بين البحث في النمذجة اللغوية العميقة وتحليل البيانات مع التعلم الآلي ونهج التعلم العميق لمعالجة اللغة العربية. وهذا مجال بحث واعد ذو إمكانات كبيرة.
فنحن نهدف إلى تطوير الخبرة المحلية وتعزيز الوعي بأهمية معالجة اللغة العربية والتعلم الآلي في المجتمع ككل. كما سيبدأ أعضاء المجموعة في إجراء مشاريع بحثية تعاونية متعددة التخصصات مع كيانات خارجية تشترك في نفس المخاوف بشأن الحوسبة العربية.