استعمال الأنحدار المعكوس الشرائحي مع اساليب اخرى في اختزال الأبعاد
الطالبة : زينة ابراهيم حسن المشرف : أ.م.د عمر عبدالمحسن علي
تمت في كلية الادارة والاقتصاد – جامعة بغداد ، مناقشة اطروحة الدكتوراه في تخصص الاحصاء للطالبة ( زينة ابراهيم حسن ) عن دراستها الموسومة ” استعمال الأنحدار المعكوس الشرائحي مع اساليب اخرى في اختزال الأبعاد “.
نظراً للتطور الحاصل في علوم التكنولوجيا و المعلوماتية في عصرنا الحديث الذي كان له الأثر البـــالغ في تطور باقي العلوم الطبية والطبيعية والانسانية , اذ انعكس هذا التطور التكنولوجي المعلوماتي بشكل واضح على علم الاحصاء وذلك لارتباطه الوثيق به , و صاحب هذا التطور مزيد من المتغيــــرات التي تصف هذه الحالات , وهنا يأتي دور علم الاحصاء لكي يكون حلقة الوصل بين هذا التطور في العلوم التكنلوجية المعلوماتية و بقية العلوم من حيث دراسة الظواهر و جمع المعلومات و البيانات عنها و من ثم تبويبها احصائياً و ثم تحليلها بالشكل الذي يلائم الظاهرة قيد البحث و من ثم كتابة الاستنتاجات و التوصيات على ضوئها و على ضوء هذه النتائج يتم اتخاذ القرار.
و ترمي هذ الاطروحة الى دراسة طرائق اختـزال الأبعاد و ذلك باستعمال اسلوبيــن لحل مشكـلة البيـانات ذات الأبعاد العالية , أن الاســــلوب الاول المستعمل هو معالجـــــة مشكـــــلة البعدية (Curse of Dimensionality) من خلال طرائــــق الأنحـــــدار الشرائحــــي المعكــــوس ( SIR ) و الانحـــدار الشرائحـــي المعكــوس اللبي (KSIR) والتي تعد طرائــــق غير كلاسيكية , و تقوم على عمل توليفـــات خطية مختزلة من مجموعــــة جزئية من المتغيـــــرات التوضيحيـــــة الأصلية والتي قد تعاني من مشكـــــلة عدم التجــــــانس و من مشكـــــلة التعــــــدد الخطــــي بين معظم المتغيـــــرات التوضيحيـــــة , وستقوم هذه التوليفـــات الجديدة المتمثلة بالمركبــــــات الخطــــيــــة الناتجة من الطريقتيــــن باختـــــزال أكثر عـــــــدد من المتغيـــــرات التوضيحيـــــة للوصول الى بُعد جديد واحد او اكثر يسمى بالبعـــــد الفعــــال.
والاســــلوب الثاني هو اسلوب تجـــــاوز مشكـــــلة البعـــــدية (Curse of Dimensionality) طرائــق الاسقــاطــات المتــلاحقــة (PPR) و الشبكــات الصنــاعية (NN) و التي تعمل على ايجاد معلمـــــات عن طريق احد الطرائــــق العدديــــة ويتم بعد ذلك ادخال احد طرائــــق التمهيـــــد , و قد تم استعمــــال معيـــــار جــــذر متوســط مربعـات الخطــأ و متـوســط الخطـــأ المطــلق للمقـــارنة بين طرائــــق هذين الاسلوبيـــــن لبيـــــان اي الاسلوبيـــن كان هو الافضــل.
و تكمن مشكلة البحث في وجود مشكلة البُعــدية اوالابعــاد (Curse of Dimensionality) بين المتغيــــرات (X’s) و ذلك عندما تكـون البيـانـات مبعثرة في فضــاءات متعـــددة الابعــاد وكذلك في حالة وجود ارتباطات خطـية بين البيـانـات ذات الابعــاد العـالية , فعندما يراد تـقديـر كثـافـة البيـانـات فان تكامل مربع الخطأ يكون كبيراً جداً حتى اذا كان حجم العينة كبيراً جداً , أذ يحوي على عدد كبير من المتغيرات التوضيحية بأحجام عينات مختلفة , لذلك يكون من الصعوبة علينا ايجاد تقديرات دقيقة في مثل هذه الحالة , و لهذا فان استخــدام الطرائق الكلاسيكية في التقدير يصبح غير دقيق , و بالتالي تؤدي الى تقديرات غير كفوءة اذا ما تم استخدام الطرائق الكلاسيكية و التي ستؤثر على متخذ القرار , لذلك برزت الحاجة الى ايجاد اسلوب ملائم يقوم بعملية تحوير على المتغيــــرات X’s)) للتخلص من مشكـــلة البعــدية او الابعــاد (Curse of Dimensionality).
ان الهــــدف من هــــذه الاطــروحة هـــو تجــــاوز ومعـــــالجة مشكــــلة البعــدية او الابعـــاد (Curse of Dimensionality) , من خلال إستعمـــال بعض الاساليب (الطرائق) أو النماذج الاحصائية التي تنسجم و تقدم الحل لهذه المشكــلة ، أذ تهدف الاطروحة الى استعمال خوارزميات الأنحــدار المعــكوس الشرائحـي (Sliced Inverse Regression: SIR) وطريقة إنحدار الاسقـــاطات المتلاحقــــة (Projection Pursuit Regression: PPR) وكذلك طريقة الأنحــــدار اللبي المعــكوس الشرائحـــي (Kernel Sliced Inverse Regression: KSIR) واخيراً خوارزميــــة الشبكـــات العصبيـــة (Neural Networks Algorithm: ANN) في اختزال الابعاد في نمــاذج الانحدار فضلا عن اقتراح العــديد من الخوارزميات لهذا الغرض , ومن هنا يتبين أن من هذه أولويات هذه الاطروحة هو النظر في موضوع تقليل الابعــاد او تخفيض البعــد (Dimension Reduction) بشكل عام و استعراض بعض الاسـاليـب التي تستعمل غالباً للتقليل الابعــاد , و ان هذه الاسـاليـب تنتج رسم خطي منخفــض الابعــاد للبيـانـات الأصلية ذات الابعــاد العـالية الذي يحافظ على سمة المعلومات الاصلية في البيـانـات , و من ثم أجراء بعض تجارب محاكاة لتقييم أداء و أفضلية الطـرائـق الاربعة في بعض الحالات الخاصة ليتم تطبيقها أخيراً على بيـانـات حقيقية .
ولقد احتوت الاطروحة خمسة فصول رئيسة : الفصل الاول مقدمة للبحث و توضيح لبعض مفرداتها وتحديد الهدف الرئيس فيها واستعراضاٌ تاريخيا للباحثين والدراسات السابقة ، وفي الفصل الثاني تضمن الجانب النظري سيتم التطرق الى مشكلة البعدية واختــــزال الابعـــــاد و الطرائق المستعملة ، اما الفصل الثالث تضمن الجانـب التجريبي الذي يتضمن تجربة المحاكاة ، و في الفصل الرابع تضمن الجانــــب التطبيقي و تم أجراء التحليل الاحصائي من خلال تطبيق عملي على بيانات الجهاز المركزي الاحصائي ، واخيراً اختتمت الدراسة بالفصل الخامس فقد خصص للاستنتاجات والتوصيات.
وان اهم ما توصلت اليه الاطروحــــة من الاستنتاجات والتوصيات هو :
1- ان طريقة (PZSIR) كانت الافضل في طرائق معالجــة البعـــدية , أذ حققت نتائج كفوءة بدرجة عالية واعطت اقل (RMSE) , لذلك نوصي باستعمالها في تقدير النماذج عندما يكون فيها عدد المتغيرات التوضيحية كبير , كذلك كانت طريقة (PSMSIR) هي الافضل ضمن طرائق تجاوز البعدية وتليها طريقة (KSIR) اذا اعطت نتائج جيدة.
2- انه عند تقدير قيمة ضبط المعلمة (H) له تأثير كبير في جعل (RMSE) اقل مايمكن , وكذلك لاهميتها في طرائق الانحدار الشرائحي المعكوس.
3- لا ينصح بتطبيــق الطرائــــق الكلاسيكيــة على البيـــانات عــاليــة الابعـــاد.
هذه الاطروحة اظهرت الى ان نتـــــائج استعمــال طرائـق المعالجــة كانت هي الافضل في حل مشكــلة البعــديــــة (curse of dimensionality) مــن نتــــائـــج استعمـــــال طـرائـــــــق تجـــــاوز مشكـــــلة البعــــديــــة (curse of dimensionality).