تمت في كلية الادارة والاقتصاد / جامعة بغداد ، مناقشة اطروحة الدكتوراه الموسومة (اداء التصنيف واختيار متغيرات انموذج انحدار اللوجستي الجزائي للبيانات عالية الابعاد مع التطبيق ) في تخصص الاحصاء للطالبة (افياء رحيم خضير) بأشراف أ.د سجى محمد حسين
ان زيادة البيانات في الوقت الحالي وفي اغلب المجالات منها المجالات الطبية والاجتماعية والمالية ومع السرعة في هذه الزيادة وبمساعدة التكنلوجيا ازدادت البيانات بشكل ملحوظ واصبحت لدينا بيانات كبيرة جدا تؤدي الى عدم الدقة في معرفة الهدف وتسمى البيانات عالية الابعاد p>n) ) اي يكون عدد المتغيرات اكثر من حجم العينة واصبحت حالة شائعة جدا .
اما من ناحية اخرى فقد أدت هذه الزيادة الى صعوبة في تحديد صنف(فئة) متغير الاستجابة الثنائي وهو اساس مشكلة دراستنا وايضا ظهور مشكلة التعدد الخطي بين هذا الكم الهائل من المتغيرات التوضيحية التي تتجاوز حجم العينة .
ان اساس عملنا هو تصنيف متغير الاستجابة الذي ادى الى الاتجاه لأستخدام طرائق الجزاء مماتعمل على تقليص المتغيرات واختيار المتغيرات ذات الاهمية الى عدد اقل ليتم تضمينها في النموذج والتقليل من تعقيد النموذج للحصول على الفئة المحددة (0,1)عن طريق هذه المتغيرات المهمة .
في هذه الاطروحة استخدمنا طرائق الجزاء مع النموذج اللوجستي الجزائي ، مع مجموعتين من البيانات عينة كبيرة لمرض سرطان البروستات ( تضم 12600 متغير و بحجم 100 ( و عينة اخرى صغيرة تم جمعها من قبل الباحثة لمرض سرطان الثدي (تضم 49 متغير وبحجم 41 مريضة ) حيث تم تطبيق هذه الطرائق على كلا المجموعتين والطرائق هي : اوزان لاسو الاربعة (Weighted lasso Estimates)و الوزن الخامس (V) المقترحة من قبل الباحثه وطريقة (Correlation-Based Elastic Net Penalty)CBEP و(Correlation-Based Penalized logistic regression) CBPLR و AAEL (Adjusted adaptive Elastic Net Penalty) و (Partial least squares)PLS وكذلك الطريقة المقترحة الثانية
PPlS (Penalized Partial least squares)التي تم استخدامها لاول مره مع انموذج الانحدار اللوجستي الجزائي لغرض التصنيف, وتمت المقارنة بين الطرائق من خلال عدة معايير (عدد المتغيرات المختارة ودقة التصنيف ومعدل خطأ التصنيف والحساسية والخصوصية وكذلك مصفوفة التقييم للتصنيف).
اما بالنسبة للمحاكاة فتم اختيار ثلاث حالات (n=100 ,p=2000) و(n=40 ,p=50) و(n=100 , p=1000) وتكرار 100 للتجربة وطبقنا ايضا معامل الارتباط بـأ ربع حالات (r=0.99, 0.95,0.75,0.25) .
حيث ادت الطرائق اداء جيد وتصنيف قوي ودقيق وكانت هناك تفاوتات بسيطة تم توضيحها في الفصل الثالث والرابع حسب حالات الارتباط المذكورة وتم الحصول على دقة التصنيف العالية واختيار عدد المتغيرات وجميع النتائج من تطبيق مجموعة من الحزم والدوال في لغة برمجة R.