تمت في كلية الادارة والاقتصاد / جامعة بغداد ، مناقشة رسالة الماجستير الموسومة ( مقارنة بعض طرائق اختزال الابعاد لأنموذج الانحدار مع تطبيق عملي) في تخصص الاحصاء للطالب (سهيل سهيل كريم ) بأشراف أ.م.د. اسماء نجم عبد الله
تهـــدف الرسالة إلى تحليل البيانات عالية الأبعاد التي تضم متغيرات مشتركة قد تكون غير مفيدة أو غير معلوماتية باستعمال طرق إحصائية حديثة نسبياً، وهي طرق انحدار (islasso وadaptive lasso وlasso) والتي تساهم في تقليص المتغيرات المشتركة وتقدير المعالم في أن واحد، فضلاً عن تجنب الوقوع في الخطأ من النوع الأول. كما تهدف هذه الرسالة الى تطبيق طرق بديلة عن طريقة انحدار الشرائح (regression splines) وهي طريقة التمهيد المستحث ذو اقل انكماش مطلق لاختيار العامل (islasso) المقترحة من قبل (Cilluffo وآخرون، عام 2019) والتي من خلالها يتم الحصول على قيم إحصاءه (Wald – Chi Squared)، فضلاً عن سهولة تحديد عرض الحزمة (bandwidth) بواسطة الخطأ المعياري (standard error). أيضا تهدف الرسالة الى المقارنة بين طرق الانحدار المستعملة وبيان أفضليتها في تقليص المتغيرات وتقدير المعالم، بالاعتماد على متوسط مربعات الخطأ (MSE) كمعيار للمقارنة.
وقد توصلت الدراسة الى عدد من الاستنتاجات اهمها :
1. تم تقديم ثلاث طرق حديثة لتحليل انحدار (lasso, adaptive lasso, islasso) لها أهمية بالغة في تحليل البيانات عالية الأبعاد والنماذج المعقدة التي تضم متغيرات مشتركة غير معلوماتية، إذ أنها تساهم في تقليص المتغيرات المشتركة والتقدير في أن واحد، كما تم تطبيق طريقة انحدار (islasso) المقترحة من قبل (Cilluffo وآخرون، في عام 2020)، التي يمكن من خلالها الحصول على قيم إحصاءه (Wald -Chi Squared) بسهولة نسبياً، فضلاً عن سهولة تحديد عرض الحزمة (bandwidth) بواسطة الخطأ المعياري (standard error) المقابل المحسوب للبيانات.
2. نستنتج من خلال نتائج تجارب المحاكاة في حالة العينات الصغيرة (n≤25) والمتوسطة (n≤50)، ان عملية اختيار المتغيرات المشتركة والتقدير في ان واحد باستعمال طريقة (islasso) هي الأفضل كونها تعطي جذر تربيعي لمتوسط مربعات الخطأ (RMSE) اقل من الجذر التربيعي لمتوسط مربعات الخطأ (RMSE) لبقية طرق الانحدار المستخدمة (lasso وadaptive lasso)، كما نجد ان هنالك افضلية نسبية للتقدير باستعمال طريقة (adaptive lasso) على حساب طريقة (lasso)، بالاعتماد على الجذر التربيعي لمتوسط مربعات الخطأ (RMSE) كمعيار للمقارنة.
3. من نتائج الجانبين التجريبي والتطبيقي، في حالة العينات الكبيرة (n≥100)، نستنتج وجود افضلية للتقدير باستعمال طريقة انحدار (lasso)، على بقية الطرق المستخدمة، لأنها تعطي جذر تربيعي لمتوسط مربعات الخطأ (RMSE) اقل عند المقارنة. وكلما زاد حجم العينة وانخفض مقدار الخطأ المعياري، فإن أنموذج انحدار (islasso) يقترب من أنموذج انحدار (lasso)، مما يجعل أنموذج انحدار (islasso) مكافئاً لأنموذج انحدار (lasso).
4. من خلال الجانبين النظري والعملي، نستنتج ان تطبيق انحدار (islasso) من خلال توظيف طريقة التمهيد المستحث (Induced Smoothing) يكون ناجح في التعامل مع معادلات التقدير غير الممهدة، اذ ان تطبيقها يؤدي إلى استبدال دالة الجزاء بنظرائها السلسة حيث يتم ضبط معلمة الضبط (bandwidth)، بواسطة الخطأ المعياري المقابل الذي يتم حسابه من البيانات.
ومن خلال الاستنتاجات التي توصلت اليها الدراسة قدم الباحث عدد من التوصيات اهمها :
1. توسيع نطاق البحث في الموضوع من خلال إيجاد طرق جديدة بديلة لانحدار (lasso) تتناسب مع البيانات عالية الابعاد كاستخدام طرق انحدار الشرائح (regression splines) مع الدوال اللبية (kernel)، وكذلك استعمال طرق جديدة مرتبطة بانحدار (lasso) لدراسة البيانات عالية الابعاد التي تضم الكثير من المتغيرات المشتركة غير المعلوماتية.
2. نوصي باستعمال أنموذج انحدار (islasso) في حالة العينات الصغيرة والمتوسطة (n≤50) كونه يعطي نتائج موثوقة وقيم احتمالية (p-value) أكثر دقة، كما يمكن من خلاله اختبار الفرضيات الخاصة بمعاملات معادلة الانحدار وحساب قيم إحصاءه (Wald -Chi Squared) بسهولة نسبياً.
3. بناءاً على النتائج المستحصل عليها من خلال الجانب التطبيقي، نوصي وزارة الصحة بالعمل على تطوير الطرق الخاصة بالكشف المبكر عن مرض سرطان الثدي، فضلاً عن الاهتمام بالمتغيرات ذات التأثيرات المعنوية في نموذج الانحدار (islasso) كونها تساعد في تحديد اهم العوامل المسببة لمرض سرطان الثدي، كما تساعد أيضا في تحديد اهم مؤشرات التشخيص المبكر لسرطان الثدي.