English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
هذا المقال يشارككم الشيفرة المحددة لخوارزمية تصنيف شجرة القرار باستخدام بايثون، لتكون مرجعًا لكم، وتحتوي المعلومات التالية
1. مختصر
شجرة القرار (decision tree) - هي خوارزمية تصنيف مستخدمة على نطاق واسع.
مقارنةً بخوارزمية بايز، يفيد شجرة القرار في أنه لا يتطلب أي معرفة مجال أو إعداد معاملات.
في التطبيق العملي، تكون شجرة القرار أكثر ملاءمة لاستكشاف المعرفة.
2. فكرة الخوارزمية
بشكل عام، فكرة تصنيف شجرة القرار تشبه البحث عن شريك. تخيل أن أم الفتاة تريد تقديم شريك للفتاة، ولذلك أصبح لدينا الحوار التالي:
ابنة: كم عمره؟
أم: 26.
ابنة: هل هو جميل؟
أم: جميل.
ابنة: هل الدخل مرتفع؟
أم: ليس عاليًا جدًا، حالة متوسطة.
ابنة: هل هو موظف عام؟
أم: نعم، يعمل في مكتب الضرائب.
ابنة: حسنًا، سأذهب لمقابلة.
عملية اتخاذ القرار للفتاة هي عملية قرار شجرة تصنيف تقليدية.
الجوهر:من خلال العمر والجمال والدخل وكونه موظفًا عامًا، يتم تصنيف الرجال إلى فئتين: رؤية أو عدم رؤية.
إذا كانت الفتاة تتطلب من الرجل أن يكون دون 30 عامًا، وجميلًا على الأقل، ومكفول الدخل أو موظف عام مكفول الدخل، فإن هذا يمكن أن يتمثل في الشجرة التالية لمنطق قرار الفتاة.
الشجرة في الصورة أعلاه تعبر بشكل كامل عن استراتيجية الفتاة في اتخاذ القرار حول ما إذا كانت ستلتقي بشخص على موعد، وفي ذلك:
◊ النود الخضراء تمثل شرط التحديد.
◊ النود البرتقالية تمثل نتائج القرار.
◊ الإشارات المتجهة تمثل مسار القرار عند مختلف الحالات.
الإشارات الحمراء في الصورة تمثل عملية اتخاذ القرار للفتاة في المثال السابق.
هذه الصورة تعتبر شجرة قرار تقريبًا، تقول إنها “تقريبًا يمكن أن تكون شجرة قرار” لأن شرط التحديد في الصورة غير مقياس، مثل الدخل العالي والمتوسط والمنخفض وما إلى ذلك، لا يمكن اعتبارها شجرة قرار في معنى صحيح، إذا تم تعديل جميع الشروط إلى قيم مقياس، فإنها تصبح شجرة قرار حقيقية.
مفتاح خوارزمية تصنيف شجرة القرار هو بناء شجرة القرار الأمثل بناءً على “بيانات مقدمة مسبقًا” لتنبؤ الفئة للبيانات غير المعروفة.
شجرة القرار: هي بنية شجرة (يمكن أن تكون شجرة ثنائية أو غير ثنائية). كل نود غير الأوراق تمثل اختبارًا لصفة الخصائص، وكل فرع يمثل الخصائص في نطاق قيم معين، وكل ورقة تحتوي على فئة. عملية اتخاذ القرار باستخدام شجرة القرار هي من البداية، اختبار الخصائص المطلوبة للفئة التي يتم تصنيفها، واختيار الفرع الناتج وفقًا للقيمة، حتى وصوله إلى ورقة النهاية، حيث يتم وضع الفئة التي تحتويها كنتيجة قرار.
3. بناء شجرة القرار
إذا كان لدينا مجموعة بيانات لتقييم جودة التفاحة كالتالي:
عينة أحمر كبير تفاحة جيدة
0 1 1 1
1 1 0 1
2 0 1 0
3 0 0 0
هناك 2 خاصية في العينة، A0 تعني ما إذا كانت تفاحة حمراء. A1 تعني ما إذا كانت تفاحة كبيرة. إذا كان علينا بناء شجرة قرار آلية لتحديد جودة التفاحة.
بسبب أن البيانات في هذا المثال تحتوي على 2 خاصية فقط، يمكننا استحضار جميع أنواع الشجر القرار المحتملة، وهي 2 شجرة فقط، كما هو موضح في الشكل التالي:
من الواضح أن الشجرة التي تستخدم A0 (الأحمر) كأساس للتقسيم هي أفضل من الشجرة التي تستخدم A1 (الحجم) كأساس للتقسيم.
بالطبع، هذا هو المعرفة التجريبية. ومع ذلك، لا تناسب المعرفة التجريبية تحويلها إلى تنفيذ برمجي، لذا نحتاج إلى طريقة قياسية لقياس أداء هاتين الشجرتين.
الطريقة الكمية لقياس أداء شجرة القرار المستخدمة في التقييم:حساب زيادة إنتروبيا كل حالة تقسيم:
إذا انخفضت إنتروبيا البيانات بعد تقسيمها بواسطة خاصية معينة بشكل أكبر، فإن هذه الخاصية هي الخيار الأمثل
الأساس في اختيار تقسيم الخصائص (أي بناء شجرة القرار):
ببساطة، الإنتروبيا هي درجة "الفوضى" أو "الخراب".
من خلال الحساب لفهمها:
1. إنتروبيا البيانات الأصلية للعينة:
عدد الأمثلة الكلية: 4
تفاحة جيدة: 2
تفاحة سيئة: 2
الإنتروبيا: -(1/2 * log(1/2) + 1/2 * log(1/2)) = 1
إنتروبيا تساوي 1 تعني أن الحالة الحالية هي أكثر فوضى، وأقل نظامًا.
2. حساب زيادة إنتروبيا التقسيم في شجرة القرار المعروفة
الشجرة 1 تختار A0 كأساس للتقسيم، وتحسب إنتروبيا كل فرع من فروعها كما يلي:
في العقد الفارغ 0 و 1 هناك 2 أمثلة إيجابية، و 0 أمثلة سلبية. إنتروبيا: e1 = -(2/2 * log(2/2) + 0/2 * log(0/2)) = 0.
في العقد الفارغ 2 و 3 هناك 0 مثال إيجابي، و 2 أمثلة سلبية. إنتروبيا: e2 = -(0/2 * log(0/2) + 2/2 * log(2/2)) = 0.
لذلك يتم اختيار معادلة إنتروبيا A0 بعد التقسيم لتكون وزنًا متكاملًا لوزن كل فرع من فروع النقاط الإنتروبية: E = e1 * 2/4 + e2 * 2/4 = 0.
معدل زيادة إنتروبيا تصنيف A0 هو G(S, A0) = S - E = 1 - 0 = 1.
في الواقع، تمثل عقدة ورقة الشجرة أن جميع الفروع تنتمي إلى نفس الفئة، لذا فإن إنتروبياها تكون دائمًا 0.
يختار الشجرة 2 تصنيف A1 أولاً، ويتم حساب إنتروبيا كل فرع من الفروع المختلفة كما يلي:
فرع 0،2 يحتوي على 1 مثال إيجابي و1 مثال سلبي. إنتروبيا: e1 = -(1/2 * log(1/2) + 1/2 * log(1/2)) = 1.
فرع 1،3 يحتوي على 1 مثال إيجابي و1 مثال سلبي. إنتروبيا: e2 = -(1/2 * log(1/2) + 1/2 * log(1/2)) = 1.
لذلك، معادلة إنتروبيا تصنيف A1 بعد اختيار A1 هي وزن إنتروبيا كل فرع من الفروع المختلفة: E = e1 * 2/4 + e2 * 2/4 = 1. أي أن التقسيم لا يختلف عن عدم التقسيم!
معدل زيادة إنتروبيا تصنيف A1 هو G(S, A1) = S - E = 1 - 1 = 0.
لذلك، قبل كل تصنيف، نحتاج فقط إلى حساب تصنيف معادلة الإنتروبيا الأكبر.
إذا كانت معادلة إنتروبيا تصنيف A0 أكبر من معادلة إنتروبيا تصنيف A1، فإن تصنيف A0 هو الخيار الأمثل!!
4. فكرة خوارزمية
بعد تصنيف الخصائص القرارية، يقل عدم الترتيب في البيانات، أي يقل إنتروبيا المعلومات.
5. تنفيذ الخوارزمية
تنظيف خصائص البيانات
مقارنة زيادة معلومات معادلة الإنتروبيا بعد تصنيف البيانات بناءً على خاصية معينة، اختر الخاصية التي تحقق أكبر زيادة في معادلة الإنتروبيا كأساس تصنيف أولي، ثم استمر في اختيار الخاصية الثانية، وهكذا.
هذا هو محتوى المقال الكامل، نأمل أن يكون هذا المقال مفيدًا جدًا لكم في تعلمكم، ونأمل أيضًا أن تدعموا وتعززوا تعليمات الشعور.
بيان: محتوى هذا المقال تم جمعه من الإنترنت، يحق لصاحب الحقوق أن يكون مالكًا، تم جمع المحتوى من قبل المستخدمين عبر الإنترنت بشكل متعاوني وتم تحميله بشكل مستقل، هذا الموقع لا يملك حقوق الملكية، لم يتم تعديل المحتوى بشكل يدوي، ولا يتحمل هذا الموقع أي مسؤولية قانونية ذات صلة. إذا اكتشفت محتوى يشتبه في حقوق النسخ، فلا تتردد في إرسال بريد إلكتروني إلى: notice#oldtoolbag.com (عند إرسال البريد الإلكتروني، يرجى استبدال # بـ @) لتقديم الشكوى، وتقديم الدليل، إذا تم التحقق من ذلك، فإن هذا الموقع سيقوم بإزالة المحتوى المشبوه بسرعة.