دليل Pandas

دليل بايثون Pandas

Pandas مفتوح المصدر تحت رخصة BSD بايثون مكتبة دعم تحليل البيانات، توفر بنية بيانات عالية الأداء وسهولة الاستخدام وأدوات تحليل البيانات للغة البرمجة بايثون. يتم استخدام بايثون مع Pandas في مجالات واسعة تشمل الأكاديمية والتجارة، بما في ذلك التمويل، الاقتصاد، الإحصاء، التحليل وما إلى ذلك. Pandas هو مجموعة قوية من أدوات تحليل البيانات المركبة؛ أساس استخدامها هو Numpy (يقدم عمليات حسابات مصفوفات عالية الأداء)； يستخدم لتحليل البيانات وتحليل البيانات، ويوفر أيضًا وظائف تنظيف البيانات. في هذا الدليل، سنتعلم عن وظائف Pandas المختلفة وكيفية استخدامها في الممارسة.

هذا الدرس مخصص للذين يرغبون في تعلم الأساسيات والميزات المختلفة لـ Pandas. هذا مفيد بشكل خاص للذين يعملون في تنظيف البيانات وتحليلها. بعد الانتهاء من هذا الدرس، ستكتشف أنك تملك مستوى معتدل من المعرفة، ويمكنك الحصول على معرفة أعلى من خلال متابعة التعلم.}}

قبل تعلم Pandas، يجب أن يكون لديك فهم أساسي للمصطلحات البرمجية. فهم أي لغة برمجة أساسية يعتبر نقطة إضافية. يستخدم مكتبة Pandas معظم ميزات NumPy. يُنصح بقراءة الدروس المتعلقة بـ NumPy قبل المتابعة في هذا الدرس.；

يستخدم Pandas لمعالجة أنواع البيانات التالية:；

بيانات جدول مشابهة لـ SQL أو Excel، تحتوي على أعمدة متفاوتة في البنية； عناصر NumPy يجب أن يكون لديها نفس نوع البيانات، وبالتالي يجب أن يكون حجمها نفسه في الذاكرة； تسلسلات الوقت المرتبة وغير المرتبة (غير المعددة بشكل ثابت)؛ ماتrices تحتوي على علامات سطر وعمود، بما في ذلك البيانات المتشابهة والمختلفة في البنية； لا تحتاج إلى تسمية البيانات من أي شكل آخر قبل تحويلها إلى بنية بيانات Pandas；

لماذا استخدام Pandas؟；

البنية الرئيسية لـ Pandas هي Series (بيانات أحادية الأبعاد) و DataFrame (بيانات ثنائية الأبعاد)، وهذه البنيات تكفي لتعامل مع معظم الاستخدامات الشائعة في المالية والتحليل الإحصائي والعلوم الاجتماعية والهندسة وما إلى ذلك. بالنسبة للمستخدمين من R، يقدم DataFrame ميزات أكثر من data.frame في لغة R. تم تطوير Pandas على أساس NumPy، ويتم دمجه بشكل مثالي مع مكتبات الحوسبة العلمية الثالثة. Pandas مثل سكين سويسري متعدد الأغراض، وسيتم ذكر بعض من مميزاته هنا:；

معالجة البيانات المفقودة في البيانات العددية وغير العددية، تمثيلها بـ NaN؛ تغيير حجم المتغيرات: إضافة أو حذف أعمدة DataFrame وغيرها من الأجسام المتعددة الأبعاد؛ تثبيت البيانات تلقائيًا ووضوحًا: تثبيت العناصر بوضوح مع مجموعة من العلامات، أو تجاهل العلامات، وتنفيذ الحسابات تلقائيًا في Series و DataFrame؛ ميزة قوية ومتينة لتجميع البيانات (group by)：قسمة-تطبيق-دمج البيانات، تجميع وتحويل البيانات； تحويل بسهولة البيانات غير المنتظمة والمختلفة في الفهرس في بنية DataFrame الخاصة بـ Python و NumPy؛ إجراء عمليات قطع وتصنيف وتحليل البيانات الكبيرة بناءً على العلامات الذكية； دمج البيانات (merge) و **ربط البيانات (join)** بوضوح؛ التحويل بسهولة لتشكيل البيانات (reshape) و **تحويل البيانات (pivot)**؛ دعم التسميات المنظمة: دعم تسمية أكثر من علامة لكل مقياس； أدوات IO ناضجة: قراءة ملفات النصوص (ملفات CSV وما إلى ذلك التي تدعم الفواصل)، ملفات Excel، قواعد البيانات، إلخ، وتخزين / تحميل البيانات باستخدام نموذج HDF5 السريع؛ السلسلة الزمنية: دعم إنشاء نطاقات التواريخ، تحويل التردد، إحصاءات النافذة المتحركة، التنبؤ بالتراجع الخطي المتحرك، تحريك التواريخ، إلخ.

هذه الميزات مصممة لحل الألم الذي يواجهه برمجيات اللغات الأخرى بيئات البحث العلمي. عادةً يتم تقسيم معالجة البيانات إلى عدة مراحل: تنظيف وتنظيف البيانات، تحليل البيانات والنماذجة، تصميم البيانات وتصميم الجداول، Pandas هو أداة مثالية لمعالجة البيانات.

ملاحظات أخرى:

سرعة Pandas عالية. العديد من الألغام الأساسية في Pandas تم تحسينها باستخدام Cython. ومع ذلك، من أجل الحفاظ على التوافق، يجب التضحية ببعض الأداء، ويمكن تطوير أدوات مخصصة أسرع بكثير إذا كان التركيز على وظيفة معينة. Pandas هو إحدى الاعتمادات لـ statsmodels، لذا فهو جزء مهم من نظام الحوسبة الإحصائية في Python. Pandas قد تم تطبيقه بشكل واسع في مجال المالية.

مثال بسيط لـ Pandas

مثال

　　$ pip install pandas
　　$ python -i
　　>>> pandaspd
　>>> df = pd.()　
　>>> طباعة(df)
　　DataFrame فارغ
　الأعمدة: []
　النص: []

عمليات SQL في Pandas