بسم الله الرحمن الرحيم الحمد لله رب العالمين، والصلاة والسلام على رسوله الأمين، وبعد: فهذا ملف تعريفي مبسط حول النسخة الثانية من المدونة اللغوية لمتعلمي اللغة العربية ويشتمل على تسعة أقسام: - المؤلفون - نوع البيانات - مصدر البيانات - الطلاب المساهمون - النصوص - التطبيقات المستفيدة - اللغة - الوصف العام - تسمية الملفات =================================== المدونة اللغوية لمتعلمي اللغة العربية - النسخة الثانية http://www.arabiclearnercorpus.com =================================== المؤلف: _____ عبدالله الفيفي جامعة الإمام محمد بن سعود الإسلامية الرياض - المملكة العربية السعودية ayjfaifi@imamu.edu.sa http://www.abdullahalfaifi.com ----------------------------------- نوع البيانات: ______ تحتوي النسخة الثانية من المدونة على ثلاثة أقسام من البيانات الخام: 1- نصوص مكتوبة يدوياً (بعد إدخالها إلى الحاسب وتمثل 76% من المدونة) 2- نصوص مكتوبة على الحاسب مباشرة (تمثل 17%) 3- تسجيلات صوتية (بعد تفريع نصوصها على الحاسب وتمثل 7%) جميع هذه البيانات متاحة في نوعين من الملفات: ملفات نصية: 1- ملفات نصية دون المعلومات الوصفية للمدونة 2- ملفات نصية مع المعلومات الوصفية باللغة العربية 3- ملفات نصية مع المعلومات الوصفية باللغة الإنجليزية ملفات XML: 1- ملفات XML مع المعلومات الوصفية باللغة العربية 2- ملفات XML مع المعلومات الوصفية باللغة الإنجليزية المصدر الأصلي للأوراق المكتوبة يدوياً والتسجيلات الصوتية: الأوراق المكتوبة يدوياً متاحة أيضاً في ملفات بتنسيق PDF كما أن التسجيلات الصوتية (أكثر من ثلاث ساعات) متاحة في ملفات بتنسيق MP3 تم أخذ موافقة جميع المشاركين في المدونة على استخدام نصوصهم ونشرها للباحثين ----------------------------------- مصدر البيانات: _______ تم جمع بيانات المدونة من متعلمي اللغة العربية عدد الطلاب: 942 عدد النصوص: 1585 عدد الكلمات: 282,732 الطلاب المساهمون: _________ - العمر: من 16 إلى 42 - الجنس: ذكور وإناث - اللغة الأم: 66 لغة أم (انظر القائمة أدناه) - الجنسية: 67 جنسية (انظر القائمة أدناه) - التحدث باللغة العربية: ناطقون باللغة العربية وناطقون بغيرها - عدد اللغات المتحدث بها: من 1 إلى 10 لغات - عدد سنوات تعلم اللغة العربية: من 1 إلى 19 سنة - عدد سنوات الإقامة في بلدان عربية: من 1 إلى 21 سنة - المستوى التعليمي العام: مرحلة ما قبل الجامعة والمرحلة الجامعية - مستوى الدراسة: خمسة مستويات 1) برنامج الإعدا العام في اللغة العربية 2) برنامج الدبلوم في اللغة العربية 3) المرحلة الثانوية 4) بكالوريوس في اللغة عربية 5) ماجستير في اللغة عربية - السنة أو المستوى: من السنة الأولى إلى الثالثة أو من المستوى الأول إلى الثامن (حسب نوع الدراسة) - المؤسسة التعليمية التي ينتمي لها الدارس: 25 ما بين مدرسة وجامعة ومعهد لتعليم اللغة قائمة باللغات الأم للطلاب المشاركين في المدونة (مرتبة أبجدياً): ____________________________ الإنجليزية الإندونيسية الإيطالية الأذربيجانية الأردية الألبانية الأمهرية الأنغوشية الأنكو الأوزبكية الأوغندية البامبارية البرتغالية البشتو البنغالية البنينية البوسنية البولندية التاملية التايلندية التترية التركية التغالوغية الدغومباوية الديولا الروسية الزرمية السانغوية السواحلية السوسو السونيكية الصربية الصومالية الصينية الطاجيكية العربية العفرية الفارسية الفرنسية الفلبينية الفولانية القرغيزية القمرية الكازاخية الكاليبوغان الكردية الكمبودية الكورية الماجنداناوية المادورية الماراناوية الماليالامية المانجا الملايوية المندنكية المنغولية المورية النيبالية الهندية الهوسا الهولندية الولفية الياكانية اليوربا كوتوكولي مدنكا قائمة بجنسيات الطلاب (مرتبة أبجدياً): _________________ إثيوبي أذربيجاني أردني أفريقيا الوسطى أفغاني ألباني ألماني أمريكي إندونيسي أوزبكي أوغندي أوكراني إيطالي باكستاني بريطاني بلجيكي بنغالي بنيني بوركينا فاسو بوروندي بوسني بولندي تايلندي تركي تنزاني توجولي الجبل الأسود جيبوتي روسي سريلانكي سعودي سنغالي سوداني سوري سيراليوني صربي صومالي صيني طاجيكي عاجي (ساحل العاج) غامبي غاني غيني فرنسي فلبيني فلسطيني قرغيزي قمري كازاخستاني كمبودي كندي كوري جنوبي كوسوفي كيني لبناني ليبيري مالي ماليزي مصري مقدوني منغولي نيبالي النيجر نيجيري هندي هولندي يمني النصوص: _____ - النوع الأدبي: نصوص سردية قصصية 67% ونصوص تناقش قضية محددة 33% - مكان التأليف: في الفصل 69% وفي المنزل 31% - سنة التأليف: 2012 و 2013 - الدولة: المملكة العربية السعودية 100% - المدينة: ثمان مدن (الرياض 87%، والقطيف 9%، ومكة 4%، وجدة 3%، والخرج 3%، والجش 2%، وحفر الباطن 1%، ومحايل عسير 1%) - التوقيت: 69% من النصوص كان تأليفها محددأً بوقت معين (ساعة)، و31% دون تحديد - استخدام المراجع اللغوية عموماً: استخدمت في 5% من المدونة ولم تستخدم في 95% - استخدام كتب القواعد: استخدمت في 2% ولم تستخدم في 98% - استخدام المعاجم الأحادية: استخدمت في 1% ولم تستخدم في 99% - استخدام المعاجم الثنائية: استخدمت في 2% ولم تستخدم في 98% - استخدام مراجع أخرى: استخدمت في 2% ولم تستخدم في 98% - شكل النص: مكتوب 93% ومنطوق 7% - وسيط النص: مكتوب يدوياً 76%، ومكتوب على الحاسب الآلي 17%، ومقابلات مسجلة 7% - طول النص: متوسط طول النصوص: 178 كلمة ----------------------------------- التطبيقات المستفيدة: _________ الاستخدامات المحتملة للمدونة تشمل: 1- تحليل الأخطاء بمساعدة الحاسب 2- تحليل اللغة المرحلية المقارن 3- تأليف معاجم الطلاب 4- البحث في اكتساب اللغة الثانية 5- تعليم اللغة العربية 6- تصميم المواد التعليمية 7- التعرف على الأخطاء اللغوية آلياًّ 8- التعرف الضوئي على الحروف (حيث تشمل المدونة نصوصاً مكتوبة يدوياً في صيغة ملفات PDF إضافة إلى نسخ إلكترونية لهذه النصوص في صيغة ملفات نصية txt) ----------------------------------- اللغة: ___ اللغة العربية الفصيحة هي اللغة المستخدمة في نصوص المدونة ----------------------------------- الوصف العام: ______ تحتوي المدونة اللغوية لمتعلمي اللغة العربية على مجموعة من النصوص والتسجيلات حول موضوعين مختلفين: الأول سردي (رحلة خلال إحدى الإجازات) والثاني للمناقشة (الاهتمامات الدراسية). شارك في كتابة وتسجيل هذه المواد متعلموا اللغة العربية في المملكة العربية السعودية خلال العامين 1434 و1435 للهجرة (2012 و2013). تشتمل المدونة على 282,732 كلمة مع التكرار (386,571 وحدة صرفية)، و29,627 كلمة دون تكرار، عبارة عن 1585 مادة (مكتوبة أو مسجلة) ّأنتجها 942 طالباً من 67 جنسية و66 لغة أم مختلفة، تم تقسيمهم إلى مرحلتين: ما قبل الجامعة، والمرحلة الجامعية. متوسط طول النصوص 178 كلمة. تم إنشاء المدونة لتزويد الباحثين بمجموعة من البيانات – مفتوحة المصدر – للاستفادة منها في مجالات البحث اللغوي مثل تعليم اللغة وتعلمها، وعلم اللغة التطبيقي، وصناعة المعاجم، كما يمكن استخدام هذه البيانات لعدة أغراض بحثية مثل تحليل الأخطاء اللغوية، وقياس التطور اللغوي لدى الطلاب، وتصميم المواد التعليمية، وتحليل اللغة المرحلية، وتأليف المعاجم الطلابية وكذلك معاجم الأخطاء الشائعة. تقدم المدونة ثلاثة أنواع من البيانات: 1) بيانات نصية في ملفات بصيغة txt وبتنسيق (Unicode) وأخرى بصيغة لغة الترميز الممتدة XML، وهذه تشمل جميع بيانات المدونة. 2) صور ممسوحة ضوئياً للمصدر الأصلي للنصوص المكتوبة يدوياً في ملفات بتنسيق PDF، وهذه تشمل فقط النصوص المكتوبة يدوياً فقط. 3) تسجيلات صوتية (أكثر من ثلاث ساعات) في ملفات بتنسيق MP3، وهذه تشمل التسجيلات الصوتية لأولئك الذين أعطوا الإذن بنشرها للاستخدام البحثي. جمع البيانات: 1- البيانات المكتوبة: تم تصميم مهمتين لاستكتاب الطلاب، مع إعطائهم الحرية في اختيار أي واحدة منهما أو أداء المهمتين جميعاً لمن يرغب، وتشتمل كل مهمة على موضوعين الأول سردي (رحلة خلال إحدى الإجازات) والثاني للمناقشة (الاهتمامات الدراسية): - المهمة الأولى مؤقتة (40 دقيقة لكل نص)، ولا يتاح للطالب الاستعانة بأي مراجع لغوية كالمعاجم وكتب القواعد أثناء أداء هذه المهمة. - المهمة الثانية مشابهة تماماً للأولى في موضوعاتها، إلا أن أداءها يكون على شكل واجب منزلي، على أن تسلم خلال يومين، مع إمكانية الاستفادة من أي مراجع لغوية، والغرض من هذا إعطاؤهم الفرصة لتحسين الكتابة مع ما لديهم من الوقت الكافي لإنجاز المهمة. تم استخدام نوعين من النماذج لجمع البيانات ، النموذج الأول ورقي وتم استخدامه في المدارس والأقسام التي لا تحتوي على معامل للحاسب الآلي أو لم تكن تلك المعامل متاحة للباحث، وقد استلزم هذا النوع معالجة لاحقة تمثلت في تحويل النصوص إلى صيغة إلكترونية بإدخالها للحاسب الآلي. النوع الثاني من النماذج إلكتروني، وتم استخدامه في المدارس والأقسام التي أتيح فيها استخدام معامل الحاسب الآلي، ولم يحتج هذا النوع لأي معالجة لاحقة. 2- البيانات المنطوقة: تم استخدام المهمة الأولى لجمع البيانات المنطوقة، حيث أتيح للمشاركين وقت محدود للحديث عن أحد الموضوعين أو كلاهما دون استخدام أي مراجع لغوية. وقد سجلت المواد الصوتية بصيغة MP3، ولكن لوجود اختلافات في ظروف التسجيل لم يستطع بعض مساعدي الباحث استخدام الأجهزة المخصصة للتسجيل والتي تنتج ملفات ثنائية القناة بمعدل 44100 هرتز، ولذا استخدموا جهازاً آخر أعطى ملفات أحادية القناة مع معدل 16000 هرتز. المدة الزمنية التي تغطيها المدونة: تغطي المدونة الفترة من 1434 إلى 1435 للهجرة (من 2012 إلى 2013) ----------------------------------- تسمية الملفات: _______ تمت تسمية ملفات المدونة بطريقة تسمح بالتعرف على الخصائص الأساسية للنص وكذلك المؤلف، نحو: S038_T2_M_Pre_NNAS_W_C وهي بالترتيب من اليسار (مفصولة بشرطة سفلية): - الرقم التعريفي الطالب - رقم النص - جنس الطالب (M= ذكر F= أنثى) - المرحلة العامة (Pre= ما قبل الجامعة Uni= المرحلة الجامعية) - ناطق بالعربية باعتبارها لغته الأم أم ناطق بغيرها (NAS= ناطق باللغة العربية NNAS= ناطق بغير اللغة العربية) - نوع النص ( W= مكتوب S= منطوق) - مكان تحرير أو تسجيل النص (C= في الفصل H= في المنزل) -----------------------------------