المستخلص:
يقصد " برومنة " أسماء الأعلام العرب كتابة هذه الأسماء بالحروف الرومانية . ونظراً لتفاوت واختلاف طرق الرومنة المستخدمة فقد جرت محاولات لتقييسها. وبالفعل فقد أصدرت مواصفة قياسية عالمية لذلك . إلا أنه نادراً ما يُجْمِع المهتمون بالرومنة على أسلوب موحد في ذلك. وبالرغم من أن الرومنة تتم حالياً بصورة يدوية في الغالب إلا أنه توجد بعض النظم التي تحوسب عملية الرومنة . في هذا البحث نستعرض طرق الرومنة وكيفية حوسبتها كما نقدم نظام الرومنة والذي سبق للباحث أن اقترحه من قبل مع مقترح لناظم رومنة محوسب.
مقدمة:
تنوع لغات البشر آية من آيات الله ، قال تعالى " ومن آياته خلق السماوات والأرض واختلاف ألسنتكم وألوانكم إن في ذلك لآيات للعالمين " [ الروم – 22 ]. هذا وقد انفرد حفص عن عاصم بقراءتها بكسر اللام والباقون من القراء بفتحها ولذلك فقد جمعت القراءتان العلم والعمومية. وتقدر عدد اللغات الحية حالياً بالآلاف ( منها أكثر من 300 لغة في الهند وحدها ) . وأشرف هذه اللغات وأعلاها قدراً هي لغة القرآن الكريم – كلام الله – آي اللغة العربية .
وبصفة عامة فإن أي لغة طبيعية ( أي ليست لغة لآلة ) يمكن تقسيمها إلى خمسة مستويات :
أ-المستوى الصوتي phonology
ب-مستوى شكل وتركيب الكلمات (الصرف ) morphology
ج-مستوى تركيب الجمل (النحو) syntax
د-مستوى المعنى (الدلالي) semantics
هـ-المستوى البرجماتى (الاستعمالى)pragmatic
و تتفاوت اللغات الطبيعية في كل جانب من هذه الجوانب اختلافاً بيناً .
و من أجل التواصل بين الشعوب فإنه من الضروري أن تتم عمليات الترجمة بين هذه اللغات. على إنه يحدث في بعض الأحيان أن لا يمكن ترجمة بعض الكلمات أو العبارات من لغة إلى أخرى. وهذا قد يكون راجعاً لأسباب متعلقة باللغة ذاتها أو لأسباب ثقافية أو اجتماعية. ولعل هذا أظهر ما يكون في أسماء الأعلام . وفي هذه الحالة يتم التعبير عن الكلمة الأصلية (في لغة المصدر source ) بأحرف مكافئة في اللغة الهدف (target) وهو ما يعرف بالتعبير عن كلمات لغة بأحرف لغة أخرى أو Transliteration . فإذا ما كانت أحرف اللغة الهدف هي الحروف " الرومانية " فإنه أحيانا يطلق على هذه العملية Romanization أو الرومنة . ومن الضروري أن نلفت الانتباه إلى أن هناك نوعا من عدم الاتفاق حول مدلول هذين المصطلحين وأعني : Transliteration وRomanization [1]. وبالرغم من أن كلمة Transliteration – من الناحية اللغوية البحتة - لا تشترط التماثل أو حتى التقارب الصوتي بين منطوق الكلمة الأصلية والكلمة المكتوبة في اللغة الأخرى إلا أن استخدام هذا المصطلح فعليا قد أضاف هذا الشرط كأمر واقع في كثير من الأحيان عند الكلام على اللغات الطبيعية. وجدير بالذكر أن عملية كتابة لغة بأحرف لغة أخرى لها عمومية أكبر من كونها تستخدم في اللغات الطبيعية فهي تستخدم في اللغات الرسمية Formal Languages وفي بعض علوم الحاسب الأخرى مثل كتابة المترجمات وترميز البيانات [2-3].
لقد بدأت عملية الرومنة منذ قرون عديدة حينما اتصلت الحضارتان الإسلامية العربية والأوربية خصوصاً على أيدي المستشرقين. وبالرغم من هذه البداية المبكرة فإن معظم نظم الرومنة كانت اجتهادية وتختلف من شخص لآخر كما سنبين لاحقا. وفي الوقت الراهن - وخاصة بعد أحداث 11 سبتمبر 2001 الشهيرة في الولايات المتحدة الأمريكية - فقد ظهرت أبعاد أمنية لهذا الموضوع. فعلى سيبل المثال فقد وجدت السلطات الأمنية في تلك البلاد صعوبة في تتبع الوثائق التي تحتوى على اسم " أسامة بن لادن " باللغة الإنجليزية نظراً لاختلاف طرق كتابتها من شخص لآخر أو حتى لنفس الشخص [4] "انظر موقع بوابة العرب Arab Gateway : Arabic Words and the Roman Alphabet .
في هذا البحث سنتعرض باختصار لنظم الرومنة ومشاكلها مع وضع الشروط الأساسية التي نرى ضرورة توافرها لنظم الرومنة المثالية. ثم نتعرض لمحاولات الحوسبة التي جرت في هذا الشأن ونعرض لنموذج مقترح للرومنة وذلك كله مع التركيز على رومنة أسماء الأعلام العربية بمعنى كيف يكتب اسم العلم العربي بحروف رومانية. .
نظم الرومنة:
بدأت المحاولات الأولى للرومنة بواسطة المستشرقين في المقام الأول وكانت مبنية على اجتهاداتهم الشخصية في كيفية كتابة الكلمة العربية كما تنطق [ حسبما سمعوها ] بالأحرف اللاتينية . وقد شاب هذا الأمر عدة مشاكل منها أن الكلمة العربية الواحدة قد تنطق بعدة أساليب تبعاً لاختلاف المكان أو الأصل حتى لو راعى كل منهم النطق الفصيح لها قدر الإمكان . أضف إلى ذلك أن عملية الرومنة تتأثر بلغة المستشرق الأصلية فمن كانت لغته الأصلية الإنجليزية قد يستخدم الحرف a للدلالة على الفتحة ، sh للدلالة على حرف ش بينما قد يستخدم نظيره الألماني الحرف e للدلالة على الفتحة ، sch أو ch للدلالة على حرف ش وهكذا ... ولذلك فإن كتابة اسم العَلَم العربي بالحروف الإنجليزية يمكن أن تتم بطرق عديدة. وحالياً يقوم اللغويون العرب والمستشرقون بعملية الكتابة هذه بطريقة يدوية ، في أغلب الأحيان ، وهذا ينتج عنه ما يلي :-
1- عدم الاتساق في عملية الرومنة في داخل النص الواحد . وعلى سبيل المثال فإن لورانس العرب في كتابه المعروف كان يكتِب نفس الاسم العربي بعدة طرق مختلفة فعلى سيبل المثال فإن كلمة جَدَّة ( اسم المدينة المشهورة بالمملكة العربية السعودية ) كتبها أحيانا Jeddah وأحيانا أخرى Jidda . كما أنه كتب اسم عبد المعين بست طرق مختلفة [4].
2- عدم الاتساق في عملية الرومنة بين النصوص المختلفة سواء أكانت لنفس الشخص أو لمجموعة مختلفة من الأشخاص . وهذا من باب أولى بطبيعة الحال. وقد استقصيت كتابة اسم شرف الدين مرومناً فوجدته يكتب بالصور التالية:
Sharaf Eldin, Sharaf El Din, Sharaf ElDin, Sharaf-Eldin, Sharaf-El-Din, Sharafeldin, Sharafel Din, Sharafelddin, Sharafelldin, Sharafudin, Sharafuddin, Sharaf Aldine, Sharaf Al Din, Sharaf Al Dine, Sharaf-Al-Din, Sharaf El deen, ….
3- عدم ضمان استرجاع الكلمة العربية من الكلمة "المرومنة" كحالتها الأصلية ( أي العملية العكسية للرومنة )
4- البطء في " الرومنة " .
5- احتمال الخطأ البشرى نتيجة للعمل اليدوي أكبر منه مما لو كان هذا الأمر يتم حاسوبياً .
و لعل الحل المنطقي لهذا الأمر هو وضع نظام موحد ملزم لعملية الرومنة أي وضع مواصفة قياسية لذلك. وقد تعجب أيها القارئ الكريم حينما تعلم أن هناك عدة مواصفات مقترحة وبعضها متداول بين الباحثين إلا أن أيا منها لم يتحقق لها الانتشار الكافي. فعلى سبيل المثال يوجد حالياً على الساحة عدة طرق للرومنة ومن أهمها [5-9] :
1- مكتبة الكونجرس الأمريكية ( L.C ) ولعلها الأكثر شيوعاً .
2- المواصفة البريطانية للرومنة BS4280 ( BSI ) .
3- المواصفة الخاصة بدائرة المعارف الإسلامية .
4- المواصفة الخاصة بالأيزو ISO .
5-"المواصفة" الخاصة بالمجلة الدولية لدراسات الشرق الأوسط ( IJMES ) .
6- "المواصفة" الخاصة بمعهد الدراسات الإسلامية بجامعة مكجيل بكندا.
و يبين الملحق أ "المواصفة" الأخيرة.
و ربما يدعو للدهشة بأن كثيراً من الباحثين لا يستخدمون أيا منها بل أن بعضهم ربما يبتدع طريقته الخاصة للرومنة كما في [10] .
و في الوقت الحالي ونتيجة لانتشار الإنترنت والهواتف المحمولة يستخدم كثيراً من الناس أسلوباً طريفاً للرومنة وذلك في الاتصال على شبكة الإنترنت ( سواء في البريد الإلكتروني أو على شبكة المعلومات أو في غرف المحادثة) أو في الرسائل القصيرة على الهاتف المحمول ( أو الجوال ) فعلى سبيل المثال الهمزة وتمثل بالرقم 2 ، ح ويمثلها 7 ، ع ويمثلها 3 ، خ ويمثلها الرمزين ‘7 أما باقي الحروف فأنها تنطق كما تكتب وعلى كل فإننا لن نتعرض لهذا الأسلوب في هذا البحث .
و من عيوب نظم الرومنة السابقة أنها تحتاج لرموز خاصة إضافة للحروف العادية الأبجدية. وهذا بدوره يؤدي لصعوبة الحوسبة نظرا لعدم وجود هذه الرموز على لوحة المفاتيح بشكل مباشر (مثل وضع نقاط أعلى حرف غير منقوط أصلا). هذا إضافة إلى أن بعض الحروف العربية يتم رومنتها بأكثر من حرف واحد لاتيني مما قد يوقع في اللبس . هذا علاوة على صعوبة تذكر هذه الرموز بصفة عامة. ويلاحظ أيضا أن العملية العكسية لاسم مرومن قد لا تنتج الاسم العربي الأصلي. ونظراً لعدم اتباع طريقة واحدة لرومنة الأسماء ، بل إنه حتى بافتراض وجود هذه الطريقة فإنه لا ضمانة لاستعمالها بواسطة عموم الناس أو بواسطة موظفي الدولة ( الجوازات مثلاً ) ، فإن أي اسم معين يمكن كتابته بعدة طرق مختلفة فمثلاً شرف الدين - كما سبق وأن أوضحنا - يمكن كتابتها بستة عشر طريقة على الأقل ، بينما كلمة سليمان أمكن رصد 40 طريقة مختلفة لكتابتها [11]. وهذا بدوره يؤدي لمشاكل مختلفة خاصة عند استرجاع الأسماء المرومنة من قاعدة بيانات. وبالرغم من أن المواصفة البريطانية BS4280 تعتبر متسقة إلى حد معقول إلا أنها لا تستخدم على نطاق واسع. وفي البحث [12] يوجد مقارنة بين هذه النظم يمكن الرجوع إليها . وبالرغم من وجود مواصفة قياسية للصوتيات [13] International Phonetic Alphabet إلا أنها معقدة بدرجة لا تلائم إلا المختصين في مجال اللغويات فقط. وقد يبدو أن البديل الطبيعي لذلك هو التعويض عن كل حرف عربي بنظيره الصوتي الإنجليزي ( الروماني ) إلا أن هذا غير متيسر نظراً لأن معظم الحروف العربية لا يمكن التعويض عنها بحرف واحد وذلك مثل حرف ش مثلاً كما أن بعض الحروف ليس لها نظير صوتي في لغة الهدف .
متطلبات نظم الرومنة الجيدة:
يمكن لنا أن نضع الخصائص الأساسية التالية لمتطلبات ضرورية لنظم الرومنة
1-التناظر 1-1 بين كل حرف في لغة المصدر ( العربية ) ، لغة الهدف ( الإنجليزية ) وهذا الشرط يصعب الالتزام به تماماً وذلك لما يلي :-
أ) الحروف العربية تحتاج إلى علامات التشكيل كي يمكن ضبطها وتكتب هذه العلامات أعلى أو أسفل الحرف الأصلي. وبالتالي فإن التناظر يمكن الالتزام به آلياً ( حيث أن التشكيل يعتبر حرفاً مستقلاً ) ولا يمكن الالتزام به يدوياً ( حيث أن الحرف المشكل هو حرف واحد فقط ).
ب) في معظم الأحوال لن يمكن نطق اسم العلم صحيحاً إلا للشخص المتمرس فقط .
2-إمكانية استرجاع الحرف العربي الذي سبق رومنته إلى حالته الأصلية بدون لبس .
3-الشمولية بمعنى أن كافة الرموز والأصوات اللغوية في لغة المصدر يكون لها مقابل في لغة الهدف .
ولبيان مدى أهمية التناظر 1-1 بين الأحرف في لغتي المصدر والهدف فأنني أورد مثالاً بسيطاً وباستخدام مواصفة معهد الدراسات الإسلامية والتي سبق الإشارة إليها . إن كلمة مثل شما [ وهى من أسماء العائلات المشهورة في مصر حالياً ، واسم قرية في محافظة المنوفية كذلك ] تكتب حسب هذه المواصفة shma وكلمة سهما تكتب : shma
أيضاً حيث أنه في هذه المواصفة يستخدم حرف s للدلالة على حرف س ، حرف h للدلالة على حرف هـ ، والحرفين معا sh للحرف ش أما حرف m فيستخدم للدلالة على حرف م. وهذا يسبب اللبس في عملية الاسترجاع ( عكس الرومنة ولنسمها التعريب ) وأيضاً في عملية الرومنة ذاتها يجعل من الصعوبة النطق مباشرة بالكلمة المرومنة صحيحا.
حوسبة الرومنة:
بدأت محاولات حوسبة عملية الرومنة ببعض الأبحاث الأكاديمية ولعل أول هذه الأبحاث والتي أثمرت بعد ذلك والتي أمكن رصدها هو الخاص برسالة الدكتوراه من جامعة جورج تاون للسيد بول روكنك [14] ( وهو مهتم باللغة العربية ويكنى ب "أبو سامي"). وفي رسالته وما تلاها من أبحاث متممة قام بدراسة مشكلة رومنة الأسماء العربية واستخدم المنطق المشوش كأسلوب للبحث في قواعد البيانات متعددة اللغات. وقد انضم إلى إحدى شركات البرمجيات الشهيرة في هذا المجال وهي شركة أبتك [15] ( Apptek) حيث قامت الشركة بتطوير بعض البرمجيات والأدوات اللازمة (و التي يمكن بناء تطبيقات أخرى عليها) مثل NameFinder™ والذي يمكن استخدامه للبحث عن الأسماء في قواعد البيانات متعددة اللغات. ومن ضمن الأدوات ( Case Tools) الخاصة بالشركة Diacritizer والذي يمكنه تشكيل الكلمات العربية وكذا Transliteration/ Romanization Tool والتي تستخدم لاستخراج الأسماء المرومنة. وتعتمد جميع هذه الأدوات على بناء قاعدة بيانات كبيرة ومتزايدة إضافة للمنطق المرتبط بعملية البحث. هذا وكانت مجموعة من الباحثين في جامعة انديانا قد سبقت د. روكنك وطورت نظاما للرومنة ضمن الأعمال اللغوية المحوسبة للغة العربية [16] والتي أسفرت عن نظام كلام Qalam إلا أن هذا المشروع لم يستمر على ما يبدو كما أن الموقع الخاص به ضمن الجامعة لم يعد موجودا.
و في عام 1994 قام أربابي وآخرون من شركة IBM [17] باستخدام تقنية الشبكات العصبية لفلترة الأسماء غير الموثوق بها ومن ثم يتم إرسال الأسماء الأخرى الموثوق بها إلى قاعدة معرفة لرومنتها. وقد تبنت شركة زيروكس مشروعاً ضخماً لمعالجة اللغة العربية أنتج في عام 1996 محلل صرفي للغة العربية [18-19] وبالرغم من أن هذا المشروع ليس معنياً بصفة أساسية بعملية الرومنة إلا أن ما تم تطويره من محلل صرفي يمكن أن يشكل أساساً لبناء نظام رومنة على مستوى عال من الكفاءة.
و لعل من أهم وأفضل الأعمال التي تمت بعد ذلك هو ما قام به مجموعة من الباحثين في جامعة جنوب كاليفورنيا [20-22] وكلها مبنية على الرومنة مع التقارب أو التماثل الصوتي باستخدام بعض القواعد والتي تضمن الوصول لرومنة معقولة وإن كانت قد تفشل أحيانا.
و يلاحظ في سائر الأعمال التي سبق الإشارة إليها المميزات التالية:
1- تقوم بالرومنة مع مراعاة التماثل أو القرب الصوتي بين الاسم المرومن والاسم العربي.
2- تقوم بالتعرف – وبنسبة متفاوتة من النجاح – على الأسماء التي رومنت بطرق مختلفة.
3- معظمها لا يحتاج لتشكيل الاسم العربي مسبقا.
4- يقوم معظمها ببناء قاعدة بيانات للأسماء
و على الجانب الآخر فإن هناك بعض الملاحظات عليها كما يلي:
1- أنها لا تلتزم بالتناظر 1-1 بين الحرف العربي والحرف الانجليزي.
2- أنها لا تشمل كافة الحروف والحركات الموجودة والمستخدمة في اللغة العربية المعاصرة. على سبيل المثال بعضها لا يعرف همزة الوصل ولا يفرق بين التاء المربوطة والهاء المربوطة وهكذا. أيضا هناك حروف تكتب خاصة بالقرآن الكريم ولا تتناولها هذه النظم. كما أن بعض الحروف ، وإن لم تكن عربية أصلا ، إلا أنها أصبحت شائعة الاستخدام حاليا مثل الفاء ذات ثلاث نقاط والتي تنطق مثل حرف V
3- أنها لا تراعي الاختلافات البينية في اللغة العربية المعاصرة بين البلدان العربية المختلفة.
4- أنها صعبة الكتابة باستخدام لوحة المفاتيح.
5- أنها قد تفشل أحيانا في التعرف على الاسم المرومن.
النظام المقترح :
سبق وأن اقترح الباحث نظاماً للرومنة في [12] ويمتاز هذا النظام بتحقيقه للشروط الأساسية المطلوب توافرها في نظم الرومنة علاوة على إضافة بعض الرموز الأخرى للكتابة الصوتية لبعض أحكام التجويد في القرآن الكريم . وسنعيد هنا الجداول الأساسية المقترحة للرومنة (ملحق ب) . هذا ويعتبر بناء البرنامج الذي يقوم بعملية الرومنة في هذه الحالة بسيط للغاية حيث لا يتعدى النظر في جدول الرموز واستبدال كل رمز عربي بما يقابله .
و بالرغم من المزايا الواضحة لهذا النظام فإنه به بعض أوجه القصور لعل أهمها صعوبة التعلم كما أن النطق بكلمة مرومنة بدون مران قد لا يعطي صوتا مماثلا للصوت الأصلي للكلمة. على ذلك فمثلاً كلمة سَلَكَ ( الفعل ) تكتب : salaka والتي يمكن نطقها بصورة مناسبة للأصل العربي أما كلمة طالب ( بدون تشكيل ) فتكتب :- TUlb
و تكتب كلمة طَالِبٌ Tauleboo والتي ستنطق بصورة مخالفة للأصل العربي . ولعل هذا الأمر هو العيب الأساسي في النظام المقترح . أما إذا أردنا استخدام أحد نظم الترميز الأخرى مثل LC والتي تتميز بسهولة النطق ( ولكنها لا تستوفي المتطلبات الأساسية سالفة الذكر ) فإن استخدام أحد أساليب الذكاء الاصطناعي (مثل الشبكات العصبية) و/أو قواعد البيانات الكبيرة يصبح أمراً لامناص منه.
و في هذه الطريقة تتم عملية الرومنة بغض النظر عن التشكيل. وبالتالي فإن عملية الرومنة الآلية تكون مباشرة ومبنية على النظر في جدول التحويل مباشرة. يبين الشكل رقم (1) المعمارية العامة للنظام المقترح وذلك بصورة إجمالية وسوف نشرح هنا كل جزء من هذه المعمارية على النحو التالي :
1- يتم إدخال اسم العلم إما مشكلا ( إذا توافر ذلك ) أو غير مشكل ( وهو الغالب ) .
2- إذا كان الاسم مشكلا فإنه يذهب مباشرة إلى نظام الرومنة أما إذا كان غير مشكل فإنه يدخل على نظام التشكيل – وذلك فقط إذا ما أردنا استخدام نظام للرومنة غير النظام المقترح أما في النظام المقترح فإنه لا يهم كون الاسم مشكلا أو غير مشكل.
3- في نظام التشكيل يتم ما يلي :
4- -تشكيل الحروف القابلة للتشكيل . ونظراً لأن عملية التشكيل لا تعطى جواباً واحداً في معظم الأحيان فإنه من الضروري أن يرتب هذا النظام مخرجاته – إذا تعددت -بحسب نسبة احتمالها مع مراعاة أن استخدام أحد أساليب الذكاء الاصطناعي (مثل الشبكات العصبية) و/أو قواعد البيانات الكبيرة جدا يصبح لامناص منه.
و لعل هذا هو العيب الأساسي في النظام المقترح . أما مميزاته فهيب الالتزام بالتناظر التام 1-1 بين الكلمات العربية والمرومنة . إضافة لذلك فإن تكوين قاعدة بيانات بالأسماء العربية ورومنتها يحقق فائدتين أساسيتين وهما:
I- الاتساق في عملية الرومنة والسرعة بحيث لا نحتاج بعد ذلك لإجراء عملية التحويل إلا للكلمات الجديدة.
II- استخدام قاعدة البيانات هذه كقاموس إضافي عند التدقيق الإملائي.
الخاتمة :
حاولنا في هذا البحث المختصر إلقاء بعض الضوء على مسألة الرومنة للأسماء العربية. وقد رأينا أن نظم الرومنة متعددة وأن أيا منها لا يستوفي كافة الشروط المتوقعة من نظم الرومنة. إذ أن بعضها يحاول المحافظة على التشابه أو التماثل الصوتي على حساب بعض الأمور الأخرى مثل التناظرية بين الحروف العربية والنظير الروماني. ولعله من المناسب أن نبين أن هذه المشاكل ليست قاصرة على رومنة الأسماء العربية فحسب بل إن معظم اللغات الطبيعية تشترك في هذا [23]. وقد بينا باختصار مميزات ونواقص هذه النظم المختلفة. كما استعرضنا الأبحاث وبعض المنتجات الخاصة بذلك بصورة إجمالية. ومع ازدياد نظم الترجمة الآلية فقد تم تطوير بعض النظم التي تحوسب عملية الرومنة . وقد قدمنا نظاما مقترحا للرومنة والذي نعتقد أنه مناسب للحوسبة بصورة عالية.