Quantcast
Channel: متــــرجـــــم عـــربی - دکتر مهدي شاهرخ
Viewing all articles
Browse latest Browse all 578

ترجمه ماشینی - روشهای موجود و شیوه های ارزیابی آنها

$
0
0

ترجمه ماشینی - روشهای موجود و شیوه های ارزیابی آنها

 
 برای دست یافتن به ترجمه ماشینی حرفه ای از عربی به انگلیسی می توان روشی مبتنی بر قوانین زبان‌شناسی استفاده کرد، به این معنی که کلمات از نظر زبان‌شناسی ترجمه خواهند شد. (در واقع متناسب‌ترین کلمات مقصد جایگزین کلمات مبدا خواهند شد.)
این موضوع که موفقیت ترجمه ماشینی پیش از هر چیز نیازمند حل مسئله فهم زبان طبیعی است، اغلب مورد بحث است.به طور عام روش‌های قانون مند (Rule Based)، متن را با استفاده از ساختن واسطی سمبلیک -که نهایتاً متن زبان مقصد از آن ایجاد می شود- تجزیه می کنند. هرمی که عمق های متفاوت نمایش واسط را نشان می دهد. ماشین ترجمه بین زبانی، در نوک هرم است که بدنبال آن، ترجمه ی مبتنی بر انتقال و ترجمه مستقیم آمده اند .
سه شيوه عمده سنتی برای ترجمه ماشينی که بر مبنای معماری آنها ماشينهای ترجمه توسعه يافته اند عبارتند از:


1- شيوه مبتنی بر معماری مستقيم يا ترانسفورمر
2- شيوه مبتنی بر انتقال
3- شيوه ميان زبانی
ساير شيوه های ترجمه ماشينی عبارتند از:
4- ترجمه‌ با استعانت‌ از كامپيوتر  يا شيوه مبتنی بر ديالوگ
5- روش مبتنی بر پيکره زبانی
در اين روش ترجمه ماشينی با استفاده از يک پيکره زبانی  که معمولاً متون از قبل ترجمه ای هستند استفاده می شود.


5-1- روشهای آماری ترجمه ماشينی
سابقه ايده استفاده از روشهای آماری ترجمه ماشينی به دهه 1940 ميلادی بر می گردد اما بلحاظ فقدان امکانات محاسباتی و پيکره زبانی قابل خوانش توسط ماشين که موانعی بر سر راه توسعه اين روش بودند اين روش به تازگی قوت گرفته است. در روشهای آماری ترجمه ماشينی از اطلاعات زبان شناسی استفاده نمی شود بلکه اين گونه ماشينهای ترجمه داده رانده بوده و کليه احتمالات پيکره-رانده از قبل محاسبه شده و بکار گرفته می شوند. از توابع توزيع احتمال کلمات و واژه ها در جملات با استفاده از پيکره های دو زبانی برای يافتن محتمل ترين ترجمه مناسب استفاده می شود. محصولاتی از قبيل  Language Weaver بر  اساس اين روش ارايه شده اند.

لینک دانلود سخنرانی توسط دکتر عبدالحسین صراف زاده در مورد ترجمه ماشینی مبتنی بر آمار

 

5-2- روشهای مبتنی بر مثال ترجمه ماشينی 

روشهای مبتنی بر مثال ترجمه ماشينی  که روشهای مبتنی بر حافظه نيز ناميده شده اند. اين روش بر اساس استفاده از جملاتی که به عنوان مثال قبلاً ترجمه شده است استوار است. در اين گونه سيستمها از پيکره های دوزبانه  برای منبع اطلاعات زبانی خود استفاده می کنند. در اين پيکره ها حجم عظيمی از مثالهای ترجمه جملات دو و يا چند زبانه در يک پايگاه داده متنی ذخيره شده است. ماشين ترجمه  حين کار از اين پايگاه اطلاعات استفاده نموده و ترجمه جمله ای در زبان مبدأ که بيشتر به ورودی شبيه باشد به عنوان خروجی به زبان مقصد  ارايه می شود.
واژگان معنایی (WordNet) بسیار عظیم و گسترده از ضروریات و ملزمات مورد نیاز این روش می باشد. واژگان معنایی، گلوگاه ساخت بسیاری سیستم های پردازش زبان فارسی است. وجود یک واژگان معنایی و در شکل وسیعتر یک واژهستان شناسی برای این زبان در ترجمه ماشینی، بازیابی اطلاعات تک و دوزبانه، خلاصه سازی اسناد، مدیریت محتوا در سیستم های آموزشگر، خطایاب نحوی و معنایی متون، درک و تولید متون فارسی، تشخیص صحبت، تبدیل متن به گفتار، تحلیل نحوی، استخراج اطلاعات از متون و بسیاری کاربردهای دیگر نقش اساسی ایفا می کند. وجود چنین منبعی همچنین می تواند در تهیه منابع زبانی دیگر از جمله پیکره هایی با برچسب معنایی و هستان شناسی های خاص قلمرو کاربرد داشته باشد.


6- سيستم های زبان کنترل شده
در حقيقت اين گونه سيستمها نوعی سيستم ترجمه بر اساس دانش هستند. در برخی موارد متون نوشته شده در زبان مبدأ کنترل شده هستند يعنی اينکه دارای ويژگی استفاده از لغات و واژه های مشخص و حتی ساختار کنترل شده جملات می باشند. مزيت اين برخورد و کنترل زبان مبدأ در اين است که متون نوشته شده کمتر دارای ابهام بوده و لذا ماشين ترجمه کمتر مشکل ابهام زدايی خواهد داشت. در نتيجه علاوه بر توليد متن اوليه بهتر، ماشين ترجمه می تواند متن خروجی به چندين زبان مقصد را  با کيفيت بهتر توليد نمايد.


7- سيستم‌ تمام‌-خودکار ترجمه‌ ماشينیFAHQT
توسعه سيستم‌ ترجمه ماشينی تمام‌ اتوماتيك‌ ‌با كيفيت‌ بالا يا ‌FAHQT از ابتدا به عنوان يک ايده آل دنبال می‌ شد. ‌سيستم‌ های توسعه يافته هرگز به اين ايده آل دست نيافتند. پيشرفتهای‌ حاصله ‌ در سالهای‌ اخير در زمينه‌ هوش‌ مصنوعی  ، سيستمهای فازی   و   شبكه‌ های عصبی ‌ تأثير انكارناپذيری در تكامل‌ و توسعه‌ ترجمه‌ ماشينی‌ داشته‌ است‌. اين‌سيستم‌ شکل تكامل‌ يافته‌ سيستمی است‌ كه‌ نياز به‌ پيش‌- ويرايش  و پس‌-ويرايش  داشته‌ است‌. بديهی است‌ كه‌ ويراستاری ‌های ياد شده‌ توسط فرد متخصص‌ انجام‌ می شد ولی در حال‌ حاضر اين‌گونه‌ سيستم‌ها مجهز به‌ غلط ياب‌ املايی و نحوی نسبتاً قدرتمندی  هستند‌ كه‌ قبل‌ از انجام‌ ترجمه‌، متن‌ زبان‌ مبدأ را آماده‌سازی می كند. پس‌ ازانجام‌ ترجمه‌ نيز، از طريق‌ خطاياب‌ نحوی زبان‌ مقصد، متن‌ خروجی ويرايش‌ می ‌شود و در نهايت‌ ويرايش‌ نهايی ‌ توسط ويراستار انجام‌ می شود.


مقایسه کلی چندی از روشهای ترجمه ماشینی حفه ای از عربی و انگلیسی به فارسی
مبنای کار سیستم های قدیمی تر ترجمه ماشینی مبتنی بر واژه نامه ( Dictionary-based) و بر اساس قواعد زبا نشناسی (Rule-based ) بود. ( مانند Systran دراین روش که به Interlingual Machine  Translation نیز شهرت دارد،) جملات متن مبدأ بر اساس اصول دستور زبان و مجموعه گسترده ای از لغات که به کامپیوتر داده شده است حلاجی شده و پیش از ترجمه به زبان مقصد، به یک زبان واسطه برگردانده می شود. سپس متن زبان واسطه بر اساس همان قواعد داده شده به سیستم و با استفاده از مناسب ترین و رایج ترین معادل های واژگان در زبان مقصد ترجمه می شود. امروزه در ماشین های ترجمه غالبا از روش های آماری (Statistical) و مقایسه و تطابق  (Analogy)و استفاده از نمونه های موجود (Example-based) استفاده می شود. اصل کار روش های جدید مبتنی بر استفاده از پیکره های زبانی (Corpora) بسیار عظیمی می باشد که متون معادلی را به زبان های مبدأ و مقصد در گنجینه خود دارند و هنگام معادل گزینی، کار خود را بر اساس مقایسه متونی که باید ترجمه شود، با متون و ترجمه های مشابه آن ها در پیکره زبانی ذخیره شده انجام می دهند. از آنجا که تهیه و ذخیره چنین پیکره زبانی کار آسانی نیست، طراحی و استفاده این سیستم در ترجمه ماشینی نیز عموما فقط از عهده شرکت های بزرگ و قدرتمند بر می آید.
دشواری کار ترجمه خودکار، بدست آوردن اطلاعات کافی از نوع صحیح آن برای پشتیبانی روشی خاص می باشد. به عنوان مثال یک پیکره وسیع چند زبانی از داده ها، برای روشهای آماری مورد نیاز می باشد. حال آنکه برای روشهای مبتنی بر دستور زبان لازم نیست. اما از سویی دیگر روشهای مبتنی بر دستور زبان نیاز به یک زبان شناس حرفه ای برای طراحی دقیق دستور زبانی که استفاده خواهد شد، دارند. برای ترجمه بین زبان‌های نزدیک بهم، تکنیکی به نام ترجمه ماشینی مبتنی بر انتقال سطحی ممکن است استفاده شود.
بنابراین میتوان روشی را تحت عنوان روش پیوندی ترجمه ماشینی به کار برد.


8- ترجمه ماشینی پیوندی (Hybrid)
روش پیوندی، نقاط قوت دو روش آماری و قانونمند را باهم ادغام می کند.[5] بسیاری از شرکتهای ترجمه ماشینی (همانند آسیا آنلاین و سیسترن(SYSTRAN)) مدعی داشتن روشی چندگانه مبتنی بر دو روش قانونمند و آماری در ترجمه ماشینی، هستند. این روشها به دو گونه مختلف زیر می باشند :
قوانین در مرحله دوم توسط روشهای آماری پردازش می شوند. در این روش ترجمه بوسیله موتورهای قانونمند انجام میشود. سپس معیارهای آماری برای تنظیم/تصحیح خروجی موتور قانونمند اعمال میشوند. معیارهای آماری از ابتدا توسط قوانین هدایت میشوند. قوانین برای پیش-پردازش داده‌ها برای هدایت بهتر موتور آماری استفاده می شوند. قوانین همچنین برای پس-پردازش خروجی موتور آماری برای پیاده سازی عملیاتی همچون نرمال سازی استفاده می شوند.این روش قدرت،کنترل و انعطاف پذیری بسیار بیشتری دارد.


ابهام زدایی از ترجمه ماشینی
ابهام زدایی از کلمات با یافتن ترجمه مناسب برای کلمه ای با بیش از یک معنی در ارتباط است. يكي از اولين مشكلاتي كه هر سيستم پردازش زبان طبيعي با آن درگير است، مسئله ابهام معنايي و ساختاري كلمات است.  بخش عمده اي از اين ابهام به كمك روالي به نام نشانه گذار بخش كننده جملات كه براي تعيين نقش كلمات در جمله به كار مي رود، مرتفع مي گردد.
امروزه روشهای بسیاری برای حل این مشکل بوجود آمده اند که این روشها بطور تقریبی به دو دسته ی روشهای "سطحی"و "عمقی"تقسیم میشوند. روشهای سطحی تصور میکنند که هیچ دانشی از متن ندارند.آنها به سادگی روشهای آماری را برای کلمات اطراف کلمه مبهم، اعمال میکنند. اما روشهای عمقی دانشی وسیع از کلمه را متصور میشوند. تا بحال، روشهای سطحی موفقیت بیشتری داشته اند. آقای کلود پایرون(Claude Piron)، یکی از مترجم‌های بسیار قدیمی سازمان ملل و سازمان بهداشت جهانی، نوشته است که ترجمه ی ماشینی، در بهترین نوع آن، آسان‌ترین بخش کار مترجمان را میتواند انجام دهد.بخش سختتر و زمان گیر معمولاً در ارتباط با تشخیص ابهامات متن منبع می‌باشد که این عمل نیاز به برطرف کردن آشفتگی‌های دستور زبانی و لغوی زبان مقصد دارد.[6]


ارزیابی ترجمه ی ماشینی
یکی از مسائلی که همواره در زمینه ترجمه ی ماشینی مورد توجه بوده‌است، روشها و پارامترهای ارزیابی نتایج ترجمه‌است. قدیمی‌ترین روش استفاده از داورهای انسانی برای ارزیابی کیفیت یک ترجمه می باشد. ابزارهای ارزیابی خودکار شامل بلو محصول شرکت آی‌بی‌ام(BLEU)، نیست(NIST) و متئور(METEOR) می باشند. به تجربه می توان دریافت که ماشین های ترجمه¬ی بسیار پیشرفته نیز - لااقل فعلا- قادر نیستند دقّت، روانی و وضوحی را که از یک ترجمه مطلوب انتظار می رود در کار خود نشان دهند. آزمودن این نرم افزارها با استفاده از متون مغلق، طولانی و یا حاوی لغات چند معنا به راحتی نشانگر ناتوانی آن ها در حل پیچیدگی های زبانی است. همچنین می توان با ترجمه برعکس میزان انحراف این نرم افزارها را محک زد. هنگامی که متنی را برای ترجمه به زبان دیگر به مترجم الکترونیک وارد می کنیم و سپس ترجمه به دست آمده را مجددا به عنوان متن زبان مبدأ به ماشین می دهیم تا به زبان اولیه برگرداند؛ انتظار می رود که متن اول و سوم اگرچه نه کاملا- بلکه تا حد زیادی مشابه یکدیگر باشند.

 
جایگزین ارزشیابی  ترجمه دوزبانه عربی به انگلیسی وبالعکس
جایگزین ارزشیابی دوزبانه یا BLEU (Bilingual Evaluation Understudy) روشی است برای ارزیابی کیفی متن ترجمه شده توسط ماشین ترجمه یا دستگاه ترجمه ماشینی. کیفیت ترجمه با عددی بین ۰ و ۱ اندازه‌گیری می‌شود. این عدد نمایانگر میزان نزدیکی ترجمه به مجموعه‌ای از ترجمه‌های انسانی با کیفیت خوب است. بنابراین با این روش نمی‌توان قابل فهم بودن ترجمه یا درستی آن از نظر دستوری را ارزیابی نمود. این روش برای ارزیابی ترجمه ماشینی در سطح کلی کاربرد دارد و در حالتی‌که برای ارزیابی تک تک جملات بکار برده شود، بسیار بد کارمی‌کند.

 

[5] Boretz, Adam, "AppTek Launches Hybrid Machine Translation Software" SpeechTechMag.com (posted 2 MAR 2009)
[6] Claude Piron, Le défi des langues (The Language Challenge), Paris, L'Harmattan, 1994.
 


Viewing all articles
Browse latest Browse all 578

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>