الشبكة العصبية لمترجم ياندكس. تم بناء شبكة عصبية خيالية في Yandex.Translate. ما هو Yandex.Translate

أفاد موقع Yandex أن خدمة Yandex.Translate بدأت في استخدام تقنيات الشبكة العصبية عند ترجمة النصوص ، مما يحسن جودة الترجمة.

إلى الإشارات المرجعية

أوضح Yandex أن الخدمة تعمل على نظام هجين: تمت إضافة تقنية الترجمة باستخدام شبكة عصبية إلى النموذج الإحصائي الذي كان يعمل في Translator منذ الإطلاق.

"على عكس المترجم الإحصائي ، لا تقسم الشبكة العصبية النصوص إلى كلمات وعبارات منفصلة. وأوضح أحد ممثلي الشركة أنه يتلقى الجملة بأكملها كمدخلات ويصدر ترجمتها. ووفقًا له ، فإن هذا النهج يسمح بمراعاة السياق ونقل معنى النص المترجم بشكل أفضل.

النموذج الإحصائي ، بدوره ، يتواءم بشكل أفضل مع الكلمات والعبارات النادرة ، التي تم التأكيد عليها في Yandex. وأشارت الشركة إلى أنه "إذا كان معنى الجملة غير واضح ، فإنها لا تتخيل كيف يمكن لشبكة عصبية أن تفعل ذلك".

عند الترجمة ، تستخدم الخدمة كلا النموذجين ، ثم تقارن خوارزمية التعلم الآلي النتائج وتقدم الخيار الأفضل ، في رأيها. "يتيح لك النظام المختلط الحصول على الأفضل من كل طريقة وتحسين جودة الترجمة" ، كما يقولون في Yandex.

خلال يوم 14 سبتمبر ، يجب أن يظهر رمز تبديل في إصدار الويب الخاص بالمترجم ، والذي يمكنك بواسطته مقارنة الترجمات التي تم إجراؤها بواسطة النماذج المختلطة والإحصائية. في الوقت نفسه ، في بعض الأحيان قد لا تغير الخدمة النصوص ، لاحظت الشركة: "هذا يعني أن النموذج الهجين قرر أن الترجمة الإحصائية أفضل."

يوجد أكثر من 630 مليون موقع على الإنترنت الحديث ، لكن 6٪ فقط منها تحتوي على محتوى باللغة الروسية. حاجز اللغة هو المشكلة الرئيسية لنشر المعرفة بين مستخدمي الشبكة ، ونعتقد أنه يجب حلها ليس فقط من خلال تعليم اللغات الأجنبية ، ولكن أيضًا باستخدام الترجمة الآلية في المتصفح.

سنخبر قراء Habr اليوم عن تغييرين تقنيين هامين في مترجم Yandex.Browser. أولاً ، تستخدم ترجمة الكلمات والعبارات المحددة الآن نموذجًا هجينًا ، وسنتذكر كيف يختلف هذا النهج عن استخدام الشبكات العصبية فقط. ثانيًا ، تأخذ الشبكات العصبية للمترجم الآن في الحسبان بنية صفحات الويب ، والتي سنتحدث عنها أيضًا تحت القص.

مترجم هجين للكلمات والعبارات

استندت أنظمة الترجمة الآلية الأولى إلى القواميس والقواعد(في الواقع ، التعبيرات العادية المكتوبة بخط اليد) ، والتي تحدد جودة الترجمة. يعمل اللغويون المحترفون منذ سنوات على تطوير قواعد يدوية مفصلة بشكل متزايد. كان العمل شاقًا للغاية لدرجة أنه تم إيلاء الاهتمام الجاد فقط لأزواج اللغات الأكثر شيوعًا ، ولكن حتى داخلها كان أداء الآلات ضعيفًا. اللغة الحية هي نظام معقد للغاية لا يطيع القواعد جيدًا. من الصعب وصف قواعد المطابقة لغتين.

الطريقة الوحيدة للآلة للتكيف باستمرار مع الظروف المتغيرة هي التعلم من تلقاء نفسها من عدد كبير من النصوص المتوازية (نفس المعنى ، ولكن مكتوبة بلغات مختلفة). هذا هو النهج الإحصائي للترجمة الآلية. يقارن الكمبيوتر النصوص المتوازية ويحدد الأنماط بشكل مستقل.

في مترجم إحصائيهناك مزايا وعيوب. من ناحية ، يتذكر جيدًا الكلمات والعبارات النادرة والمعقدة. إذا التقيا في نصوص متوازية ، فسيتذكرها المترجم وسيستمر في الترجمة بشكل صحيح. من ناحية أخرى ، يمكن أن تكون نتيجة الترجمة مشابهة للأحجية المكتملة: تبدو الصورة العامة واضحة ، ولكن إذا نظرت عن كثب ، يمكنك أن ترى أنها مكونة من أجزاء منفصلة. والسبب هو أن المترجم يقدم الكلمات الفردية كمعرفات ، والتي لا تعكس بأي حال العلاقة بينهما. لا يتناسب مع الطريقة التي يدرك بها الناس اللغة ، حيث يتم تعريف الكلمات من خلال كيفية استخدامها ، وكيفية ارتباطها بالكلمات الأخرى واختلافها عنها.

يساعد في حل هذه المشكلة الشبكات العصبية. عادةً ما يرسم تضمين الكلمات ، المستخدم في الترجمة الآلية العصبية ، كل كلمة إلى متجه يبلغ طوله عدة مئات من الأرقام. تتشكل المتجهات ، على عكس المعرفات البسيطة من النهج الإحصائي ، عند تدريب شبكة عصبية وتأخذ في الاعتبار العلاقات بين الكلمات. على سبيل المثال ، قد يتعرف النموذج على أنه نظرًا لظهور "شاي" و "قهوة" غالبًا في سياقات متشابهة ، يجب أن تكون كلتا الكلمتين ممكنتين في سياق الكلمة الجديدة "spill" ، والتي ، على سبيل المثال ، مصادفة واحدة فقط منها في بيانات التدريب.

ومع ذلك ، من الواضح أن عملية تعلم تمثيلات المتجهات تتطلب إحصائيًا أكثر من الحفظ عن ظهر قلب للأمثلة. بالإضافة إلى ذلك ، ليس من الواضح ما يجب فعله بكلمات الإدخال النادرة التي لا تكون متكررة بدرجة كافية حتى تتمكن الشبكة من إنشاء تمثيل متجه مقبول لها. في هذه الحالة ، من المنطقي الجمع بين كلتا الطريقتين.

منذ العام الماضي ، تستخدم Yandex.Translate ملفات نموذج هجين. عندما يتلقى المترجم نصًا من المستخدم ، فإنه يرسله إلى كلا النظامين للترجمة - كل من الشبكة العصبية والمترجم الإحصائي. بعد ذلك ، تقوم خوارزمية تعتمد على طريقة التعلم بتقييم الترجمة الأفضل. عند وضع الدرجات ، يتم أخذ عشرات العوامل في الاعتبار - من طول الجملة (يتم ترجمة العبارات القصيرة بشكل أفضل بواسطة نموذج إحصائي) إلى النحو. يتم عرض الترجمة المعترف بها على أنها الأفضل للمستخدم.

إنه النموذج الهجين المستخدم الآن في متصفح Yandex.Browser ، عندما يختار المستخدم كلمات وعبارات معينة على الصفحة للترجمة.

هذا الوضع مناسب بشكل خاص لأولئك الذين لديهم معرفة عامة بلغة أجنبية ويرغبون في ترجمة الكلمات غير المعروفة فقط. ولكن إذا قابلت ، على سبيل المثال ، اللغة الصينية بدلاً من اللغة الإنجليزية المعتادة ، فسيكون من الصعب الاستغناء عن مترجم الصفحات. يبدو أن الاختلاف يكمن فقط في حجم النص المترجم ، ولكن ليس كل شيء بهذه البساطة.

مترجم صفحة ويب الشبكة العصبية

من وقت تجربة جورج تاون وحتى يومنا هذا تقريبًا ، تم تدريب جميع أنظمة الترجمة الآلية على ترجمة كل جملة من النص المصدر على حدة. بينما صفحة الويب ليست مجرد مجموعة من الجمل ، ولكنها نص منظم يحتوي على عناصر مختلفة بشكل أساسي. ضع في اعتبارك العناصر الأساسية لمعظم الصفحات.

رأس. عادة ما يكون نصًا ساطعًا وكبيرًا نراه فورًا عند دخول الصفحة. غالبًا ما يحتوي العنوان الرئيسي على جوهر الخبر ، لذلك من المهم ترجمته بشكل صحيح. لكن من الصعب القيام بذلك ، لأن النص الموجود في العنوان صغير وبدون فهم السياق ، يمكنك ارتكاب خطأ. في حالة اللغة الإنجليزية ، تكون الأمور أكثر تعقيدًا ، لأن العناوين الرئيسية باللغة الإنجليزية تحتوي غالبًا على عبارات ذات قواعد غير تقليدية ، أو مصادر ، أو حتى أفعال تخطي. فمثلا، الإعلان عن لعبة Game of Thrones prequel.

التنقل. كلمات وعبارات تساعدنا في تصفح الموقع. فمثلا، مسكن, خلفو حسابيلا يستحق الأمر أن تترجم إلى "الصفحة الرئيسية" و "رجوع" و "حسابي" إذا كانت موجودة في قائمة الموقع ، وليس في نص المنشور.

النص الرئيسي. كل شيء أسهل معه ، فهو يختلف قليلاً عن النصوص والجمل المعتادة التي يمكن أن نجدها في الكتب. ولكن حتى هنا من المهم ضمان اتساق الترجمات ، أي ضمان ترجمة نفس المصطلحات والمفاهيم بنفس الطريقة داخل صفحة الويب نفسها.

للحصول على ترجمة عالية الجودة لصفحات الويب ، لا يكفي استخدام شبكة عصبية أو نموذج هجين - بل من الضروري أيضًا مراعاة بنية الصفحات. ولهذا كان علينا التعامل مع الكثير من الصعوبات التكنولوجية.

تصنيف مقاطع النص. للقيام بذلك ، نستخدم مرة أخرى CatBoost والعوامل المستندة إلى كل من النص نفسه وعلى ترميز HTML للمستندات (العلامة ، حجم النص ، عدد الروابط لكل وحدة نصية ، ...). العوامل غير متجانسة تمامًا ، لذا فإن CatBoost (استنادًا إلى تعزيز التدرج) هو الذي يظهر أفضل النتائج (دقة التصنيف أعلى من 95٪). لكن التصنيف المقطعي وحده لا يكفي.

انحراف البيانات. تقليديا ، يتم تدريب خوارزميات Yandex.Translate على نصوص من الإنترنت. يبدو أن هذا هو الحل الأمثل لتدريب مترجم صفحات الويب (بمعنى آخر ، تتعلم الشبكة من نصوص من نفس طبيعة تلك النصوص التي سنطبقها عليها). ولكن بمجرد أن تعلمنا فصل الأجزاء المختلفة عن بعضها البعض ، اكتشفنا ميزة مثيرة للاهتمام. في المتوسط ​​، يشكل المحتوى حوالي 85٪ من إجمالي النص على مواقع الويب ، مع احتساب العناوين والتنقل 7.5٪ فقط لكل منهما. تذكر أيضًا أن العناوين وعناصر التنقل نفسها تختلف بشكل ملحوظ في الأسلوب والقواعد عن باقي النص. يؤدي هذان العاملان مجتمعان إلى مشكلة انحراف البيانات. من المربح أكثر للشبكة العصبية أن تتجاهل ببساطة ميزات هذه الأجزاء ذات التمثيل السيئ للغاية في عينة التدريب. تتعلم الشبكة الترجمة الجيدة للنص الرئيسي فقط ، والذي يعاني من جودة ترجمة العناوين والتنقل. لتحييد هذا التأثير غير السار ، قمنا بعمل شيئين: قمنا بتعيين أحد الأنواع الثلاثة من المقاطع (المحتوى أو العنوان أو التنقل) كمعلومات وصفية لكل زوج من الجمل المتوازية ورفعنا تركيز النوعين الأخيرين بشكل مصطنع في مجموعة التدريب. إلى 33 ٪ بسبب حقيقة أنه بدأ في إظهار أمثلة مشابهة لشبكة التعلم العصبية في كثير من الأحيان.

التعلم متعدد المهام. نظرًا لأننا قادرون الآن على تقسيم النصوص الموجودة على صفحات الويب إلى ثلاث فئات من الأقسام ، فقد يبدو من الطبيعي تدريب ثلاثة نماذج منفصلة ، سيتعامل كل منها مع ترجمة نوع مختلف من النص - العناوين أو التنقل أو المحتوى. هذا يعمل جيدًا حقًا ، لكن المخطط يعمل بشكل أفضل ، حيث نقوم بتدريب شبكة عصبية واحدة لترجمة جميع أنواع النصوص في وقت واحد. يكمن مفتاح الفهم في فكرة التعلم متعدد المهام (MTL): إذا كان هناك اتصال داخلي بين العديد من مهام التعلم الآلي ، فيمكن للنموذج الذي يتعلم حل هذه المهام في وقت واحد أن يتعلم حل كل مهمة بشكل أفضل من نموذج متخصص ضيق!

الكون المثالى. لدينا بالفعل ترجمة آلية جيدة جدًا ، لذلك سيكون من غير المعقول تدريب مترجم جديد لـ Yandex.Browser من البداية. من المنطقي أكثر أن تأخذ نظامًا أساسيًا لترجمة النصوص العادية وتدريبها على العمل مع صفحات الويب. في سياق الشبكات العصبية ، يُشار إلى هذا غالبًا باسم الضبط الدقيق. ولكن إذا تعاملنا مع هذه المشكلة وجهاً لوجه ، أي فقط قم بتهيئة أوزان الشبكة العصبية بقيم من النموذج النهائي وابدأ التعلم من البيانات الجديدة ، فقد تواجه تأثير تحول المجال: كلما تعلمت ، ستزداد جودة ترجمة صفحات الويب (في المجال) ، لكن جودة ترجمة النصوص العادية (خارج المجال) ستنخفض. للتخلص من هذه الميزة غير السارة ، أثناء التدريب الإضافي ، نفرض قيودًا إضافية على الشبكة العصبية ، ونمنعها من تغيير الأوزان كثيرًا مقارنة بالحالة الأولية.

رياضيًا ، يتم التعبير عن هذا عن طريق إضافة مصطلح إلى دالة الخسارة (وظيفة الخسارة) ، وهي مسافة Kullback-Leibler (KL-divergence) بين التوزيعات الاحتمالية لتوليد الكلمة التالية ، الصادرة عن الشبكات الأصلية والمعاد تدريبها. كما يتضح من الرسم التوضيحي ، ينتج عن ذلك حقيقة أن تحسين جودة ترجمة صفحات الويب لم يعد يؤدي إلى تدهور ترجمة النص العادي.

تلميع عبارات التردد من الملاحة. أثناء العمل على مترجم جديد ، قمنا بجمع إحصائيات حول نصوص أجزاء مختلفة من صفحات الويب ورأينا شيئًا مثيرًا للاهتمام. النصوص المتعلقة بعناصر التنقل موحدة تمامًا ، لذلك غالبًا ما تمثل نفس العبارات المعيارية. يعد هذا تأثيرًا قويًا لدرجة أن أكثر من نصف جميع عبارات التنقل الموجودة على الإنترنت موجودة فقط في 2000 من أكثر العبارات شيوعًا.

بالطبع ، لقد استفدنا من ذلك وقدمنا ​​عدة آلاف من العبارات الأكثر شيوعًا وترجماتها للتحقق منها لمترجمينا من أجل التأكد تمامًا من جودتها.

محاذاة خارجية. كان هناك متطلب مهم آخر لمترجم صفحات الويب في المتصفح - لا ينبغي أن يشوه الترميز. عندما يتم وضع علامات HTML خارج الجمل أو عند حدودها ، فلا توجد مشكلة. ولكن إذا كان يوجد داخل الجملة ، على سبيل المثال ، اثنين تحتها خطكلمات، ثم في الترجمة نريد أن نرى "اثنان تحتها خطالكلمات". أولئك. نتيجة التحويل ، يجب استيفاء شرطين:

  1. يجب أن يتوافق الجزء الذي تحته خط في الترجمة تمامًا مع الجزء الذي تحته خط في النص المصدر.
  2. لا ينبغي انتهاك اتساق الترجمة عند حدود الجزء الذي تحته خط.
لضمان هذا السلوك ، نقوم أولاً بترجمة النص كالمعتاد ، ثم باستخدام نماذج المحاذاة الإحصائية كلمة بكلمة ، نحدد التطابق بين أجزاء المصدر والنصوص المترجمة. هذا يساعد على فهم ما يجب تسطيرها (مائل ، رابط تشعبي ، ...).

مراقب التقاطع. تتطلب نماذج ترجمة الشبكات العصبية القوية التي دربناها موارد حوسبة أكثر بشكل ملحوظ على خوادمنا (كل من وحدة المعالجة المركزية ووحدة معالجة الرسومات) مقارنة بالأجيال السابقة من النماذج الإحصائية. في الوقت نفسه ، لا يقرأ المستخدمون دائمًا الصفحات حتى النهاية ، لذا فإن إرسال نص صفحات الويب بالكامل إلى السحابة يبدو زائدًا عن الحاجة. لحفظ موارد الخادم وحركة مرور المستخدم ، علمنا استخدام المترجم

تحتوي مواقع الويب المفهرسة بمحركات البحث على أكثر من نصف مليار نسخة ، ويبلغ العدد الإجمالي لصفحات الويب عشرات الآلاف من المرات. يحتل محتوى اللغة الروسية 6٪ من الإنترنت بأكمله.

كيفية ترجمة النص المطلوب بسرعة وبطريقة تحفظ المعنى الذي يقصده المؤلف. الطرق القديمة لوحدات ترجمة المحتوى الإحصائي تعمل بشكل مشكوك فيه للغاية ، لأن من المستحيل تحديد انحراف الكلمات بدقة والوقت والمزيد. إن طبيعة الكلمات والصلات بينها معقدة ، مما يجعل النتيجة في بعض الأحيان تبدو غير طبيعية للغاية.

يستخدم Yandex الآن الترجمة الآلية الآلية ، مما سيزيد من جودة النص النهائي. يمكنك تنزيل أحدث إصدار رسمي من المتصفح بترجمة مضمنة جديدة.

ترجمة هجينة للعبارات والكلمات

متصفح Yandex هو الوحيد الذي يمكنه ترجمة الصفحة ككل ، بالإضافة إلى الكلمات والعبارات بشكل فردي. ستكون الوظيفة مفيدة جدًا لأولئك المستخدمين الذين يتحدثون لغة أجنبية بشكل أو بآخر ، لكنهم يواجهون أحيانًا صعوبات في الترجمة.

الشبكة العصبية المدمجة في آلية ترجمة الكلمات لا تتعامل دائمًا مع مجموعة المهام ، لأن كان من الصعب للغاية تضمين الكلمات النادرة في النص وجعله قابلاً للقراءة. الآن تم دمج طريقة هجينة في التطبيق باستخدام التقنيات القديمة والجديدة.

الآلية كالتالي: يقبل البرنامج الجمل أو الكلمات المختارة ، ثم يعطيها لكل من وحدات الشبكة العصبية والمترجم الإحصائي ، وتحدد الخوارزمية المدمجة النتيجة الأفضل ثم تعطيها للمستخدم.

مترجم الشبكة العصبية

تم تصميم المحتوى الأجنبي بطريقة محددة للغاية:

  • الأحرف الأولى من الكلمات في العناوين كبيرة ؛
  • تم بناء الجمل بقواعد نحوية مبسطة ، وتم حذف بعض الكلمات.

يتم تحليل قوائم التنقل على مواقع الويب بناءً على موقعها ، مثل كلمة "رجوع" ، التي تمت ترجمتها بشكل صحيح للخلف (رجوع) ، وليس للخلف.

لمراعاة جميع الميزات المذكورة أعلاه ، قام المطورون أيضًا بتدريب شبكة عصبية تستخدم بالفعل مجموعة كبيرة من البيانات النصية. الآن تتأثر جودة الترجمة بموقع المحتوى وتصميمه.

نتائج الترجمة التطبيقية

يمكن قياس جودة الترجمة بواسطة خوارزمية BLEU * ، التي تقارن الترجمات الآلية والترجمات الاحترافية. مقياس الجودة من 0 إلى 100٪.

كلما كانت الترجمة العصبية أفضل ، زادت النسبة المئوية. وفقًا لهذه الخوارزمية ، بدأ متصفح Yandex في الترجمة 1.7 مرة بشكل أفضل.

أطلقت Yandex إصدارًا جديدًا من المترجم. سيعمل النظام المختلط الآن على الترجمة: بالإضافة إلى النموذج الإحصائي المستخدم سابقًا ، سيستخدم المترجم أيضًا شبكة عصبية. جاء ذلك في مدونة الشركة.

هناك عدة طرق للترجمة الآلية. النهج الأول والأكثر شيوعًا هو الإحصاء. تعتمد هذه الترجمة الآلية على حفظ قدر هائل من المعلومات التي تم الحصول عليها من مجموعة نصية متوازية (نفس النصوص بلغات مختلفة): يمكن أن تكون هذه إما كلمات مفردة أو قواعد نحوية. ومع ذلك ، فإن لهذا النهج عيبًا مهمًا للغاية: فالترجمة الآلية الإحصائية تتذكر المعلومات ، لكنها لا تفهمها ، لذلك غالبًا ما تبدو مثل هذه الترجمة مثل العديد من القطع المترجمة بشكل صحيح ، والتي تم جمعها في نص واحد غير صحيح تمامًا من حيث القواعد النحوية و تحميل دلالي.

الطريقة الثانية هي الشبكة العصبية. لا يقوم على ترجمة الكلمات والعبارات الفردية ، ولكن على الجمل الكاملة ، وهدفه الرئيسي هو الحفاظ على المعنى ، مع تحقيق أفضل جودة للترجمة من حيث القواعد. يمكن لتقنية الترجمة هذه أيضًا تخزين معرفة اللغة التي تعلمتها في عملية التعلم - وهذا يسمح لها بالتعامل ، على سبيل المثال ، مع الأخطاء في حالة الاتفاق. تعتبر الترجمة الآلية العصبية طريقة جديدة نسبيًا ، ومع ذلك ، فقد أثبتت نفسها بالفعل: بمساعدة الشبكة العصبية للترجمة من Google ، تمكنت من تحقيق جودة ترجمة قياسية.

بدءًا من اليوم ، يعتمد Yandex.Translate على نظام هجين. يتضمن هذا النظام الترجمة الإحصائية التي استخدمتها الخدمة سابقًا ، والترجمة القائمة على تشغيل الشبكة العصبية. تحدد خوارزمية المصنف الخاصة القائمة على CatBoost (نظام التعلم الآلي الذي طورته Yandex) أفضل خيارين للترجمة (الإحصائية والعصبية) وتعطيها للمستخدم.

يمكنك قراءة المزيد حول عمل الإصدار الجديد من Yandex. ترجم في اجتماعنا مع رئيس الخدمة ، اللغوي الحاسوبي البريطاني ديفيد تالبوت.

حاليًا ، لا تتوفر تقنية الترجمة الجديدة إلا عند الترجمة من الإنجليزية إلى الروسية (وفقًا للشركة ، هذا هو اتجاه الترجمة الأكثر شيوعًا). أثناء العمل مع النظام ، يمكن للمستخدم التبديل بين نموذجين للترجمة (إحصائي قديم وهجين جديد) ومقارنة ترجمة الإصدارات القديمة والجديدة. في الأشهر المقبلة ، يعد مطورو المترجم بتضمين مجالات أخرى للترجمة.


أمثلة على ترجمة النماذج المختلفة المستخدمة في الإصدار الجديد من Yandex.Translate



لقد قطعت الترجمة الآلية باستخدام الشبكات العصبية شوطًا طويلاً منذ البحث العلمي الأول حول هذا الموضوع وحتى اللحظة التي أعلنت فيها Google عن النقل الكامل لخدمة الترجمة من Google إلى التعلم العميق.

كما تعلم ، يعتمد المترجم العصبي على آلية الشبكات العصبية المتكررة ثنائية الاتجاه (الشبكات العصبية المتكررة ثنائية الاتجاه) ، المبنية على حسابات المصفوفة ، والتي تسمح لك ببناء نماذج احتمالية أكثر تعقيدًا بكثير من المترجمين الآليين الإحصائيين. ومع ذلك ، كان يعتقد دائمًا أن الترجمة العصبية ، مثل الترجمة الإحصائية ، تتطلب مجموعة متوازية من النصوص بلغتين للتعلم. يتم تدريب الشبكة العصبية على هذه المجموعات ، مع الأخذ في الاعتبار الترجمة البشرية كمرجع.

كما اتضح الآن ، فإن الشبكات العصبية قادرة على إتقان لغة جديدة للترجمة حتى بدون مجموعة نصوص موازية! نشر موقع ما قبل الطباعة arXiv.org ورقتين عن هذا الموضوع في وقت واحد.

تخيل أنك أعطيت شخصًا الكثير من الكتب الصينية والكثير من الكتب العربية - لا يوجد أي منها متشابه - وهذا الشخص مدرب على الترجمة من الصينية إلى العربية. يبدو مستحيلاً ، أليس كذلك؟ لكننا أظهرنا أن الكمبيوتر يمكنه فعل ذلك "، كما يقول ميكيل أرتيتكس ، عالم الكمبيوتر في جامعة إقليم الباسك في سان سيباستيان (إسبانيا).

يتم تدريب معظم الشبكات العصبية للترجمة الآلية "مع معلم" ، ويكون دورها مجرد مجموعة موازية من النصوص المترجمة من قبل شخص ما. في عملية التعلم ، بشكل تقريبي ، تضع الشبكة العصبية افتراضًا ، وتتحقق من المعيار ، وتقوم بالتعديلات اللازمة على أنظمتها ، ثم تتعلم أكثر. تكمن المشكلة في أنه بالنسبة لبعض اللغات في العالم لا يوجد عدد كبير من النصوص المتوازية ، لذا فهي غير متوفرة للشبكات العصبية التقليدية للترجمة الآلية.


"اللغة العالمية" لشبكة Google العصبية لترجمة الآلة العصبية (GNMT). في الرسم التوضيحي الأيسر ، تظهر مجموعات معاني كل كلمة بألوان مختلفة ، في أسفل اليمين - معاني الكلمة التي تم الحصول عليها لها من لغات بشرية مختلفة: الإنجليزية والكورية واليابانية

بعد تجميع "أطلس" عملاق لكل لغة ، يحاول النظام بعد ذلك تراكب أحد هذا الأطلس على الآخر - وها أنت ذا ، لديك نوع من نصوص النصوص المتوازية جاهزة!

من الممكن مقارنة مخططات بنيتي التعلم غير الخاضعين للإشراف المقترحتين.


بنية النظام المقترح. لكل جملة في لغة L1 ، يتعلم النظام التناوب بين خطوتين: 1) قمع الضوضاء(تقليل الضوضاء) ، والذي يعمل على تحسين احتمالية تشفير نسخة صاخبة من الجملة باستخدام مشفر مشترك وإعادة بنائها بواسطة مفكك الشفرة L1 ؛ 2) الترجمة العكسية(عودة الترجمة) عند ترجمة جملة في وضع الإخراج (أي تم ترميزها بواسطة برنامج ترميز مشترك وفك تشفيرها بواسطة وحدة فك ترميز L2) ، ثم احتمال ترميز هذه الجملة المترجمة باستخدام جهاز تشفير مشترك واستعادة الجملة الأصلية بواسطة وحدة فك ترميز L1 هو الأمثل. رسم توضيحي: Michela Artetxe et al.


العمارة المقترحة وأهداف التعلم للنظام (من العمل العلمي الثاني). الهندسة المعمارية هي نموذج ترجمة جملة بجملة حيث يعمل كل من المشفر ووحدة فك التشفير بلغتين ، اعتمادًا على معرف لغة الإدخال ، والذي يقوم بتبديل جداول البحث. الجزء العلوي (الترميز التلقائي): تم تدريب النموذج على أداء تقليل الضوضاء في كل مجال. الجزء السفلي (الترجمة): كما في السابق ، بالإضافة إلى أننا نشفر من لغة أخرى ، باستخدام الترجمة التي ينتجها النموذج في التكرار السابق (المربع الأزرق) كمدخلات. تشير الأشكال البيضاوية الخضراء إلى مصطلحات في دالة الخسارة. رسم توضيحي: Guillaume Lampl et al.

تستخدم كلتا الورقتين منهجية متشابهة بشكل ملحوظ مع اختلافات طفيفة. ولكن في كلتا الحالتين ، تتم الترجمة من خلال "لغة" وسيطة أو ، لوضعها بشكل أفضل ، بعد أو مساحة وسيطة. حتى الآن ، لا تُظهر الشبكات العصبية بدون معلم جودة عالية جدًا للترجمة ، لكن المؤلفين يقولون إنه من السهل تحسينها إذا استخدمت القليل من المساعدة من المعلم ، الآن فقط ، من أجل نقاء التجربة ، لم يتم ذلك.

الأوراق المقدمة للمؤتمر الدولي 2018 حول تمثيلات التعلم. لم يتم نشر أي من المقالات في الصحافة العلمية.