Yandex tarjimon neyron tarmog'i. Yandex.Translate-ga fantaziya neyron tarmog'i o'rnatildi. Yandex.Translate nima

Yandex.Translate xizmati matnlarni tarjima qilishda neyron tarmoq texnologiyalaridan foydalanishni boshladi, bu esa tarjima sifatini yaxshilaydi, deb xabar berdi Yandex sayti.

Xatcho'plar uchun

Xizmat gibrid tizimda ishlaydi, deb tushuntirdi Yandex: Tarjimonda ishga tushirilgandan beri ishlayotgan statistik modelga neyron tarmog'idan foydalangan holda tarjima texnologiyasi qo'shildi.

“Statistik tarjimondan farqli o‘laroq, neyron tarmoq matnlarni alohida so‘z va iboralarga ajratmaydi. U butun jumlani kirish sifatida qabul qiladi va uning tarjimasini chiqaradi ", - deya tushuntirdi kompaniya vakili. Uning so'zlariga ko'ra, bu yondashuv kontekstni hisobga olish va tarjima qilingan matnning ma'nosini yaxshiroq etkazish imkonini beradi.

Statistik model, o'z navbatida, Yandex-da ta'kidlangan noyob so'zlar va iboralar bilan yaxshiroq ishlaydi. "Agar jumlaning ma'nosi aniq bo'lmasa, u neyron tarmoq buni qanday amalga oshirishi mumkinligini xayoliga keltirmaydi", deb ta'kidladi kompaniya.

Tarjima qilishda xizmat ikkala modeldan foydalanadi, keyin mashinani o'rganish algoritmi natijalarni taqqoslaydi va uning fikricha, eng yaxshi variantni taklif qiladi. "Gibrid tizim har bir usuldan eng yaxshisini olish va tarjima sifatini yaxshilash imkonini beradi", - deydi ular Yandex.

14-sentabr kuni kunduzi Translator veb-versiyasida kalit paydo bo‘lishi kerak, uning yordamida gibrid va statistik modellar tomonidan qilingan tarjimalarni solishtirish mumkin. Shu bilan birga, ba'zida xizmat matnlarni o'zgartirmasligi mumkin, deb ta'kidladi kompaniya: "Bu gibrid model statistik tarjimani yaxshiroq deb qaror qilganini anglatadi".

Zamonaviy Internetda 630 milliondan ortiq saytlar mavjud, ammo ularning atigi 6 foizi rus tilidagi kontentni o'z ichiga oladi. Til to'sig'i tarmoq foydalanuvchilari o'rtasida bilimlarni tarqatishning asosiy muammosi bo'lib, uni nafaqat chet tillarini o'rgatish, balki brauzerda avtomatik mashina tarjimasini qo'llash orqali ham hal qilish kerak, deb hisoblaymiz.

Bugun biz Habr o'quvchilariga Yandex.Browser tarjimonidagi ikkita muhim texnologik o'zgarishlar haqida gapirib beramiz. Birinchidan, tanlangan so'z va iboralarni tarjima qilishda endi gibrid model qo'llaniladi va biz bu yondashuv faqat neyron tarmoqlardan qanday farq qilishini eslaymiz. Ikkinchidan, tarjimonning neyron tarmoqlari endi veb-sahifalarning tuzilishini hisobga oladi, ularning xususiyatlari haqida biz kesim ostida ham gaplashamiz.

So'z va iboralarning gibrid tarjimoni

Birinchi mashina tarjima tizimlari asos qilib olingan lug'atlar va qoidalar(aslida qo‘lda yozilgan muntazam iboralar), bu esa tarjima sifatini belgilab bergan. Professional tilshunoslar ko'p yillar davomida batafsil qo'llanma qoidalarini ishlab chiqish ustida ishlamoqda. Ish shu qadar mashaqqatli ediki, faqat eng mashhur til juftlariga jiddiy e'tibor qaratildi, lekin ular ichida ham mashinalar yomon ishladi. Tirik til - bu qoidalarga yaxshi bo'ysunmaydigan juda murakkab tizim. Ikki tilning mos keladigan qoidalarini tasvirlash yanada qiyinroq.

Mashinaning o'zgaruvchan sharoitlarga doimo moslashishining yagona yo'li - bu ko'p sonli parallel matnlardan (ma'nosi bir xil, ammo turli tillarda yozilgan) mustaqil ravishda o'rganishdir. Bu mashina tarjimasiga statistik yondashuv. Kompyuter parallel matnlarni taqqoslaydi va naqshlarni mustaqil ravishda aniqlaydi.

Da statistik tarjimon afzalliklari ham, kamchiliklari ham bor. Bir tomondan, u noyob va murakkab so'z va iboralarni yaxshi eslaydi. Agar ular parallel matnlarda uchrashgan bo'lsa, tarjimon ularni eslab qoladi va to'g'ri tarjima qilishni davom ettiradi. Boshqa tomondan, tarjima natijasi tugallangan boshqotirmaga o'xshash bo'lishi mumkin: umumiy rasm aniq ko'rinadi, lekin diqqat bilan qarasangiz, u alohida qismlardan iborat ekanligini ko'rishingiz mumkin. Sababi, tarjimon alohida so'zlarni aniqlovchi sifatida taqdim etadi, ular o'rtasidagi munosabatni hech qanday tarzda aks ettirmaydi. Bu odamlarning tilni qanday idrok etishi, so'zlar qanday qo'llanilishi, boshqa so'zlar bilan qanday bog'liqligi va farqiga qarab belgilanishi bilan mos kelmaydi.

Bu muammoni hal qilishga yordam beradi neyron tarmoqlari. Neyron mashina tarjimasida qo'llaniladigan so'zlarni joylashtirish odatda har bir so'zni bir necha yuz sonli vektorga moslashtiradi. Vektorlar, statistik yondashuvdagi oddiy identifikatorlardan farqli o'laroq, neyron tarmoqni o'rgatishda shakllanadi va so'zlar orasidagi munosabatlarni hisobga oladi. Misol uchun, model "choy" va "qahva" ko'pincha o'xshash kontekstlarda paydo bo'lganligi sababli, bu so'zlarning ikkalasi ham yangi "to'kilmasin" so'zi kontekstida mumkin bo'lishi kerakligini tan olishi mumkin, aytaylik, ulardan faqat bittasi so'zda uchraydi. ta'lim ma'lumotlari.

Biroq, vektor tasvirlarini o'rganish jarayoni misollarni eslab qolishdan ko'ra ko'proq statistik talabga ega. Bunga qo'shimcha ravishda, tarmoq uchun maqbul vektor tasvirini yaratish uchun etarlicha tez-tez bo'lmagan noyob kirish so'zlari bilan nima qilish kerakligi aniq emas. Bunday vaziyatda ikkala usulni birlashtirish mantiqan to'g'ri keladi.

O'tgan yildan beri Yandex.Translate dan foydalanmoqda gibrid model. Tarjimon foydalanuvchidan matnni olganda, uni tarjima qilish uchun ikkala tizimga ham – neyron tarmoqqa ham, statistik tarjimonga ham yuboradi. Keyin o'rganish usuliga asoslangan algoritm qaysi tarjima yaxshiroq ekanligini baholaydi. Baholashda o'nlab omillar hisobga olinadi - jumla uzunligidan (qisqa iboralar statistik model bilan yaxshiroq tarjima qilinadi) sintaksisgacha. Eng yaxshi deb topilgan tarjima foydalanuvchiga ko'rsatiladi.

Bu hozir Yandex.Browser-da foydalanuvchi tarjima qilish uchun sahifada ma'lum so'z va iboralarni tanlaganda qo'llaniladigan gibrid modeldir.

Ushbu rejim, ayniqsa, chet tilini umumiy biladigan va faqat noma'lum so'zlarni tarjima qilishni xohlaydiganlar uchun qulaydir. Ammo, masalan, odatdagi ingliz tili o'rniga, siz xitoy tilini uchratsangiz, sahifa tarjimonisiz qilish qiyin bo'ladi. Farqi faqat tarjima qilingan matn hajmida bo'lib tuyulishi mumkin, ammo hamma narsa unchalik oddiy emas.

Neyron tarmoq veb-sahifa tarjimoni

Jorjtaun tajribasidan boshlab va deyarli hozirgi kungacha barcha mashinali tarjima tizimlari manba matnining har bir jumlasini alohida tarjima qilishga o'rgatilgan. Veb-sahifa shunchaki jumlalar to'plami emas, balki tubdan farq qiladigan elementlarni o'z ichiga olgan tuzilgan matndir. Ko'pgina sahifalarning asosiy elementlarini ko'rib chiqing.

sarlavha. Odatda sahifaga kirishda biz darhol ko'radigan yorqin va katta matn. Sarlavha ko'pincha yangiliklarning mohiyatini o'z ichiga oladi, shuning uchun uni to'g'ri tarjima qilish muhimdir. Ammo buni qilish qiyin, chunki sarlavhadagi matn kichik va kontekstni tushunmasdan, siz xato qilishingiz mumkin. Ingliz tiliga kelsak, ishlar yanada murakkabroq, chunki ingliz tilidagi sarlavhalarda ko'pincha noan'anaviy grammatika, infinitivlar yoki hatto fe'llarni o'tkazib yuborilgan iboralar mavjud. Masalan, “Taxtlar o‘yini” prekveli e’lon qilindi.

Navigatsiya. Saytda harakat qilishimizga yordam beradigan so'zlar va iboralar. Masalan, Uy, Orqaga va Mening hisobim"Uy", "Orqaga" va "Mening hisobim" deb tarjima qilish qiyin, agar ular nashr matnida emas, balki sayt menyusida joylashgan bo'lsa.

Asosiy matn. U bilan hamma narsa osonroq, u biz kitoblarda topishimiz mumkin bo'lgan odatiy matnlar va jumlalardan ozgina farq qiladi. Ammo bu erda ham tarjimalarning izchilligini ta'minlash, ya'ni bir xil atama va tushunchalarning bir xil veb-sahifa ichida bir xil tarzda tarjima qilinishini ta'minlash muhimdir.

Veb-sahifalarni yuqori sifatli tarjima qilish uchun neyron tarmoq yoki gibrid modeldan foydalanishning o'zi etarli emas - sahifalarning tuzilishini ham hisobga olish kerak. Va buning uchun biz juda ko'p texnologik qiyinchiliklarni boshdan kechirishimiz kerak edi.

Matn segmentlarining tasnifi. Buning uchun biz yana CatBoost va matnning o'ziga va hujjatlarning HTML belgilariga asoslangan omillardan foydalanamiz (teg, matn hajmi, matn birligiga havolalar soni, ...). Faktorlar juda xilma-xildir, shuning uchun eng yaxshi natijalarni (tasniflash aniqligi 95% dan yuqori) ko'rsatadigan CatBoost (gradientni oshirishga asoslangan) hisoblanadi. Ammo segmentlarni tasniflashning o'zi etarli emas.

Ma'lumotlarning chayqalishi. An'anaga ko'ra, Yandex.Translate algoritmlari Internetdagi matnlar bo'yicha o'qitiladi. Bu veb-sahifa tarjimonini tayyorlash uchun ideal echim bo'lib tuyuladi (boshqacha qilib aytganda, tarmoq biz qo'llaydigan matnlar bilan bir xil tabiatdagi matnlardan o'rganadi). Ammo biz turli segmentlarni bir-biridan ajratishni o'rganishimiz bilanoq, biz qiziqarli xususiyatni topdik. O'rtacha hisobda kontent veb-saytlardagi barcha matnlarning taxminan 85% ni tashkil qiladi, sarlavhalar va navigatsiya har birida atigi 7,5% ni tashkil qiladi. Eslatib o'tamiz, sarlavhalar va navigatsiya elementlarining o'zi matnning qolgan qismidan uslub va grammatika jihatidan sezilarli darajada farq qiladi. Ushbu ikki omil birgalikda ma'lumotlarning chayqalishi muammosiga olib keladi. Neyron tarmog'i uchun o'quv namunasida bu juda yomon ifodalangan segmentlarning xususiyatlarini e'tiborsiz qoldirish foydaliroqdir. Tarmoq faqat asosiy matnni yaxshi tarjima qilishni o'rganadi, bu esa sarlavhalar va navigatsiyani tarjima qilish sifatidan aziyat chekadi. Ushbu noxush ta'sirni zararsizlantirish uchun biz ikkita narsani qildik: biz uchta turdagi segmentlardan birini (tarkib, sarlavha yoki navigatsiya) har bir juft parallel jumlaga meta-ma'lumot sifatida tayinladik va oxirgi ikkitasining o'quv korpusidagi konsentratsiyasini sun'iy ravishda oshirdik. 33% gacha o'rganish neyron tarmog'iga o'xshash misollarni tez-tez ko'rsata boshlaganligi sababli.

Ko'p vazifalarni o'rganish. Endi biz veb-sahifalardagi matnlarni segmentlarning uchta sinfiga bo'lish imkoniyatiga ega bo'lganimiz sababli, uchta alohida modelni o'rgatish tabiiy g'oya bo'lib tuyulishi mumkin, ularning har biri matnning boshqa turini - sarlavhalar, navigatsiya yoki mazmuni. Bu haqiqatan ham yaxshi ishlaydi, lekin sxema yanada yaxshi ishlaydi, unda biz bitta neyron tarmoqni bir vaqtning o'zida barcha turdagi matnlarni tarjima qilishga o'rgatamiz. Tushunishning kaliti ko'p vazifalarni o'rganish (MTL) g'oyasida yotadi: agar bir nechta mashinani o'rganish vazifalari o'rtasida ichki bog'liqlik mavjud bo'lsa, u holda bu muammolarni bir vaqtning o'zida hal qilishni o'rganadigan model har bir vazifani yaxshiroq hal qilishni o'rganishi mumkin. tor profilli ixtisoslashtirilgan modelga qaraganda!

puxta sozlash. Bizda allaqachon juda yaxshi mashina tarjimasi bor edi, shuning uchun Yandex.Browser uchun yangi tarjimonni noldan o'rgatish mantiqsiz bo'lar edi. Oddiy matnlarni tarjima qilish uchun asosiy tizimni olish va uni veb-sahifalar bilan ishlashga o'rgatish mantiqiyroq. Neyron tarmoqlar kontekstida bu ko'pincha nozik sozlash deb ataladi. Ammo bu muammoga to'g'ridan-to'g'ri yondashsak, ya'ni. neyron tarmog'ining og'irliklarini tayyor modeldagi qiymatlar bilan ishga tushiring va yangi ma'lumotlardan o'rganishni boshlang, shunda siz domenni o'zgartirish effektiga duch kelishingiz mumkin: o'rganganingizdek, veb-sahifalarni (domen ichidagi) tarjima qilish sifati oshadi. , lekin oddiy (domendan tashqari) matnlarni tarjima qilish sifati pasayadi. Ushbu noxush xususiyatdan xalos bo'lish uchun qo'shimcha mashg'ulotlar paytida biz neyron tarmoqqa qo'shimcha cheklov qo'yamiz, dastlabki holatga nisbatan og'irlikni juda ko'p o'zgartirishni taqiqlaymiz.

Matematik jihatdan, bu yo'qotish funktsiyasiga (yo'qotish funktsiyasi) atama qo'shish orqali ifodalanadi, bu asl va qayta o'qitilgan tarmoqlar tomonidan chiqarilgan keyingi so'zni yaratish ehtimoli taqsimotlari orasidagi Kullback-Leibler masofasi (KL-divergensiya). Rasmda ko'rib turganingizdek, bu veb-sahifalarni tarjima qilish sifatining yaxshilanishi endi oddiy matn tarjimasining yomonlashishiga olib kelmasligiga olib keladi.

Navigatsiyadan jilolangan chastotali iboralar. Yangi tarjimon ustida ishlash jarayonida biz veb-sahifalarning turli segmentlari matnlari bo'yicha statistik ma'lumotlarni to'pladik va qiziqarli narsalarni ko'rdik. Navigatsiya elementlari bilan bog'liq matnlar juda standartlashtirilgan, shuning uchun ular ko'pincha bir xil iboralarni ifodalaydi. Bu shunchalik kuchli ta'sirki, Internetda topilgan barcha navigatsiya iboralarining yarmidan ko'pi eng tez-tez uchraydigan 2000 tasida mavjud.

Albatta, biz bundan unumli foydalandik va ularning sifatiga to‘liq ishonch hosil qilish uchun bir necha ming eng ko‘p uchraydigan iboralar va ularning tarjimalarini tekshirish uchun tarjimonlarimizga berdik.

Tashqi moslamalar. Brauzerda veb-sahifa tarjimoniga yana bir muhim talab bor edi - bu belgini buzmasligi kerak. HTML teglari jumlalardan tashqarida yoki ularning chegaralarida joylashtirilsa, hech qanday muammo yuzaga kelmaydi. Ammo agar jumla ichida, masalan, ikki tagiga chizilgan so'zlar, keyin tarjimada biz ko'rishni istaymiz “ikki tagiga chizilgan sozlar". Bular. O'tkazish natijasida ikkita shart bajarilishi kerak:

  1. Tarjimadagi tagiga chizilgan fragment manba matnidagi tagiga chizilgan fragmentga aynan mos kelishi kerak.
  2. Tarjimaning tagiga chizilgan fragment chegaralaridagi izchilligi buzilmasligi kerak.
Ushbu xatti-harakatni ta'minlash uchun biz avval matnni odatdagidek tarjima qilamiz, so'ngra statistik so'zma-so'z moslashtirish modellaridan foydalanib, biz manba fragmentlari va tarjima qilingan matnlar o'rtasidagi yozishmalarni aniqlaymiz. Bu nima tagiga chizish kerakligini tushunishga yordam beradi (kursiv, giperhavola, ...).

Kesishma kuzatuvchisi. Biz o'rgatgan kuchli neyron tarmoq tarjima modellari oldingi avlod statistik modellariga qaraganda serverlarimizda (protsessor va GPU) sezilarli darajada ko'proq hisoblash resurslarini talab qiladi. Shu bilan birga, foydalanuvchilar har doim ham sahifalarni oxirigacha o'qimaydilar, shuning uchun veb-sahifalarning butun matnini bulutga yuborish ortiqcha ko'rinadi. Server resurslari va foydalanuvchi trafigini tejash uchun biz Translator-dan foydalanishni o'rgatganmiz

Qidiruv tizimida indekslangan veb-saytlar yarim milliarddan ortiq nusxaga ega va veb-sahifalarning umumiy soni o'n minglab marta ko'p. Rus tilidagi kontent butun Internetning 6% ni egallaydi.

Istalgan matnni tezda va muallifning mo'ljallangan ma'nosi saqlanib qoladigan tarzda qanday tarjima qilish kerak. statistik mazmuni tarjima modullari eski usullari, chunki, juda shubhali ishlaydi so'zlarning tuslanishini, vaqtni va boshqalarni aniq aniqlash mumkin emas. So'zlarning tabiati va ular orasidagi bog'lanishlar murakkab bo'lib, ba'zida natija juda g'ayritabiiy ko'rinishga olib keldi.

Endi Yandex avtomatik mashina tarjimasidan foydalanadi, bu esa yakuniy matnning sifatini oshiradi. Brauzerning so'nggi rasmiy versiyasini yangi o'rnatilgan tarjima bilan yuklab olishingiz mumkin.

Iboralar va so'zlarning gibrid tarjimasi

Yandex brauzeri butun sahifani, shuningdek, so'z va iboralarni alohida-alohida tarjima qila oladigan yagona brauzerdir. Funktsiya ko'proq yoki kamroq xorijiy tilni biladigan, lekin ba'zida tarjima qilishda qiyinchiliklarga duch keladigan foydalanuvchilar uchun juda foydali bo'ladi.

So'zni tarjima qilish mexanizmiga o'rnatilgan neyron tarmoq har doim ham qo'yilgan vazifalarni bajara olmadi, chunki noyob so'zlarni matnga kiritish va uni o'qishga qulay qilish juda qiyin edi. Endi eski va yangi texnologiyalardan foydalangan holda ilovaga gibrid usul o'rnatildi.

Mexanizm quyidagicha: dastur tanlangan jumlalarni yoki so'zlarni qabul qiladi, keyin ularni neyron tarmoqning ikkala moduliga va statistik tarjimonga beradi va o'rnatilgan algoritm qaysi natija yaxshiroq ekanligini aniqlaydi va keyin uni foydalanuvchiga beradi.

Neyron tarmoq tarjimon

Chet el tarkibi juda o'ziga xos tarzda ishlab chiqilgan:

  • sarlavhalardagi so'zlarning birinchi harflari bosh harf bilan yoziladi;
  • jumlalar soddalashtirilgan grammatika bilan qurilgan, ba'zi so'zlar tushirilgan.

Veb-saytlardagi navigatsiya menyulari joylashuviga qarab tahlil qilinadi, masalan, Orqaga so'zi, to'g'ri tarjima qilingan orqaga (orqaga qaytish), orqaga emas.

Yuqorida sanab o'tilgan barcha xususiyatlarni hisobga olish uchun ishlab chiquvchilar qo'shimcha ravishda matnli ma'lumotlarning katta qatoridan foydalanadigan neyron tarmoqni o'rgatishdi. Endi tarjimaning sifatiga tarkibning joylashuvi va uning dizayni ta'sir qiladi.

Amaldagi tarjima natijalari

Tarjima sifatini mashina va professional tarjimalarni taqqoslaydigan BLEU* algoritmi orqali o‘lchash mumkin. Sifat shkalasi 0 dan 100% gacha.

Neyron tarjimasi qanchalik yaxshi bo'lsa, foiz shunchalik yuqori bo'ladi. Ushbu algoritmga ko'ra, Yandex brauzeri 1,7 marta yaxshi tarjima qila boshladi.

Yandex tarjimonning yangi versiyasini ishga tushirdi. Endi tarjimada gibrid tizim ishlaydi: tarjimon ilgari qo‘llanilgan statistik modeldan tashqari, neyron tarmoqdan ham foydalanadi. Bu haqda kompaniya blogida xabar berildi.

Mashina tarjimasiga bir necha yondashuvlar mavjud. Birinchi, eng keng tarqalgan yondashuv statistikdir. Bunday mashina tarjimasi parallel korpuslardan (turli tillardagi bir xil matnlar) olingan katta hajmdagi ma'lumotlarni eslab qolishga asoslangan: bular bitta so'z yoki grammatik qoidalar bo'lishi mumkin. Biroq, bu yondashuv juda muhim kamchilikka ega: statistik mashina tarjimasi ma'lumotni eslab qoladi, lekin uni tushunmaydi, shuning uchun bunday tarjima ko'pincha grammatika nuqtai nazaridan unchalik to'g'ri bo'lmagan bir matnga to'plangan, ko'p turli xil to'g'ri tarjima qilingan qismlarga o'xshaydi. semantik yuk.

Ikkinchi yondashuv - neyron tarmoq. U alohida soʻz va iboralarni emas, balki butun jumlalarni tarjima qilishga asoslangan boʻlib, grammatika nuqtai nazaridan eng yaxshi tarjima sifatiga erishgan holda maʼnoni saqlab qolishdan iborat. Bunday tarjima texnologiyasi, shuningdek, u o'rganish jarayonida o'rgangan til bilimlarini saqlashi mumkin - bu unga, masalan, kelishuvdagi xatolar bilan kurashishga imkon beradi. Neyron mashina tarjimasi nisbatan yangi yondashuv bo‘lsa-da, u o‘zini allaqachon isbotlab bo‘lgan: Google Translate neyron tarmog‘i yordamida u rekord darajadagi tarjima sifatiga erisha oldi.

Bugundan boshlab Yandex.Translate gibrid tizimga asoslangan. Bunday tizim ilgari xizmat tomonidan qo'llanilgan statistik tarjimani va neyron tarmoqning ishlashiga asoslangan tarjimani o'z ichiga oladi. CatBoost (Yandex tomonidan ishlab chiqilgan mashinani o'rganish tizimi) asosidagi maxsus tasniflagich algoritmi ikkita tarjima variantidan (statistik va neyron) eng yaxshisini tanlaydi va uni foydalanuvchiga beradi.

Yandex.Translate’ning yangi versiyasining ishi haqida batafsil ma’lumotni servis rahbari, britaniyalik kompyuter tilshunosi Devid Talbot bilan uchrashuvimizda o‘qishingiz mumkin.

Hozirgi vaqtda yangi tarjima texnologiyasi faqat ingliz tilidan rus tiliga tarjima qilinganda mavjud (kompaniya ma'lumotlariga ko'ra, bu eng mashhur tarjima yo'nalishi). Tizim bilan ishlash jarayonida foydalanuvchi ikkita tarjima modeli (eski statistik va yangi gibrid) oʻrtasida almashishi va eski va yangi versiyalar tarjimasini solishtirishi mumkin. Kelgusi oylarda Translator dasturini ishlab chiquvchilar tarjimaning boshqa yo‘nalishlarini ham kiritishga va’da berishmoqda.


Yandex.Translate-ning yangi versiyasida qo'llanilgan turli modellarni tarjima qilish misollari



Neyron tarmoqlardan foydalangan holda mashina tarjimasi ushbu mavzu bo'yicha birinchi ilmiy tadqiqotdan va Google Google Translate xizmatini chuqur o'rganishga to'liq o'tkazishni e'lon qilgan paytgacha uzoq yo'lni bosib o'tdi.

Ma'lumki, neyron tarjimon ikki tomonlama takrorlanuvchi neyron tarmoqlari (Bidirectional Recurrent Neural Networks) mexanizmiga asoslangan bo'lib, matritsali hisoblar asosida qurilgan bo'lib, bu statistik mashina tarjimonlariga qaraganda ancha murakkab ehtimollik modellarini qurish imkonini beradi. Biroq, har doim neyron tarjima, statistik tarjima kabi, o'rganish uchun ikki tildagi matnlarning parallel korpusini talab qiladi, deb ishonilgan. Ushbu korpuslarda neyron tarmog'i o'qitiladi va inson tarjimasini mos yozuvlar sifatida oladi.

Ma'lum bo'lishicha, neyron tarmoqlar matnlarning parallel korpusisiz ham tarjima uchun yangi tilni o'zlashtira oladi! Preprint sayti arXiv.org bir vaqtning o'zida ushbu mavzu bo'yicha ikkita maqolani nashr etdi.

“Tasavvur qiling-a, siz bir odamga juda ko'p xitoy kitoblari va ko'plab arabcha kitoblarni berasiz - ularning hech biri bir xil emas - va bu odam xitoy tilidan arab tiliga tarjima qilishga o'rgatilgan. Bu imkonsiz ko'rinadi, to'g'rimi? Ammo biz kompyuter buni qila olishini ko‘rsatdik”, - deydi San-Sebastyandagi (Ispaniya) Basklar davlati universitetining kompyuter olimi Mikel Artetxe.

Mashina tarjimasining aksariyat neyron tarmoqlari "o'qituvchi bilan" o'qitiladi, uning roli shunchaki odam tomonidan tarjima qilingan matnlarning parallel korpusidir. Ta'lim jarayonida, qo'pol qilib aytganda, neyron tarmoq taxmin qiladi, standart bilan tekshiradi va o'z tizimlariga kerakli o'zgarishlar kiritadi, keyin u o'rganadi. Muammo shundaki, dunyodagi ba'zi tillar uchun parallel matnlar ko'p emas, shuning uchun ular an'anaviy mashina tarjimasi neyron tarmoqlari uchun mavjud emas.


Google Neural Machine Translation (GNMT) neyron tarmog'ining "universal tili". Chapdagi rasmda har bir so'zning ma'nolari klasterlari turli xil ranglarda ko'rsatilgan, quyida o'ngda - turli xil inson tillaridan olingan so'zning ma'nolari: ingliz, koreys va yapon.

Har bir til uchun ulkan "atlas" tuzgandan so'ng, tizim bitta atlasni boshqasiga yopishga harakat qiladi - va sizda qandaydir parallel matn korpusi tayyor!

Taklif etilayotgan ikkita nazoratsiz ta'lim arxitekturasining sxemalarini solishtirish mumkin.


Taklif etilayotgan tizimning arxitekturasi. L1 tilidagi har bir jumla uchun tizim ikki bosqichning almashinishini o'rganadi: 1) shovqinni bostirish(denoising), bu umumiy kodlovchi bilan jumlaning shovqinli versiyasini kodlash va uni L1 dekoderi tomonidan qayta qurish ehtimolini optimallashtiradi; 2) teskari tarjima(orqaga tarjima) jumla chiqish rejimida tarjima qilinganda (ya'ni, umumiy kodlovchi tomonidan kodlangan va L2 dekoder tomonidan dekodlangan) va keyin bu tarjima qilingan jumlani umumiy kodlovchi bilan kodlash va L1 dekoder orqali asl jumlani tiklash ehtimoli. optimallashtirilgan. Tasvir: Michela Artetxe va boshqalar.


Tizimning tavsiya etilgan arxitekturasi va o'quv maqsadlari (ikkinchi ilmiy ishdan). Arxitektura jumlama-jumla tarjima modeli bo'lib, unda kodlovchi ham, dekoder ham ikki tilda ishlaydi, kirish tili identifikatoriga qarab, qidiruv jadvallarini almashtiradi. Yuqori (avtokodlash): Model har bir domenda denoisingni amalga oshirishga o'rgatilgan. Pastki (tarjima): avvalgidek, biz oldingi iteratsiyada (ko'k quti) model tomonidan ishlab chiqarilgan tarjimadan kirish sifatida foydalanib, boshqa tildan kodlaymiz. Yashil ellipslar yo'qotish funktsiyasidagi shartlarni bildiradi. Tasvir: Guillaume Lampl va boshqalar.

Ikkala maqolada ham bir oz farqlar bilan juda o'xshash metodologiya qo'llaniladi. Lekin har ikki holatda ham tarjima qandaydir oraliq “til” yoki yaxshiroq aytganda, oraliq o‘lchov yoki makon orqali amalga oshiriladi. Hozircha, o'qituvchisiz neyron tarmoqlari tarjimaning unchalik yuqori sifatini ko'rsatmaydi, ammo mualliflarning ta'kidlashicha, agar siz o'qituvchining ozgina yordamidan foydalansangiz, uni yaxshilash oson bo'ladi. tajriba, bu amalga oshirilmadi.

2018-yilda o‘quv vakolatlari bo‘yicha xalqaro konferensiyaga taqdim etilgan maqolalar. Ilmiy matbuotda hali birorta ham maqola chop etilmagan.