მზადება სკოლისთვის

Yandex თარჯიმანი ნერვული ქსელი. Yandex.Translate-ში ფანტასტიკური ნერვული ქსელი ჩაშენდა. რა არის Yandex.Translate

Yandex.Translate სერვისმა დაიწყო ნერვული ქსელის ტექნოლოგიების გამოყენება ტექსტების თარგმნისას, რაც აუმჯობესებს თარგმანის ხარისხს, იტყობინება Yandex-ის საიტი.

სანიშნეებისკენ

სერვისი მუშაობს ჰიბრიდულ სისტემაზე, განმარტა Yandex-მა: თარგმანის ტექნოლოგია ნერვული ქსელის გამოყენებით დაემატა სტატისტიკურ მოდელს, რომელიც მუშაობს Translator-ში გაშვების დღიდან.

„სტატისტიკური მთარგმნელისგან განსხვავებით, ნერვული ქსელი არ ყოფს ტექსტებს ცალკეულ სიტყვებად და ფრაზებად. იგი იღებს მთელ წინადადებას, როგორც შეყვანის სახით და გასცემს მის თარგმანს, ”- განმარტა კომპანიის წარმომადგენელმა. მისი თქმით, ეს მიდგომა საშუალებას იძლევა გავითვალისწინოთ კონტექსტი და უკეთ გადმოგცეთ ნათარგმნი ტექსტის მნიშვნელობა.

სტატისტიკური მოდელი, თავის მხრივ, უკეთ უმკლავდება იშვიათ სიტყვებსა და ფრაზებს, ხაზგასმულია Yandex-ში. „თუ წინადადების მნიშვნელობა გაუგებარია, ის არ ფიქრობს, როგორ შეუძლია ამის გაკეთება ნერვულ ქსელს“, აღნიშნა კომპანიამ.

თარგმნისას სერვისი იყენებს ორივე მოდელს, შემდეგ მანქანათმცოდნეობის ალგორითმი ადარებს შედეგებს და სთავაზობს საუკეთესო ვარიანტს, მისი აზრით. ”ჰიბრიდული სისტემა საშუალებას გაძლევთ მიიღოთ საუკეთესო თითოეული მეთოდიდან და გააუმჯობესოთ თარგმანის ხარისხი”, - ამბობენ Yandex-ში.

14 სექტემბრის დღის განმავლობაში Translator-ის ვებ ვერსიაში უნდა გამოჩნდეს გადამრთველი, რომლითაც შეგიძლიათ შეადაროთ ჰიბრიდული და სტატისტიკური მოდელების მიერ შესრულებული თარგმანები. ამავდროულად, ზოგჯერ სერვისმა შეიძლება არ შეცვალოს ტექსტები, კომპანიამ აღნიშნა: ”ეს ნიშნავს, რომ ჰიბრიდულმა მოდელმა გადაწყვიტა, რომ სტატისტიკური თარგმანი უკეთესია”.

თანამედროვე ინტერნეტში 630 მილიონზე მეტი საიტია, მაგრამ მათგან მხოლოდ 6% შეიცავს რუსულენოვან შინაარსს. ენობრივი ბარიერი ქსელის მომხმარებლებს შორის ცოდნის გავრცელების მთავარი პრობლემაა და მიგვაჩნია, რომ ის უნდა მოგვარდეს არა მხოლოდ უცხო ენების სწავლებით, არამედ ბრაუზერში ავტომატური ავტომატური თარგმანის გამოყენებით.

დღეს Habr-ის მკითხველებს Yandex.Browser-ის მთარგმნელში ორი მნიშვნელოვანი ტექნოლოგიური ცვლილების შესახებ მოვუყვებით. პირველ რიგში, შერჩეული სიტყვებისა და ფრაზების თარგმნა ახლა იყენებს ჰიბრიდულ მოდელს და ჩვენ გავიხსენებთ, თუ როგორ განსხვავდება ეს მიდგომა მხოლოდ ნერვული ქსელების გამოყენებისგან. მეორეც, მთარგმნელის ნერვული ქსელები ახლა ითვალისწინებენ ვებ გვერდების სტრუქტურას, რომელთა მახასიათებლებზეც ასევე ვისაუბრებთ ჭრილში.

სიტყვებისა და ფრაზების ჰიბრიდული მთარგმნელი

პირველი მანქანური თარგმანის სისტემები ეფუძნებოდა ლექსიკონები და წესები(ფაქტობრივად, ხელით დაწერილი რეგულარული გამონათქვამები), რამაც განსაზღვრა თარგმანის ხარისხი. პროფესიონალი ენათმეცნიერები წლებია მუშაობენ სახელმძღვანელო წესების უფრო დეტალური შემუშავებისთვის. სამუშაო იმდენად შრომატევადი იყო, რომ სერიოზული ყურადღება დაეთმო მხოლოდ ყველაზე პოპულარულ წყვილ ენებს, მაგრამ მათ შიგნითაც კი მანქანები ცუდად მუშაობდნენ. ცოცხალი ენა ძალიან რთული სისტემაა, რომელიც კარგად არ ემორჩილება წესებს. კიდევ უფრო რთულია ორი ენის შესატყვისი წესების აღწერა.

ერთადერთი გზა, რომ მანქანა მუდმივად შეეგუოს ცვალებად პირობებს, არის საკუთარი თავის სწავლა პარალელური ტექსტების დიდი რაოდენობით (მნიშვნელობით იგივე, მაგრამ დაწერილი სხვადასხვა ენაზე). ეს არის მანქანური თარგმნის სტატისტიკური მიდგომა. კომპიუტერი ადარებს პარალელურ ტექსტებს და დამოუკიდებლად ამოიცნობს შაბლონებს.

ზე სტატისტიკური მთარგმნელიარის როგორც დადებითი, ასევე უარყოფითი მხარეები. ერთის მხრივ, კარგად ახსოვს იშვიათი და რთული სიტყვები და ფრაზები. თუ ისინი ერთმანეთს შეხვდნენ პარალელურ ტექსტებში, მთარგმნელი დაიმახსოვრებს მათ და გააგრძელებს სწორად თარგმნას. მეორეს მხრივ, თარგმანის შედეგი შეიძლება იყოს დასრულებული თავსატეხის მსგავსი: საერთო სურათი, როგორც ჩანს, ნათელია, მაგრამ თუ კარგად დააკვირდებით, ხედავთ, რომ იგი შედგება ცალკეული ნაწილებისგან. მიზეზი ის არის, რომ მთარგმნელი ცალკეულ სიტყვებს იდენტიფიკატორად წარმოაჩენს, რაც არანაირად არ ასახავს მათ შორის ურთიერთობას. ეს არ ემთხვევა ხალხის ენის აღქმას, სადაც სიტყვები განისაზღვრება იმით, თუ როგორ გამოიყენება ისინი, როგორ უკავშირდება ისინი და როგორ განსხვავდებიან სხვა სიტყვებისგან.

ეხმარება ამ პრობლემის მოგვარებაში ნეირონული ქსელები. სიტყვების ჩანერგვა, რომელიც გამოიყენება ნერვულ მანქანურ თარგმანში, ჩვეულებრივ ასახავს თითოეულ სიტყვას რამდენიმე ასეული რიცხვის ვექტორზე. ვექტორები, სტატისტიკური მიდგომიდან მარტივი იდენტიფიკატორებისგან განსხვავებით, ყალიბდება ნერვული ქსელის მომზადებისას და ითვალისწინებს სიტყვებს შორის კავშირებს. მაგალითად, მოდელმა შეიძლება აღიაროს, რომ იმის გამო, რომ "ჩაი" და "ყავა" ხშირად ჩნდება მსგავს კონტექსტში, ორივე ეს სიტყვა შესაძლებელი უნდა იყოს ახალი სიტყვის "დაღვრა" კონტექსტში, რომელიც, ვთქვათ, მხოლოდ ერთი მათგანი გვხვდება. ტრენინგის მონაცემები.

თუმცა, ვექტორული წარმოდგენების სწავლის პროცესი სტატისტიკურად უფრო მოთხოვნადია, ვიდრე მაგალითების ამომწურავი დამახსოვრება. გარდა ამისა, გაუგებარია რა უნდა გააკეთოს იმ იშვიათ შეყვანილ სიტყვებთან, რომლებიც საკმარისად ხშირი არ არის იმისათვის, რომ ქსელმა შექმნას მათთვის მისაღები ვექტორული წარმოდგენა. ამ სიტუაციაში ლოგიკურია ორივე მეთოდის გაერთიანება.

გასული წლიდან Yandex.Translate იყენებს ჰიბრიდული მოდელი. როდესაც თარჯიმანი იღებს ტექსტს მომხმარებლისგან, ის აგზავნის მას ორივე სისტემაში თარგმნისთვის - როგორც ნერვულ ქსელში, ასევე სტატისტიკურ მთარგმნელში. შემდეგ, სწავლის მეთოდზე დაფუძნებული ალგორითმი აფასებს რომელი თარგმანია უკეთესი. შეფასებისას მხედველობაში მიიღება ათობით ფაქტორი - წინადადების სიგრძიდან (მოკლე ფრაზები უკეთესია თარგმნილი სტატისტიკური მოდელით) სინტაქსამდე. საუკეთესოდ აღიარებული თარგმანი ნაჩვენებია მომხმარებლისთვის.

ეს არის ჰიბრიდული მოდელი, რომელიც ახლა გამოიყენება Yandex.Browser-ში, როდესაც მომხმარებელი ირჩევს კონკრეტულ სიტყვებსა და ფრაზებს გვერდზე სათარგმნად.

ეს რეჟიმი განსაკუთრებით მოსახერხებელია მათთვის, ვინც ზოგადად ფლობს უცხო ენას და სურს მხოლოდ უცნობი სიტყვების თარგმნა. მაგრამ თუ, მაგალითად, ჩვეულებრივი ინგლისურის ნაცვლად, შეხვდებით ჩინურს, მაშინ რთული იქნება გვერდის თარჯიმნის გარეშე. როგორც ჩანს, განსხვავება მხოლოდ ნათარგმნი ტექსტის მოცულობაშია, მაგრამ ყველაფერი ასე მარტივი არ არის.

ნერვული ქსელის ვებ გვერდის მთარგმნელი

ჯორჯთაუნის ექსპერიმენტის დროიდან თითქმის დღემდე, მანქანური თარგმანის ყველა სისტემა გაწვრთნილი იყო საწყისი ტექსტის თითოეული წინადადების ინდივიდუალურად თარგმნისთვის. მიუხედავად იმისა, რომ ვებ გვერდი არ არის მხოლოდ წინადადებების ნაკრები, არამედ სტრუქტურირებული ტექსტი, რომელიც შეიცავს ფუნდამენტურად განსხვავებულ ელემენტებს. განვიხილოთ გვერდების უმეტესობის ძირითადი ელემენტები.

სათაური. ჩვეულებრივ, ნათელი და დიდი ტექსტი, რომელსაც ჩვენ მაშინვე ვხედავთ გვერდზე შესვლისას. სათაური ხშირად შეიცავს ახალი ამბების არსს, ამიტომ მნიშვნელოვანია მისი სწორად თარგმნა. მაგრამ ძნელია ამის გაკეთება, რადგან სათაურის ტექსტი მცირეა და კონტექსტის გააზრების გარეშე შეიძლება შეცდომა დაუშვა. ინგლისურის შემთხვევაში საქმე კიდევ უფრო რთულია, რადგან ინგლისურენოვანი სათაურები ხშირად შეიცავს ფრაზებს არატრადიციული გრამატიკით, ინფინიტივებით ან თუნდაც ზმნის გამოტოვებით. Მაგალითად, Game of Thrones-ის პრიკველი გამოცხადდა.

ნავიგაცია. სიტყვები და ფრაზები, რომლებიც გვეხმარება საიტზე ნავიგაციაში. Მაგალითად, მთავარი, უკანდა Ჩემი ანგარიშიძნელად ღირს თარგმნა როგორც "სახლი", "უკან" და "ჩემი ანგარიში", თუ ისინი განთავსებულია საიტის მენიუში და არა პუბლიკაციის ტექსტში.

მთავარი ტექსტი. მასთან ყველაფერი უფრო ადვილია, ის ცოტათი განსხვავდება ჩვეულებრივი ტექსტებისა და წინადადებებისგან, რომლებსაც წიგნებში ვხვდებით. მაგრამ აქაც კი მნიშვნელოვანია თარგმანების თანმიმდევრულობის უზრუნველყოფა, ანუ იმის უზრუნველყოფა, რომ ერთი და იგივე ტერმინები და ცნებები ითარგმნება იმავე გზით იმავე ვებ გვერდზე.

ვებ გვერდების მაღალი ხარისხის თარგმნისთვის საკმარისი არ არის ნერვული ქსელის ან ჰიბრიდული მოდელის გამოყენება - ასევე აუცილებელია გვერდების სტრუქტურის გათვალისწინება. ამისთვის კი უამრავ ტექნოლოგიურ სირთულესთან გვქონდა გამკლავება.

ტექსტის სეგმენტების კლასიფიკაცია. ამისათვის ჩვენ კვლავ ვიყენებთ CatBoost-ს და ფაქტორებს, რომლებიც დაფუძნებულია როგორც თავად ტექსტზე, ასევე დოკუმენტების HTML მარკირებაზე (თეგი, ტექსტის ზომა, ბმულების რაოდენობა ტექსტის ერთეულზე, ...). ფაქტორები საკმაოდ ჰეტეროგენულია, ამიტომ საუკეთესო შედეგებს აჩვენებს CatBoost (დაფუძნებული გრადიენტის გაძლიერებაზე) (კლასიფიკაციის სიზუსტე 95%-ზე მეტია). მაგრამ მხოლოდ სეგმენტური კლასიფიკაცია არ არის საკმარისი.

მონაცემთა დახრილობა. ტრადიციულად, Yandex.Translate ალგორითმები ივარჯიშება ტექსტებზე ინტერნეტიდან. როგორც ჩანს, ეს არის იდეალური გადაწყვეტა ვებ გვერდის თარჯიმნის მომზადებისთვის (სხვა სიტყვებით რომ ვთქვათ, ქსელი სწავლობს იმავე ხასიათის ტექსტებს, რომლებზეც ჩვენ ვაპირებთ მის გამოყენებას). მაგრამ როგორც კი ვისწავლეთ ერთმანეთისგან განსხვავებული სეგმენტების გამოყოფა, აღმოვაჩინეთ საინტერესო თვისება. საშუალოდ, შინაარსი შეადგენს ვებსაიტებზე მთელი ტექსტის დაახლოებით 85%-ს, სათაურები და ნავიგაცია მხოლოდ 7.5%-ს შეადგენს. შეგახსენებთ, რომ თავად სათაურები და ნავიგაციის ელემენტები მკვეთრად განსხვავდება სტილითა და გრამატიკით დანარჩენი ტექსტისგან. ეს ორი ფაქტორი გაერთიანებული იწვევს მონაცემთა გადახრის პრობლემას. ნერვული ქსელისთვის უფრო მომგებიანია უბრალოდ უგულებელყოს ამ ძალიან ცუდად წარმოდგენილი სეგმენტების მახასიათებლები სასწავლო ნიმუშში. ქსელი სწავლობს მხოლოდ ძირითადი ტექსტის კარგად თარგმნას, რომელიც განიცდის სათაურების თარგმნის და ნავიგაციის ხარისხს. ამ უსიამოვნო ეფექტის გასანეიტრალებლად ჩვენ გავაკეთეთ ორი რამ: სამივე ტიპის სეგმენტიდან ერთ-ერთი (შინაარსი, სათაური ან ნავიგაცია) მივანიჭეთ მეტაინფორმაციად თითოეულ პარალელური წინადადების წყვილს და ხელოვნურად გავზარდეთ ბოლო ორის კონცენტრაცია სასწავლო კორპუსში. 33%-მდე იმის გამო, რომ უფრო ხშირად დაიწყო მსგავსი მაგალითების ჩვენება სასწავლო ნერვულ ქსელში.

მრავალპროფილიანი სწავლა. იმის გამო, რომ ახლა ჩვენ შეგვიძლია ვებ გვერდების ტექსტები დავყოთ სეგმენტების სამ კლასად, შეიძლება ბუნებრივი იდეა ჩანდეს სამი ცალკეული მოდელის მომზადება, რომელთაგან თითოეული გაუმკლავდება სხვადასხვა ტიპის ტექსტის თარგმნას - სათაურები, ნავიგაცია ან შინაარსი. ეს მართლაც კარგად მუშაობს, მაგრამ სქემა კიდევ უფრო კარგად მუშაობს, რომელშიც ჩვენ ვავარჯიშებთ ერთ ნერვულ ქსელს ყველა ტიპის ტექსტის ერთდროულად თარგმნისთვის. გაგების გასაღები მდგომარეობს mutli-task სწავლის იდეაში (MTL): თუ არსებობს შიდა კავშირი მანქანათმცოდნეობის რამდენიმე ამოცანას შორის, მაშინ მოდელი, რომელიც სწავლობს ამ ამოცანების ამოხსნას ერთდროულად, შეუძლია ისწავლოს თითოეული ამოცანის უკეთ ამოხსნა. ვიდრე ვიწრო პროფილის სპეციალიზებული მოდელი!

დახვეწილი რეგულირება. ჩვენ უკვე გვქონდა ძალიან კარგი ავტომატური თარგმანი, ამიტომ არაგონივრული იქნებოდა Yandex.Browser-ისთვის ახალი მთარგმნელის მომზადება ნულიდან. უფრო ლოგიკურია ჩვეულებრივი ტექსტების თარგმნის საბაზისო სისტემის აღება და ვებ გვერდებთან მუშაობისთვის მომზადება. ნერვული ქსელების კონტექსტში, ამას ხშირად მოიხსენიებენ, როგორც დახვეწას. მაგრამ თუ ამ პრობლემას პირდაპირ მივუდგებით, ე.ი. უბრალოდ დააწყეთ ნერვული ქსელის წონა მზა მოდელის მნიშვნელობებით და დაიწყეთ სწავლა ახალი მონაცემებიდან, შეიძლება შეგხვდეთ დომენის ცვლის ეფექტს: როგორც გაიგებთ, გაიზრდება ვებ გვერდების თარგმნის ხარისხი (დომენში), მაგრამ ჩვეულებრივი (დომენის გარეთ) ტექსტების თარგმნის ხარისხი დაეცემა. ამ უსიამოვნო მახასიათებლისგან თავის დასაღწევად, დამატებითი ვარჯიშის დროს, ჩვენ ვაწესებთ დამატებით შეზღუდვას ნერვულ ქსელზე, კრძალავს მას საწყის მდგომარეობასთან შედარებით წონის გადაჭარბებულ შეცვლას.

მათემატიკურად, ეს გამოიხატება ტერმინის დამატებით დანაკარგის ფუნქციაზე (დაკარგვის ფუნქცია), რაც არის Kullback-Leibler მანძილი (KL-დივერგენცია) შემდეგი სიტყვის გენერირების ალბათობის განაწილებებს შორის, გამოშვებული ორიგინალური და გადამზადებული ქსელების მიერ. როგორც ილუსტრაციიდან ჩანს, ეს იწვევს იმ ფაქტს, რომ ვებ გვერდების თარგმანის ხარისხის გაუმჯობესება აღარ იწვევს უბრალო ტექსტის თარგმანის დეგრადაციას.

სიხშირის ფრაზების გაპრიალება ნავიგაციიდან. ახალ მთარგმნელზე მუშაობის პროცესში შევაგროვეთ სტატისტიკა ვებ გვერდების სხვადასხვა სეგმენტის ტექსტებზე და ვნახეთ რაღაც საინტერესო. ნავიგაციის ელემენტებთან დაკავშირებული ტექსტები საკმაოდ სტანდარტიზებულია, ამიტომ ისინი ხშირად წარმოადგენენ იგივე ქვაბის ფრაზებს. ეს ისეთი ძლიერი ეფექტია, რომ ინტერნეტში ნაპოვნი სანავიგაციო ფრაზების ნახევარზე მეტი მხოლოდ 2000-შია ყველაზე ხშირად.

რა თქმა უნდა, ჩვენ ვისარგებლეთ ამით და რამდენიმე ათასი ყველაზე ხშირი ფრაზა და მათი თარგმანი გადამოწმებისთვის მივეცით ჩვენს თარჯიმნებს, რათა სრულად დავრწმუნდეთ მათ ხარისხში.

გარე გასწორებები. ბრაუზერში იყო კიდევ ერთი მნიშვნელოვანი მოთხოვნა ვებ გვერდის მთარგმნელისთვის - მან არ უნდა დაამახინჯოს მარკირება. როდესაც HTML ტეგები განთავსებულია წინადადებების გარეთ ან მათ საზღვრებში, პრობლემა არ წარმოიქმნება. მაგრამ თუ წინადადების შიგნით არის, მაგალითად, ორი ხაზი გაუსვასიტყვები, შემდეგ თარგმანში გვინდა ვიხილოთ „ორი ხაზი გაუსვასიტყვები". იმათ. გადაცემის შედეგად ორი პირობა უნდა დაკმაყოფილდეს:

თარგმანში ხაზგასმული ფრაგმენტი ზუსტად უნდა შეესაბამებოდეს ხაზგასმული ფრაგმენტს საწყისი ტექსტში.
ხაზგასმული ფრაგმენტის საზღვრებში თარგმანის თანმიმდევრულობა არ უნდა დაირღვეს.

ამ ქცევის უზრუნველსაყოფად, ჯერ ტექსტს ვთარგმნით ჩვეულებისამებრ, შემდეგ კი, სიტყვა-სიტყვით გასწორების სტატისტიკური მოდელების გამოყენებით, ვადგენთ შესაბამისობას წყაროს ფრაგმენტებსა და ნათარგმნ ტექსტებს შორის. ეს გვეხმარება იმის გაგებაში, თუ რა უნდა იყოს ხაზგასმული (დახრილი, ჰიპერბმული, ...).

კვეთის დამკვირვებელი. მძლავრი ნერვული ქსელის თარგმნის მოდელები, რომლებიც ჩვენ მოვამზადეთ, მოითხოვს შესამჩნევად მეტ გამოთვლით რესურსს ჩვენს სერვერებზე (როგორც CPU, ასევე GPU), ვიდრე სტატისტიკური მოდელების წინა თაობა. ამავდროულად, მომხმარებლები ყოველთვის არ კითხულობენ გვერდებს ბოლომდე, ამიტომ ვებ გვერდების მთელი ტექსტის ღრუბელში გაგზავნა ზედმეტია. სერვერის რესურსების და მომხმარებლის ტრაფიკის დაზოგვის მიზნით, ჩვენ ვასწავლეთ Translator-ს გამოყენება

საძიებო სისტემით ინდექსირებული ვებსაიტებს აქვთ ნახევარ მილიარდზე მეტი ასლი, ხოლო ვებ გვერდების საერთო რაოდენობა ათობით ათასი ჯერ მეტია. რუსულენოვანი კონტენტი მთელი ინტერნეტის 6%-ს იკავებს.

როგორ ვთარგმნოთ სასურველი ტექსტი სწრაფად და ისე, რომ შენარჩუნდეს ავტორის დანიშნულება. სტატისტიკური შინაარსის თარგმნის მოდულების ძველი მეთოდები ძალიან საეჭვოდ მუშაობს, რადგან შეუძლებელია ზუსტად დადგინდეს სიტყვების დაქვეითება, დრო და სხვა. სიტყვების ბუნება და მათ შორის კავშირები რთულია, რაც ზოგჯერ შედეგს ძალიან არაბუნებრივი ჩანდა.

ახლა Yandex იყენებს ავტომატურ ავტომატურ თარგმნას, რაც გაზრდის საბოლოო ტექსტის ხარისხს. შეგიძლიათ ჩამოტვირთოთ ბრაუზერის უახლესი ოფიციალური ვერსია ახალი ჩაშენებული თარგმანით.

ფრაზებისა და სიტყვების ჰიბრიდული თარგმანი

Yandex ბრაუზერი ერთადერთია, რომელსაც შეუძლია თარგმნოს გვერდი მთლიანად, ისევე როგორც სიტყვები და ფრაზები ინდივიდუალურად. ფუნქცია ძალიან სასარგებლო იქნება იმ მომხმარებლებისთვის, რომლებიც მეტ-ნაკლებად საუბრობენ უცხო ენაზე, მაგრამ ზოგჯერ აწყდებიან თარგმანის სირთულეებს.

სიტყვების თარგმნის მექანიზმში ჩაშენებული ნერვული ქსელი ყოველთვის არ უმკლავდებოდა დასახულ ამოცანებს, რადგან იშვიათი სიტყვები ძალიან რთული იყო ტექსტში ჩასმა და მისი წაკითხვა. ახლა აპლიკაციაში ჩაშენებულია ჰიბრიდული მეთოდი ძველი და ახალი ტექნოლოგიების გამოყენებით.

მექანიზმი ასეთია: პროგრამა იღებს არჩეულ წინადადებებს ან სიტყვებს, შემდეგ აძლევს მათ ნერვული ქსელის ორივე მოდულს და სტატისტიკურ თარჯიმანს და ჩაშენებული ალგორითმი განსაზღვრავს რომელი შედეგია უკეთესი და შემდეგ აძლევს მომხმარებელს.

ნერვული ქსელის მთარგმნელი

უცხოური შინაარსი შექმნილია ძალიან სპეციფიკური გზით:

სათაურებში სიტყვების პირველი ასოები იწერება დიდი ასოებით;
წინადადებები აგებულია გამარტივებული გრამატიკით, ზოგიერთი სიტყვა გამოტოვებულია.

საიტებზე ნავიგაციის მენიუები გაანალიზებულია მათი მდებარეობის მიხედვით, მაგალითად, სიტყვა უკან, სწორად თარგმნილი უკან (უკან და არა უკან).

ყველა ზემოაღნიშნული მახასიათებლის გასათვალისწინებლად, დეველოპერებმა დამატებით მოამზადეს ნერვული ქსელი, რომელიც უკვე იყენებს ტექსტური მონაცემების უზარმაზარ მასივს. ახლა თარგმანის ხარისხზე გავლენას ახდენს შინაარსის მდებარეობა და მისი დიზაინი.

გამოყენებული თარგმანის შედეგები

თარგმანის ხარისხი შეიძლება შეფასდეს BLEU* ალგორითმით, რომელიც ადარებს მანქანურ და პროფესიონალურ თარგმანებს. ხარისხის მასშტაბი 0-დან 100%-მდე.

რაც უფრო უკეთესია ნერვული თარგმანი, მით უფრო მაღალია პროცენტი. ამ ალგორითმის მიხედვით, Yandex ბრაუზერმა დაიწყო თარგმნა 1.7-ჯერ უკეთესად.

Yandex-მა გამოუშვა მთარგმნელის ახალი ვერსია. თარგმანზე ახლა იმუშავებს ჰიბრიდული სისტემა: ადრე გამოყენებული სტატისტიკური მოდელის გარდა, მთარგმნელი ასევე გამოიყენებს ნერვულ ქსელს. ამის შესახებ კომპანიის ბლოგზე წერია.

მანქანური თარგმანის რამდენიმე მიდგომა არსებობს. პირველი, ყველაზე გავრცელებული მიდგომა არის სტატისტიკური. ასეთი მანქანური თარგმანი დაფუძნებულია პარალელური კორპუსებიდან მიღებული ინფორმაციის უზარმაზარი მოცულობის დამახსოვრებაზე (იგივე ტექსტები სხვადასხვა ენაზე): ეს შეიძლება იყოს ერთი სიტყვა ან გრამატიკული წესები. თუმცა, ამ მიდგომას აქვს ძალიან მნიშვნელოვანი ნაკლი: სტატისტიკურ მანქანურ თარგმანს ახსოვს ინფორმაცია, მაგრამ არ ესმის, ამიტომ ასეთი თარგმანი ხშირად ჰგავს ბევრ სხვადასხვა სწორად თარგმნილ ნაწილს, რომელიც შეგროვებულია ერთ ტექსტში, რომელიც არ არის ძალიან სწორი გრამატიკისა და თვალსაზრისით. სემანტიკური დატვირთვა.

მეორე მიდგომა არის ნერვული ქსელი. იგი ეფუძნება არა ცალკეული სიტყვებისა და ფრაზების თარგმნას, არამედ მთლიან წინადადებებს და მისი მთავარი მიზანია მნიშვნელობის შენარჩუნება, გრამატიკული თვალსაზრისით საუკეთესო თარგმანის ხარისხის მიღწევაში. თარგმანის ასეთ ტექნოლოგიას ასევე შეუძლია შეინახოს იმ ენის ცოდნა, რომელიც მან ისწავლა სწავლის პროცესში - ეს საშუალებას აძლევს მას გაუმკლავდეს, მაგალითად, შეცდომებს შემთხვევის შეთანხმებაში. ნერვული მანქანური თარგმანი შედარებით ახალი მიდგომაა, თუმცა მან უკვე დაამტკიცა თავისი თავი: Google Translate ნერვული ქსელის დახმარებით მან შეძლო თარგმანის რეკორდული ხარისხის მიღწევა.

დღეიდან Yandex.Translate ეფუძნება ჰიბრიდულ სისტემას. ასეთი სისტემა მოიცავს სერვისის მიერ ადრე გამოყენებულ სტატისტიკურ თარგმანს და ნერვული ქსელის ფუნქციონირებაზე დაფუძნებულ თარგმანს. CatBoost-ზე დაფუძნებული სპეციალური კლასიფიკატორის ალგორითმი (Yandex-ის მიერ შემუშავებული მანქანური სწავლების სისტემა) ირჩევს საუკეთესოს თარგმანის ორი ვარიანტიდან (სტატისტიკური და ნერვული) და აძლევს მომხმარებელს.

Yandex.Translate-ის ახალი ვერსიის მუშაობის შესახებ მეტი შეგიძლიათ წაიკითხოთ ჩვენს შეხვედრაზე სამსახურის ხელმძღვანელთან, ბრიტანელ გამოთვლით ენათმეცნიერ დევიდ ტალბოტთან.

ამჟამად, ახალი თარგმანის ტექნოლოგია ხელმისაწვდომია მხოლოდ ინგლისურიდან რუსულზე თარგმნისას (კომპანიის მიხედვით, ეს არის ყველაზე პოპულარული თარგმანის მიმართულება). სისტემასთან მუშაობისას მომხმარებელს შეუძლია გადაერთოს თარგმანის ორ მოდელს შორის (ძველი სტატისტიკური და ახალი ჰიბრიდი) და შეადაროს ძველი და ახალი ვერსიების თარგმანი. უახლოეს თვეებში, Translator-ის დეველოპერები გვპირდებიან, რომ თარგმანის სხვა სფეროებსაც შეიცავენ.

Yandex.Translate-ის ახალ ვერსიაში გამოყენებული სხვადასხვა მოდელების თარგმნის მაგალითები

ნერვული ქსელების გამოყენებით მანქანური თარგმნა დიდი გზა გაიარა ამ თემაზე პირველი სამეცნიერო კვლევის შემდეგ და იმ მომენტამდე, სანამ Google-მა გამოაცხადა Google Translate სერვისის სრული გადაცემა ღრმა სწავლებამდე.

მოგეხსენებათ, ნერვული თარჯიმანი ეფუძნება ორმხრივი განმეორებადი ნერვული ქსელების მექანიზმს (Bidirectional Recurrent Neural Networks), რომელიც აგებულია მატრიცის გამოთვლებზე, რაც საშუალებას გაძლევთ შექმნათ მნიშვნელოვნად უფრო რთული ალბათური მოდელები, ვიდრე სტატისტიკური მანქანური მთარგმნელები. თუმცა, ყოველთვის ითვლებოდა, რომ ნერვული თარგმანი, ისევე როგორც სტატისტიკური თარგმანი, სწავლისთვის მოითხოვს ორ ენაზე ტექსტების პარალელურ კორპუსებს. ამ კორპუსებზე გაწვრთნილი ხდება ნერვული ქსელი, რომელიც აღწერს ადამიანის თარგმანს.

როგორც ახლა გაირკვა, ნერვულ ქსელებს შეუძლიათ დაეუფლონ თარგმანის ახალ ენას ტექსტების პარალელური კორპუსის გარეშეც! წინასწარი ბეჭდვის საიტმა arXiv.org ამ თემაზე ერთდროულად ორი ნაშრომი გამოაქვეყნა.

„წარმოიდგინეთ, რომ ადამიანს აძლევთ უამრავ ჩინურ წიგნს და ბევრ არაბულ წიგნს - არცერთი მათგანი არ არის იგივე - და ეს ადამიანი გაწვრთნილი აქვს ჩინურიდან არაბულად თარგმნას. შეუძლებელი ჩანს, არა? მაგრამ ჩვენ ვაჩვენეთ, რომ კომპიუტერს შეუძლია ამის გაკეთება“, - ამბობს მიკელ არტექსე, კომპიუტერის მეცნიერი ბასკეთის უნივერსიტეტის სან სებასტიანში (ესპანეთი).

მანქანური თარგმანის ნერვული ქსელების უმეტესობა გაწვრთნილია „მასწავლებელთან“, რომლის როლი მხოლოდ პიროვნების მიერ თარგმნილი ტექსტების პარალელური კორპუსია. სწავლის პროცესში, უხეშად რომ ვთქვათ, ნერვული ქსელი აკეთებს ვარაუდს, ამოწმებს სტანდარტით და აკეთებს საჭირო კორექტირებას თავის სისტემებში, შემდეგ კი სწავლობს შემდგომს. პრობლემა ის არის, რომ მსოფლიოში ზოგიერთი ენისთვის არ არის დიდი რაოდენობით პარალელური ტექსტები, ამიტომ ისინი არ არის ხელმისაწვდომი ტრადიციული მანქანური თარგმანის ნერვული ქსელებისთვის.

Google Neural Machine Translation (GNMT) ნერვული ქსელის "უნივერსალური ენა". მარცხენა ილუსტრაციაში, თითოეული სიტყვის მნიშვნელობის მტევანი ნაჩვენებია სხვადასხვა ფერებში, ქვედა მარჯვენაში - მისთვის მიღებული სიტყვის მნიშვნელობები სხვადასხვა ადამიანის ენებიდან: ინგლისური, კორეული და იაპონური.

თითოეული ენისთვის გიგანტური "ატლასის" შედგენის შემდეგ, სისტემა ცდილობს ერთი ასეთი ატლასის მეორეზე გადაფარვას - და აი, თქვენ გაქვთ რაღაც პარალელური ტექსტის კორპუსი მზად!

შესაძლებელია ორი შემოთავაზებული უკონტროლო სასწავლო არქიტექტურის სქემების შედარება.

შემოთავაზებული სისტემის არქიტექტურა. L1 ენაზე თითოეული წინადადებისთვის სისტემა სწავლობს ორი საფეხურის მონაცვლეობას: 1) ხმაურის ჩახშობა(denoising), რომელიც ოპტიმიზირებს წინადადების ხმაურიანი ვერსიის საერთო ენკოდერით კოდირების და L1 დეკოდერის მიერ მისი რეკონსტრუქციის ალბათობას; 2) საპირისპირო თარგმანი(უკანა თარგმანი) როდესაც წინადადება ითარგმნება გამომავალ რეჟიმში (ანუ დაშიფრულია საერთო ენკოდერით და გაშიფრულია L2 დეკოდერით), შემდეგ კი ამ ნათარგმნი წინადადების საერთო ენკოდერით დაშიფვრის და ორიგინალური წინადადების აღდგენის ალბათობა L1 დეკოდერით. ოპტიმიზებულია. ილუსტრაცია: Michela Artetxe et al.

სისტემის შემოთავაზებული არქიტექტურა და სასწავლო მიზნები (მეორე სამეცნიერო ნაშრომიდან). არქიტექტურა არის წინადადება-წინადადების თარგმანის მოდელი, სადაც ორივე ენკოდერი და დეკოდერი მუშაობს ორ ენაზე, რაც დამოკიდებულია შეყვანის ენის იდენტიფიკატორზე, რომელიც ცვლის საძიებო ცხრილებს. ზედა (ავტოკოდირება): მოდელი გაწვრთნილია თითოეულ დომენში დენოიზირების შესასრულებლად. ქვედა (თარგმანი): როგორც ადრე, პლუს ჩვენ ვშიფრავთ სხვა ენიდან, შეყვანის სახით ვიყენებთ წინა გამეორებაში მოდელის მიერ წარმოებულ თარგმანს (ლურჯი ყუთი). მწვანე ელიფსები მიუთითებს ტერმინებს დაკარგვის ფუნქციაში. ილუსტრაცია: გიომ ლამპლი და სხვ.

ორივე ნაშრომი იყენებს საოცრად მსგავს მეთოდოლოგიას მცირე განსხვავებებით. მაგრამ ორივე შემთხვევაში თარგმნა ხდება რაიმე შუალედური „ენის“ ან, უკეთ რომ ვთქვათ, შუალედური განზომილების ან სივრცის მეშვეობით. ჯერჯერობით, ნერვული ქსელები მასწავლებლის გარეშე არ აჩვენებენ თარგმანის ძალიან მაღალ ხარისხს, მაგრამ ავტორები ამბობენ, რომ მისი გაუმჯობესება ადვილია, თუ მასწავლებლის მცირე დახმარებას გამოიყენებთ, ახლახან, საქმის სიწმინდისთვის. ექსპერიმენტი, ეს არ გაკეთებულა.

2018 წლის სასწავლო რეპრეზენტაციების საერთაშორისო კონფერენციისთვის წარმოდგენილი ნაშრომები. არცერთი სტატია ჯერ არ გამოქვეყნებულა სამეცნიერო პრესაში.