Yandex орчуулагч мэдрэлийн сүлжээ. Yandex.Translate-д уран зөгнөлт мэдрэлийн сүлжээг суурилуулсан. Yandex.Translate гэж юу вэ

Yandex.Translate үйлчилгээ нь текстийг орчуулахдаа мэдрэлийн сүлжээний технологийг ашиглаж эхэлсэн нь орчуулгын чанарыг сайжруулдаг гэж Yandex-ийн сайт мэдээлэв.

Хавчуурга руу

Энэхүү үйлчилгээ нь эрлийз систем дээр ажилладаг гэж Yandex тайлбарлав: Орчуулагч дээр ажиллаж эхэлснээс хойш статистикийн загварт мэдрэлийн сүлжээ ашиглан орчуулах технологи нэмэгдсэн.

“Статистикийн орчуулагчаас ялгаатай нь мэдрэлийн сүлжээ нь текстийг тусдаа үг, хэллэг болгон задалдаггүй. Энэ нь өгүүлбэрийг бүхэлд нь оруулга болгон хүлээн авч, орчуулгыг нь гаргадаг "гэж компанийн төлөөлөгч тайлбарлав. Түүний хэлснээр, энэ арга нь орчуулсан текстийн агуулгыг харгалзан үзэх, утгыг илүү сайн дамжуулах боломжийг олгодог.

Статистикийн загвар нь эргээд Yandex-д онцолсон ховор үг, хэллэгийг илүү сайн даван туулдаг. "Хэрэв өгүүлбэрийн утга тодорхойгүй бол мэдрэлийн сүлжээ яаж үүнийг хийж чадна гэж тэр төсөөлдөггүй" гэж компани онцлон тэмдэглэв.

Орчуулахдаа үйлчилгээ нь хоёр загварыг ашигладаг бөгөөд дараа нь машин сургалтын алгоритм нь үр дүнг харьцуулж, хамгийн сайн сонголтыг санал болгодог. "Эрлийз систем нь арга тус бүрээс хамгийн сайныг нь авч, орчуулгын чанарыг сайжруулах боломжийг олгодог" гэж Yandex-д хэлэв.

9-р сарын 14-ний өдрийн цагаар Орчуулагчийн вэб хувилбарт шилжүүлэгч гарч ирэх бөгөөд та эрлийз болон статистик загвараар хийсэн орчуулгыг харьцуулах боломжтой. Үүний зэрэгцээ заримдаа үйлчилгээ нь текстийг өөрчлөхгүй байж магадгүй гэж компани тэмдэглэв: "Энэ нь эрлийз загвар нь статистик орчуулгыг илүү сайн гэж шийдсэн гэсэн үг юм."

Орчин үеийн интернетэд 630 сая гаруй сайт байдаг ч тэдний дөнгөж 6% нь орос хэл дээрх контентыг агуулдаг. Хэлний бэрхшээл нь сүлжээний хэрэглэгчдийн дунд мэдлэг түгээх гол асуудал бөгөөд үүнийг зөвхөн гадаад хэл заах бус хөтөч дээр автомат машин орчуулга ашиглах замаар шийдвэрлэх ёстой гэж бид үзэж байна.

Өнөөдөр бид Хабрын уншигчдад Yandex.Browser орчуулагчийн технологийн хоёр чухал өөрчлөлтийн талаар ярих болно. Нэгдүгээрт, сонгосон үг, хэллэгийн орчуулгад эрлийз загварыг ашиглаж байгаа бөгөөд энэ арга нь зөвхөн мэдрэлийн сүлжээг ашиглахаас юугаараа ялгаатай болохыг бид эргэн санах болно. Хоёрдугаарт, орчуулагчийн мэдрэлийн сүлжээнүүд вэб хуудасны бүтцийг харгалзан үздэг бөгөөд тэдгээрийн онцлог шинж чанаруудын талаар бид мөн хэсэгчлэн ярих болно.

Үг, хэллэгийн эрлийз орчуулагч

Анхны машин орчуулгын системүүд дээр суурилсан толь бичиг, дүрэм(үнэндээ гараар бичсэн тогтмол хэллэгүүд) нь орчуулгын чанарыг тодорхойлсон. Мэргэжлийн хэл шинжлэлийн мэргэжилтнүүд олон жилийн турш илүү нарийвчилсан гарын авлагын дүрмийг боловсруулахаар ажиллаж байна. Ажил нь маш их хөдөлмөрлөдөг байсан тул зөвхөн хамгийн алдартай хос хэл дээр л нухацтай анхаарал хандуулсан боловч тэдгээрийн дотор машинууд муу ажиллаж байв. Амьд хэл бол дүрэм журмыг сайн дагаж мөрддөггүй маш нарийн төвөгтэй систем юм. Хоёр хэлний тохирох дүрмийг тайлбарлах нь бүр ч хэцүү байдаг.

Машин нь өөрчлөгдөж буй нөхцөл байдалд байнга дасан зохицох цорын ганц арга зам бол олон тооны зэрэгцээ бичвэрүүдээс бие даан суралцах явдал юм (утга нь ижил боловч өөр хэл дээр бичигдсэн). Энэ бол машин орчуулгын статистик арга юм. Компьютер зэрэгцээ текстүүдийг харьцуулж, хэв маягийг бие даан тодорхойлдог.

At статистикийн орчуулагчдавуу болон сул тал аль аль нь байдаг. Нэг талаараа ховор, ээдрээтэй үг хэллэгийг сайн санадаг. Хэрэв тэд зэрэгцээ бичвэрүүд дээр уулзсан бол орчуулагч тэдгээрийг санаж, зөв ​​орчуулах болно. Нөгөөтэйгүүр, орчуулгын үр дүн нь дууссан оньсоготой төстэй байж болно: ерөнхий зураг нь тодорхой харагдаж байгаа боловч сайн ажиглавал энэ нь тусдаа хэсгүүдээс бүрдсэн болохыг харж болно. Шалтгаан нь орчуулагч бие даасан үгсийг таних тэмдэг болгон өгдөг бөгөөд энэ нь тэдгээрийн хоорондын харилцааг ямар ч байдлаар тусгадаггүй. Энэ нь хүмүүсийн хэл яриаг хэрхэн хүлээж авах, үг хэллэгийг хэрхэн ашиглаж байгаа, бусад үгтэй хэрхэн холбогдож, ялгах зэргээр тодорхойлогддогтой таарахгүй.

Энэ асуудлыг шийдвэрлэхэд тусалдаг мэдрэлийн сүлжээнүүд. Мэдрэлийн машины орчуулгад ашигладаг үг оруулах нь ихэвчлэн үг бүрийг хэдэн зуун тооны урттай векторт буулгадаг. Векторууд нь статистикийн хандлагын энгийн танигчаас ялгаатай нь мэдрэлийн сүлжээг сургах үед үүсдэг бөгөөд үгсийн хоорондын хамаарлыг харгалзан үздэг. Жишээ нь, загвар нь "цай" болон "кофе" нь ихэвчлэн ижил төстэй контекст дээр гардаг тул эдгээр үг хоёулаа "асгарах" гэсэн шинэ үгийн хүрээнд боломжтой байх ёстой гэдгийг ойлгож магадгүй. сургалтын өгөгдөл.

Гэсэн хэдий ч вектор дүрслэлийг сурах үйл явц нь жишээнүүдийг цээжлэхээс илүү статистик шаарддаг. Нэмж дурдахад сүлжээнд тохирох вектор дүрслэлийг бий болгоход хангалттай давтамжтай байдаггүй тэдгээр ховор оролтын үгсийг яах нь тодорхойгүй байна. Энэ тохиолдолд хоёр аргыг хослуулах нь логик юм.

Өнгөрсөн жилээс Yandex.Translate-г ашиглаж байна эрлийз загвар. Орчуулагч нь хэрэглэгчээс текстийг хүлээн авахдаа үүнийг мэдрэлийн сүлжээ болон статистикийн орчуулагчийн аль алинд нь орчуулахаар илгээдэг. Дараа нь сурах аргад суурилсан алгоритм нь аль орчуулга илүү сайн болохыг үнэлдэг. Дүгнэлт хийхдээ өгүүлбэрийн уртаас (богино хэллэгийг статистик загвараар илүү сайн орчуулсан) синтакс хүртэл олон арван хүчин зүйлийг харгалзан үздэг. Хамгийн сайн гэж хүлээн зөвшөөрөгдсөн орчуулгыг хэрэглэгчдэд харуулна.

Энэ бол одоо Yandex.Browser-д хэрэглэгчид орчуулга хийхдээ тухайн хуудаснаас тодорхой үг, хэллэг сонгоход хэрэглэгддэг эрлийз загвар юм.

Энэ горим нь ялангуяа гадаад хэлний ерөнхий мэдлэгтэй, зөвхөн үл мэдэгдэх үгсийг орчуулахыг хүсдэг хүмүүст тохиромжтой. Жишээлбэл, хэрэв та ердийн англи хэлний оронд хятад хэлтэй танилцвал хуудасны орчуулагчгүйгээр хийхэд хэцүү байх болно. Ялгаа нь зөвхөн орчуулсан текстийн хэмжээгээр л байгаа юм шиг санагддаг, гэхдээ бүх зүйл тийм ч энгийн биш юм.

Мэдрэлийн сүлжээний вэб хуудасны орчуулагч

Жоржтауны туршилтаас эхлээд бараг өнөөдрийг хүртэл бүх машин орчуулгын системийг эх текстийн өгүүлбэр бүрийг тусад нь орчуулж сургасан. Вэб хуудас нь зөвхөн өгүүлбэрийн багц биш, харин үндсэндээ өөр өөр элементүүдийг агуулсан бүтэцтэй текст юм. Ихэнх хуудасны үндсэн элементүүдийг анхаарч үзээрэй.

толгой. Ихэвчлэн хуудас руу ороход бид шууд харагддаг тод, том текст. Гарчиг нь ихэвчлэн мэдээний мөн чанарыг агуулсан байдаг тул үүнийг зөв орчуулах нь чухал юм. Гэхдээ үүнийг хийхэд хэцүү, учир нь гарчиг дахь текст нь жижиг бөгөөд контекстийг ойлгохгүй бол алдаа гаргаж болно. Англи хэлний гарчиг нь ихэвчлэн уламжлалт бус дүрэмтэй хэллэг, үл тоомсорлох, тэр ч байтугай үйл үгийг алгасах хэллэг агуулсан байдаг тул англи хэлний хувьд бүх зүйл илүү төвөгтэй байдаг. Жишээлбэл, Game of Thrones киноны өмнөх киног зарлалаа.

Навигац. Сайтыг чиглүүлэхэд бидэнд туслах үг, хэллэгүүд. Жишээлбэл, Гэр, Буцахболон Миний данс"Нүүр хуудас", "Буцах", "Миний данс" гэж орчуулах нь утгагүй бөгөөд хэрэв тэдгээр нь нийтлэлийн текстэнд биш харин сайтын цэсэнд байрладаг.

Үндсэн текст. Түүнтэй хамт бүх зүйл илүү хялбар байдаг, тэр бидний номноос олж болох ердийн текст, өгүүлбэрүүдээс бага зэрэг ялгаатай. Гэхдээ энд ч гэсэн орчуулгын тууштай байдлыг хангах, өөрөөр хэлбэл ижил нэр томьёо, ойлголтыг нэг вэб хуудсанд ижил аргаар орчуулах нь чухал юм.

Вэб хуудсыг өндөр чанартай орчуулахын тулд мэдрэлийн сүлжээ эсвэл эрлийз загвар ашиглах нь хангалтгүй - хуудасны бүтцийг харгалзан үзэх шаардлагатай. Үүний тулд бид маш их технологийн бэрхшээлийг даван туулах шаардлагатай болсон.

Текстийн сегментүүдийн ангилал. Үүнийг хийхийн тулд бид CatBoost ба хүчин зүйлсийг текст өөрөө болон баримт бичгийн HTML тэмдэглэгээ (шошго, текстийн хэмжээ, текстийн нэгж дэх холбоосын тоо, ...) дээр үндэслэн дахин ашигладаг. Хүчин зүйлүүд нь нэлээд ялгаатай тул CatBoost (градиентийг нэмэгдүүлэхэд үндэслэсэн) хамгийн сайн үр дүнг харуулдаг (ангиллын нарийвчлал 95% -иас дээш). Гэхдээ сегментийн ангилал нь дангаараа хангалтгүй юм.

Өгөгдлийн хазайлт. Уламжлал ёсоор Yandex.Translate алгоритмуудыг интернетээс текст дээр сургадаг. Энэ нь вэб хуудасны орчуулагчийг сургах хамгийн тохиромжтой шийдэл юм шиг санагдаж байна (өөрөөр хэлбэл сүлжээ нь бидний ашиглах гэж буй тексттэй ижил шинж чанартай текстээс суралцдаг). Гэхдээ бид өөр өөр сегментүүдийг бие биенээсээ салгаж сурмагцаа нэгэн сонирхолтой шинж чанарыг олж мэдсэн. Дунджаар вэбсайт дээрх нийт текстийн 85 орчим хувийг контент эзэлдэг бөгөөд гарчиг, навигаци тус бүр нь ердөө 7.5 хувийг эзэлдэг. Гарчиг болон навигацийн элементүүд нь бусад текстээс хэв маяг, дүрмийн хувьд эрс ялгаатай гэдгийг санаарай. Эдгээр хоёр хүчин зүйл нь өгөгдлийн гажуудал үүсэхэд хүргэдэг. Сургалтын түүвэрт маш муу төлөөлөлтэй эдгээр сегментүүдийн онцлогийг үл тоомсорлох нь мэдрэлийн сүлжээний хувьд илүү ашигтай байдаг. Сүлжээ нь зөвхөн үндсэн текстийг сайн орчуулж сурдаг бөгөөд энэ нь гарчиг, навигацийн орчуулгын чанараас болж зовж шаналж байна. Энэхүү таагүй нөлөөг саармагжуулахын тулд бид хоёр зүйлийг хийсэн: бид гурван төрлийн сегментийн аль нэгийг (агуулга, гарчиг эсвэл навигаци) зэрэгцээ өгүүлбэр бүрт мета мэдээлэл болгон хуваарилж, сургалтын корпус дахь сүүлийн хоёрын концентрацийг зохиомлоор нэмэгдүүлсэн. Сургалтын мэдрэлийн сүлжээнд ижил төстэй жишээг илүү олон удаа үзүүлж эхэлсэнтэй холбоотой 33% хүртэл.

Олон даалгаварт суралцах. Одоо бид вэб хуудсууд дээрх текстүүдийг гурван ангиллын сегмент болгон хуваах боломжтой болсон тул тус бүр нь өөр төрлийн текстийн орчуулгыг даван туулах гурван тусдаа загварыг сургах нь байгалийн санаа мэт санагдаж магадгүй юм - гарчиг, навигаци эсвэл агуулга. Энэ нь үнэхээр сайн ажилладаг, гэхдээ бид бүх төрлийн текстийг нэг дор орчуулах нэг мэдрэлийн сүлжээг сургадаг схем нь илүү сайн ажилладаг. Ойлгох гол түлхүүр нь олон үүрэгт суралцах (MTL) санаанд оршдог: хэрвээ машин сургалтын хэд хэдэн даалгавруудын хооронд дотоод холболт байгаа бол эдгээр ажлыг нэгэн зэрэг шийдэж сурсан загвар нь даалгавар бүрийг илүү сайн шийдэж сурах боломжтой. нарийн мэргэжлийн загвараас илүү!

нарийн тааруулах. Бид аль хэдийн маш сайн машин орчуулгатай байсан тул Yandex.Browser-ийн шинэ орчуулагчийг эхнээс нь сургах нь үндэслэлгүй юм. Энгийн текстийг орчуулах үндсэн системийг авч, вэб хуудастай ажиллахад сургах нь илүү логик юм. Мэдрэлийн сүлжээний хувьд үүнийг нарийн тааруулах гэж ихэвчлэн нэрлэдэг. Гэхдээ хэрэв бид энэ асуудалд шууд хандах юм бол, өөрөөр хэлбэл. Мэдрэлийн сүлжээний жинг бэлэн загвараас авсан утгуудаар эхлүүлж, шинэ өгөгдлөөс суралцаж эхэлснээр та домэйн шилжилтийн эффекттэй тулгарч магадгүй юм: сурах тусам вэб хуудасны орчуулгын чанар (домайн доторх) нэмэгдэх болно. гэхдээ энгийн (домэйноос гадуур) текстийн орчуулгын чанар буурах болно. Энэхүү таагүй шинж чанараас ангижрахын тулд нэмэлт сургалтын үеэр бид мэдрэлийн сүлжээнд нэмэлт хязгаарлалт тавьж, анхны төлөвтэй харьцуулахад жингээ хэт их өөрчлөхийг хориглодог.

Математикийн хувьд энэ нь алдагдлын функцэд (алдагдлын функц) нэр томьёо нэмэх замаар илэрхийлэгддэг бөгөөд энэ нь анхны болон дахин бэлтгэгдсэн сүлжээнээс гаргасан дараагийн үгийг үүсгэх магадлалын хуваарилалтын хоорондох Куллбэк-Лейблерийн зай (KL-дивергенц) юм. Дүрслэлээс харахад вэб хуудасны орчуулгын чанар сайжирснаар энгийн текстийн орчуулгыг доройтуулахаа больсон.

Навигацийн давтамжийн хэллэгийг өнгөлөх. Шинэ орчуулагч дээр ажиллах явцад бид вэб хуудасны янз бүрийн сегментүүдийн текстийн статистик мэдээллийг цуглуулж, сонирхолтой зүйлийг олж харлаа. Навигацийн элементүүдтэй холбоотой бичвэрүүд нь нэлээд стандартчилагдсан байдаг тул тэдгээр нь ихэвчлэн ижил төстэй хэллэгүүдийг төлөөлдөг. Энэ бол маш хүчтэй нөлөө бөгөөд интернетээс олдсон бүх навигацийн хэллэгүүдийн талаас илүү хувь нь хамгийн түгээмэл хэрэглэгддэг 2000-д л байдаг.

Мэдээжийн хэрэг, бид үүнийг далимдуулан, чанарт нь бүрэн итгэлтэй байхын тулд хамгийн олон мянган хэллэг, тэдгээрийн орчуулгыг орчуулагчдаа шалгуулахаар өгсөн.

Гадаад тохируулга. Хөтөч дэх вэб хуудасны орчуулагчийн өөр нэг чухал шаардлага байсан - энэ нь тэмдэглэгээг гажуудуулах ёсгүй. HTML хаягуудыг өгүүлбэрээс гадуур эсвэл тэдгээрийн хил хязгаарт байрлуулах үед ямар ч асуудал гарахгүй. Гэхдээ хэрэв өгүүлбэр дотор жишээлбэл, хоёр доогуур зурсанүгс, дараа нь орчуулгад бид "хоёр доогуур зурсанүг". Тэдгээр. Шилжүүлгийн үр дүнд хоёр нөхцөл хангагдсан байх ёстой.

  1. Орчуулга дахь доогуур зураастай хэсэг нь эх бичвэрийн доогуур зураастай хэсэгтэй яг тохирч байх ёстой.
  2. Доор зурсан фрагментийн хил дэх орчуулгын тууштай байдлыг зөрчиж болохгүй.
Энэ зан үйлийг хангахын тулд бид эхлээд текстийг ердийнхөөрөө орчуулж, дараа нь статистикийн үг бүрээр зэрэгцүүлэх загваруудыг ашиглан эх сурвалж болон орчуулагдсан текстийн хэсгүүдийн хоорондын захидал харилцааг тодорхойлдог. Энэ нь юун доогуур зураастай болохыг ойлгоход тусална (налуу, гипер холбоос, ...).

Уулзвар ажиглагч. Бидний бэлтгэсэн мэдрэлийн сүлжээний орчуулгын хүчирхэг загварууд нь өмнөх үеийн статистик загваруудаас манай серверүүд (CPU болон GPU хоёулаа) илүү их тооцоолох нөөц шаарддаг. Үүний зэрэгцээ хэрэглэгчид хуудсуудыг үргэлж дуустал уншдаггүй тул вэб хуудсын бүх текстийг үүлэн рүү илгээх нь илүүц мэт санагддаг. Серверийн нөөц болон хэрэглэгчийн урсгалыг хэмнэхийн тулд бид Translator програмыг ашиглахыг зааж өгсөн

Хайлтын системээр индексжүүлсэн вэбсайтууд нь хагас тэрбум гаруй хувьтай байдаг бөгөөд нийт вэб хуудасны тоо хэдэн арван мянга дахин их байдаг. Орос хэл дээрх контент нийт интернетийн 6 хувийг эзэлдэг.

Зохиогчийн зорьсон утгыг хадгалахын тулд хүссэн текстээ хэрхэн хурдан, орчуулах вэ. Статистикийн агуулгын орчуулгын модулиудын хуучин аргууд нь маш эргэлзээтэй ажилладаг, учир нь үгийн бууралт, цаг хугацаа гэх мэтийг нарийн тодорхойлох боломжгүй юм. Үгсийн мөн чанар, тэдгээрийн хоорондын холбоо нь нарийн төвөгтэй байдаг нь заримдаа үр дүнг маш ер бусын харагдуулдаг.

Одоо Yandex автомат машин орчуулгыг ашигладаг бөгөөд энэ нь эцсийн текстийн чанарыг нэмэгдүүлэх болно. Та хөтчийн хамгийн сүүлийн үеийн албан ёсны хувилбарыг шинэ орчуулгатай татаж авах боломжтой.

Үг хэллэг, үгсийн эрлийз орчуулга

Yandex хөтөч нь хуудсыг бүхэлд нь, мөн үг, хэллэгийг тусад нь орчуулж чаддаг цорын ганц хөтөч юм. Энэ функц нь гадаад хэлээр ярьдаг ч заримдаа орчуулгын бэрхшээлтэй тулгардаг хэрэглэгчдэд маш их хэрэгтэй болно.

Үг орчуулах механизмд баригдсан мэдрэлийн сүлжээ нь тавьсан даалгавруудыг үргэлж даван туулж чаддаггүй, учир нь ховор үгсийг текстэд оруулах, уншихад хялбар болгоход маш хэцүү байсан. Одоо хуучин технологи, шинэ технологийг ашиглан эрлийз аргыг хэрэглээнд суулгасан.

Механизм нь дараах байдалтай байна: програм нь сонгосон өгүүлбэр эсвэл үгсийг хүлээн авч, дараа нь мэдрэлийн сүлжээний модуль болон статистикийн орчуулагчийн аль алинд нь өгдөг бөгөөд суурилуулсан алгоритм нь аль үр дүн илүү сайн болохыг тодорхойлж, дараа нь хэрэглэгчдэд өгдөг.

Мэдрэлийн сүлжээний орчуулагч

Гадаад контент нь маш тодорхой байдлаар хийгдсэн байдаг:

  • гарчиг дахь үгсийн эхний үсгийг томоор бичсэн;
  • өгүүлбэрийг хялбаршуулсан дүрмийн дагуу бүтээсэн, зарим үгийг орхигдуулсан.

Вэбсайтуудын навигацийн цэсийг буцах биш буцах (буцах) гэж зөв орчуулсан гэх мэт байршлаас хамааран задлан шинжилдэг.

Дээр дурдсан бүх боломжуудыг харгалзан үзэхийн тулд хөгжүүлэгчид асар их хэмжээний текст өгөгдлийг ашигладаг мэдрэлийн сүлжээг нэмж сургасан. Одоо орчуулгын чанарт агуулгын байршил, түүний дизайн нөлөөлж байна.

Хэрэглэсэн орчуулгын үр дүн

Орчуулгын чанарыг машин болон мэргэжлийн орчуулгыг харьцуулдаг BLEU* алгоритмаар хэмжиж болно. Чанарын хуваарь 0-ээс 100% хүртэл.

Мэдрэлийн орчуулга хэдий чинээ сайн байна төдий чинээ өндөр хувьтай байна. Энэ алгоритмын дагуу Yandex хөтөч 1.7 дахин сайн орчуулж эхэлсэн.

Yandex орчуулагчийн шинэ хувилбарыг гаргалаа. Орчуулга дээр одоо эрлийз систем ажиллах болно: орчуулагч өмнө нь хэрэглэж байсан статистик загвараас гадна мэдрэлийн сүлжээг ашиглах болно. Энэ тухай тус компанийн блогт мэдээлсэн байна.

Машин орчуулга хийх хэд хэдэн арга байдаг. Эхний, хамгийн түгээмэл арга бол статистик юм. Ийм машины орчуулга нь параллель корпусаас олж авсан асар их хэмжээний мэдээллийг (өөр өөр хэл дээрх ижил бичвэрүүд) цээжлэхэд суурилдаг: эдгээр нь нэг үг эсвэл дүрмийн дүрэм байж болно. Гэсэн хэдий ч энэ арга нь маш чухал сул талтай: статистикийн машин орчуулга нь мэдээллийг санаж байдаг боловч үүнийг ойлгодоггүй тул ийм орчуулга нь дүрмийн хувьд тийм ч зөв биш, нэг текст болгон цуглуулсан олон янзын зөв орчуулагдсан хэсгүүд шиг харагддаг. семантик ачаалал.

Хоёрдахь арга бол мэдрэлийн сүлжээ юм. Энэ нь бие даасан үг хэллэгийг бус, бүхэл бүтэн өгүүлбэрийн орчуулгад үндэслэсэн бөгөөд дүрмийн хувьд орчуулгын хамгийн сайн чанарт хүрэхийн зэрэгцээ утгыг хадгалахад гол зорилго юм. Ийм орчуулгын технологи нь түүний сурах явцад сурсан хэлний мэдлэгээ хадгалах боломжтой бөгөөд энэ нь жишээлбэл, гэрээ хэлэлцээрийн алдааг даван туулах боломжийг олгодог. Мэдрэлийн машины орчуулга нь харьцангуй шинэ арга боловч энэ нь аль хэдийн батлагдсан: Google Translate мэдрэлийн сүлжээний тусламжтайгаар орчуулгын дээд амжилтыг тогтоож чадсан.

Өнөөдрөөс эхлэн Yandex.Translate нь гибрид систем дээр суурилж байна. Ийм системд өмнө нь үйлчилгээний ашиглаж байсан статистик орчуулга, мэдрэлийн сүлжээний үйл ажиллагаанд суурилсан орчуулга орно. CatBoost (Yandex-ийн боловсруулсан машин сургалтын систем) дээр суурилсан тусгай ангилагч алгоритм нь орчуулгын хоёр хувилбараас (статистикийн болон мэдрэлийн) хамгийн сайныг нь сонгож, хэрэглэгчдэд өгдөг.

Yandex.Translate-ийн шинэ хувилбарын ажлын талаар дэлгэрэнгүй мэдээллийг тус үйлчилгээний тэргүүн, Британийн тооцооллын хэл судлаач Дэвид Талботтой хийсэн уулзалтаас унших боломжтой.

Одоогийн байдлаар орчуулгын шинэ технологийг зөвхөн англи хэлнээс орос хэл рүү орчуулах үед ашиглах боломжтой (компанийн үзэж байгаагаар энэ бол орчуулгын хамгийн түгээмэл чиглэл юм). Системтэй ажиллахдаа хэрэглэгч хоёр орчуулгын загвар (хуучин статистик болон шинэ эрлийз) хооронд шилжиж, хуучин болон шинэ хувилбаруудын орчуулгыг харьцуулах боломжтой. Ойрын саруудад Translator программыг хөгжүүлэгчид орчуулгын бусад чиглэлийг оруулахаа амлаж байна.


Yandex.Translate-ийн шинэ хувилбарт ашигласан өөр өөр загваруудын орчуулгын жишээ



Мэдрэлийн сүлжээг ашиглан машин орчуулга энэ сэдвээр анхны шинжлэх ухааны судалгаа хийснээс хойш Google нь Google Translate үйлчилгээг гүнзгий суралцахад бүрэн шилжүүлсэн тухай зарлах хүртэл маш их замыг туулсан.

Та бүхний мэдэж байгаагаар мэдрэлийн орчуулагч нь матрицын тооцоолол дээр бүтээгдсэн хоёр чиглэлтэй давтагдах мэдрэлийн сүлжээний механизм дээр суурилдаг бөгөөд энэ нь статистикийн машин орчуулагчдаас хамаагүй илүү төвөгтэй магадлалын загваруудыг бий болгох боломжийг олгодог. Гэсэн хэдий ч мэдрэлийн орчуулга нь статистик орчуулгын нэгэн адил суралцахын тулд хоёр хэл дээрх зэрэгцээ текстийг шаарддаг гэж үргэлж үздэг. Хүний орчуулгыг лавлагаа болгон авч, эдгээр корпус дээр мэдрэлийн сүлжээг сургадаг.

Мэдрэлийн сүлжээнүүд нь текстийн зэрэгцээ корпусгүй ч гэсэн орчуулгын шинэ хэлийг эзэмших боломжтой болсон. Хэвлэлийн өмнөх arXiv.org сайт энэ сэдвээр нэгэн зэрэг хоёр нийтлэл нийтлэв.

"Та хүнд маш олон хятад ном, олон араб ном өгдөг - аль нь ч адилхан биш - энэ хүнийг хятад хэлнээс араб хэл рүү орчуулахад сургагдсан гэж төсөөлөөд үз дээ. Энэ нь боломжгүй юм шиг санагдаж байна, тийм үү? Гэхдээ бид компьютер үүнийг хийж чадна гэдгийг харуулсан” гэж Сан Себастьян (Испани) дахь Баскийн улсын их сургуулийн компьютер судлаач Микел Артетсе хэлэв.

Ихэнх машин орчуулгын мэдрэлийн сүлжээг "багштай хамт" сургадаг бөгөөд түүний үүрэг нь зөвхөн хүний ​​орчуулсан текстийн зэрэгцээ корпус юм. Сургалтын явцад мэдрэлийн сүлжээ нь таамаглал дэвшүүлж, стандартыг шалгаж, системдээ шаардлагатай тохируулга хийж, дараа нь цааш суралцдаг. Асуудал нь дэлхийн зарим хэлний хувьд олон тооны зэрэгцээ текст байдаггүй тул уламжлалт машин орчуулгын мэдрэлийн сүлжээнд ашиглах боломжгүй байдаг.


Google Neural Machine Translation (GNMT) мэдрэлийн сүлжээний "бүх нийтийн хэл". Зүүн талын зурагт үг бүрийн утгын кластерийг өөр өөр өнгөөр, баруун доод талд англи, солонгос, япон хэлнээс хүний ​​өөр өөр хэлнээс олж авсан үгийн утгыг харуулсан болно.

Хэл бүрийн хувьд аварга том "атлас"-ыг эмхэтгэсний дараа систем нь нэг ийм атласыг нөгөө дээр нь давхарлахыг оролддог - тэгвэл танд ямар нэгэн зэрэгцээ текстийн корпус бэлэн боллоо!

Санал болгож буй хоёр хяналтгүй сургалтын архитектурын схемийг харьцуулах боломжтой.


Санал болгож буй системийн архитектур. L1 хэлний өгүүлбэр бүрийн хувьд систем нь хоёр үе шатыг ээлжлэн сурдаг: 1) дуу чимээ дарах(denoising), энэ нь нийтлэг кодлогчоор өгүүлбэрийн шуугиантай хувилбарыг кодчилох, L1 декодероор дахин бүтээх магадлалыг оновчтой болгодог; 2) урвуу орчуулга(буцах орчуулга) өгүүлбэрийг гаралтын горимд орчуулах үед (жишээ нь нийтлэг кодлогчоор кодлож, L2 декодчилогчоор тайлсан), дараа нь энэ орчуулсан өгүүлбэрийг нийтлэг кодлогчоор кодлож, L1 декодлогчоор эх өгүүлбэрийг сэргээх магадлал. оновчтой болсон. Зураг: Michela Artetxe et al.


Системийн санал болгож буй архитектур, сургалтын зорилтууд (шинжлэх ухааны хоёр дахь бүтээлээс). Архитектур нь хайлтын хүснэгтүүдийг солих оролтын хэлний танигчаас хамааран кодлогч болон декодлогч хоёулаа хоёр хэлээр ажилладаг өгүүлбэр өгүүлбэрээр орчуулах загвар юм. Топ (автокодлох): Загвар нь домэйн тус бүр дээр denoising хийхээр бэлтгэгдсэн. Доод тал (орчуулга): өмнөх шигээ, дээр нь бид өмнөх давталтын загвараар хийсэн орчуулгыг оролт болгон ашиглан өөр хэлнээс кодчилдог (цэнхэр хайрцаг). Ногоон эллипс нь алдагдлын функц дэх нөхцөлүүдийг заана. Зураг: Guillaume Lampl et al.

Хоёр баримт бичиг нь бага зэрэг ялгаатай, гайхалтай төстэй аргачлалыг ашигладаг. Гэхдээ энэ хоёр тохиолдолд орчуулга нь ямар нэгэн завсрын "хэл" эсвэл илүү сайнаар хэлбэл завсрын хэмжээс эсвэл орон зайгаар хийгддэг. Одоогийн байдлаар багшгүй мэдрэлийн сүлжээ нь орчуулгын маш өндөр чанарыг харуулахгүй байгаа ч зохиогчийн хэлснээр та багшийн багахан тусламжийг ашиглавал үүнийг сайжруулахад хялбар байдаг, яг одоо, цэвэр ариун байдлын үүднээс. туршилт, энэ нь хийгдээгүй.

2018 оны сургалтын төлөөллийн олон улсын хуралд ирүүлсэн илтгэлүүд. Шинжлэх ухааны хэвлэлд нийтлэгдсэн нийтлэлүүдийн аль нь ч хараахан гараагүй байна.