यांडेक्स अनुवादक तंत्रिका नेटवर्क। Yandex.Translate में एक फंतासी तंत्रिका नेटवर्क बनाया गया था। Yandex.Translate क्या है?

Yandex.Translate सेवा ने ग्रंथों का अनुवाद करते समय तंत्रिका नेटवर्क प्रौद्योगिकियों का उपयोग करना शुरू किया, जो अनुवाद की गुणवत्ता में सुधार करता है, यांडेक्स की साइट ने बताया।

बुकमार्क करने के लिए

सेवा एक संकर प्रणाली पर काम करती है, यांडेक्स ने समझाया: एक तंत्रिका नेटवर्क का उपयोग करने वाली अनुवाद तकनीक को सांख्यिकीय मॉडल में जोड़ा गया था जो लॉन्च के बाद से अनुवादक में काम कर रहा है।

"एक सांख्यिकीय अनुवादक के विपरीत, एक तंत्रिका नेटवर्क ग्रंथों को अलग-अलग शब्दों और वाक्यांशों में नहीं तोड़ता है। यह पूरे वाक्य को इनपुट के रूप में प्राप्त करता है और इसका अनुवाद जारी करता है, ”कंपनी के एक प्रतिनिधि ने समझाया। उनके अनुसार, यह दृष्टिकोण संदर्भ को ध्यान में रखते हुए और अनुवादित पाठ के अर्थ को बेहतर ढंग से व्यक्त करने की अनुमति देता है।

सांख्यिकीय मॉडल, बदले में, दुर्लभ शब्दों और वाक्यांशों के साथ बेहतर ढंग से मुकाबला करता है, जिसे यांडेक्स में जोर दिया गया है। "अगर वाक्य का अर्थ स्पष्ट नहीं है, तो वह कल्पना नहीं करती कि एक तंत्रिका नेटवर्क ऐसा कैसे कर सकता है," कंपनी ने कहा।

अनुवाद करते समय, सेवा दोनों मॉडलों का उपयोग करती है, फिर मशीन लर्निंग एल्गोरिदम परिणामों की तुलना करता है और अपनी राय में सबसे अच्छा विकल्प प्रदान करता है। "हाइब्रिड सिस्टम आपको प्रत्येक विधि से सर्वश्रेष्ठ लेने और अनुवाद की गुणवत्ता में सुधार करने की अनुमति देता है," वे यांडेक्स में कहते हैं।

14 सितंबर को दिन के दौरान, अनुवादक के वेब संस्करण में एक स्विच दिखाई देना चाहिए, जिसके साथ आप हाइब्रिड और सांख्यिकीय मॉडल द्वारा किए गए अनुवादों की तुलना कर सकते हैं। उसी समय, कभी-कभी सेवा ग्रंथों को नहीं बदल सकती है, कंपनी ने नोट किया: "इसका मतलब है कि हाइब्रिड मॉडल ने फैसला किया कि सांख्यिकीय अनुवाद बेहतर है।"

आधुनिक इंटरनेट पर 630 मिलियन से अधिक साइटें हैं, लेकिन उनमें से केवल 6% में रूसी भाषा की सामग्री है। भाषा बाधा नेटवर्क उपयोगकर्ताओं के बीच ज्ञान के प्रसार की मुख्य समस्या है, और हम मानते हैं कि इसे न केवल विदेशी भाषाओं को पढ़ाने से, बल्कि ब्राउज़र में स्वचालित मशीन अनुवाद का उपयोग करके भी हल किया जाना चाहिए।

आज हम Habr के पाठकों को Yandex.Browser अनुवादक में दो महत्वपूर्ण तकनीकी परिवर्तनों के बारे में बताएंगे। सबसे पहले, चयनित शब्दों और वाक्यांशों का अनुवाद अब एक संकर मॉडल का उपयोग करता है, और हम याद करेंगे कि यह दृष्टिकोण केवल तंत्रिका नेटवर्क का उपयोग करने से कैसे भिन्न होता है। दूसरे, अनुवादक के तंत्रिका नेटवर्क अब वेब पेजों की संरचना को ध्यान में रखते हैं, जिनकी विशेषताओं के बारे में हम कटौती के बारे में भी बात करेंगे।

शब्दों और वाक्यांशों का हाइब्रिड अनुवादक

पहली मशीनी अनुवाद प्रणाली पर आधारित थी शब्दकोश और नियम(वास्तव में, हस्तलिखित नियमित अभिव्यक्ति), जिसने अनुवाद की गुणवत्ता निर्धारित की। पेशेवर भाषाविद वर्षों से अधिक विस्तृत मैनुअल नियमों को विकसित करने के लिए काम कर रहे हैं। काम इतना श्रमसाध्य था कि केवल सबसे लोकप्रिय जोड़ियों पर ही गंभीरता से ध्यान दिया गया, लेकिन उनके भीतर भी मशीनों ने खराब प्रदर्शन किया। एक जीवित भाषा एक बहुत ही जटिल प्रणाली है जो नियमों का अच्छी तरह से पालन नहीं करती है। दो भाषाओं के मेल खाने वाले नियमों का वर्णन करना और भी कठिन है।

एक मशीन के लिए लगातार बदलती परिस्थितियों के अनुकूल होने का एकमात्र तरीका बड़ी संख्या में समानांतर ग्रंथों (अर्थ में समान, लेकिन विभिन्न भाषाओं में लिखा गया) से स्वयं सीखना है। यह मशीनी अनुवाद के लिए सांख्यिकीय दृष्टिकोण है। कंप्यूटर समानांतर ग्रंथों की तुलना करता है और स्वतंत्र रूप से पैटर्न की पहचान करता है।

पर सांख्यिकीय अनुवादकफायदे और नुकसान दोनों हैं। एक ओर, वह दुर्लभ और जटिल शब्दों और वाक्यांशों को अच्छी तरह से याद करता है। यदि वे समानांतर ग्रंथों में मिलते हैं, तो अनुवादक उन्हें याद रखेगा और सही ढंग से अनुवाद करना जारी रखेगा। दूसरी ओर, अनुवाद परिणाम एक पूर्ण पहेली के समान हो सकता है: समग्र चित्र स्पष्ट प्रतीत होता है, लेकिन यदि आप बारीकी से देखते हैं, तो आप देख सकते हैं कि यह अलग-अलग टुकड़ों से बना है। कारण यह है कि अनुवादक अलग-अलग शब्दों को पहचानकर्ता के रूप में प्रस्तुत करता है, जो किसी भी तरह से उनके बीच के संबंध को नहीं दर्शाता है। यह लोगों के भाषा को देखने के तरीके से मेल नहीं खाता है, जहां शब्दों को परिभाषित किया जाता है कि उनका उपयोग कैसे किया जाता है, वे कैसे संबंधित हैं और दूसरे शब्दों से अलग हैं।

इस समस्या को हल करने में मदद करता है तंत्रिका - तंत्र. शब्द एम्बेडिंग, तंत्रिका मशीन अनुवाद में उपयोग किया जाता है, आमतौर पर प्रत्येक शब्द को वेक्टर में कई सौ संख्या में मैप करता है। वेक्टर, सांख्यिकीय दृष्टिकोण से सरल पहचानकर्ताओं के विपरीत, तंत्रिका नेटवर्क को प्रशिक्षित करते समय और शब्दों के बीच संबंधों को ध्यान में रखते हुए बनते हैं। उदाहरण के लिए, मॉडल यह पहचान सकता है कि क्योंकि "चाय" और "कॉफी" अक्सर समान संदर्भों में दिखाई देते हैं, ये दोनों शब्द नए शब्द "स्पिल" के संदर्भ में संभव होने चाहिए, जो कहते हैं, उनमें से केवल एक का सामना करना पड़ा प्रशिक्षण डेटा।

हालांकि, सदिश निरूपण सीखने की प्रक्रिया स्पष्ट रूप से उदाहरणों के रटने की तुलना में सांख्यिकीय रूप से अधिक मांग वाली है। इसके अलावा, यह स्पष्ट नहीं है कि उन दुर्लभ इनपुट शब्दों का क्या किया जाए जो नेटवर्क के लिए उनके लिए स्वीकार्य वेक्टर प्रतिनिधित्व बनाने के लिए पर्याप्त नहीं हैं। इस स्थिति में, दोनों विधियों को संयोजित करना तर्कसंगत है।

पिछले साल से, Yandex.Translate का उपयोग कर रहा है संकर मॉडल. जब अनुवादक उपयोगकर्ता से पाठ प्राप्त करता है, तो वह इसे अनुवाद के लिए दोनों प्रणालियों - तंत्रिका नेटवर्क और सांख्यिकीय अनुवादक दोनों को भेजता है। फिर, सीखने की विधि पर आधारित एक एल्गोरिथम मूल्यांकन करता है कि कौन सा अनुवाद बेहतर है। ग्रेडिंग करते समय, दर्जनों कारकों को ध्यान में रखा जाता है - वाक्य की लंबाई से (छोटे वाक्यांशों का एक सांख्यिकीय मॉडल द्वारा बेहतर अनुवाद किया जाता है) से लेकर वाक्य रचना तक। सर्वश्रेष्ठ के रूप में पहचाना गया अनुवाद उपयोगकर्ता को दिखाया जाता है।

यह हाइब्रिड मॉडल है जो अब Yandex.Browser में उपयोग किया जाता है, जब उपयोगकर्ता अनुवाद के लिए पृष्ठ पर विशिष्ट शब्दों और वाक्यांशों का चयन करता है।

यह विधा उन लोगों के लिए विशेष रूप से सुविधाजनक है जिनके पास एक विदेशी भाषा की सामान्य कमान है और केवल अज्ञात शब्दों का अनुवाद करना चाहते हैं। लेकिन अगर, उदाहरण के लिए, सामान्य अंग्रेजी के बजाय, आप चीनी से मिलते हैं, तो पृष्ठ अनुवादक के बिना करना मुश्किल होगा। ऐसा लगता है कि अंतर केवल अनुवादित पाठ की मात्रा में है, लेकिन सब कुछ इतना आसान नहीं है।

तंत्रिका नेटवर्क वेब पेज अनुवादक

जॉर्ज टाउन प्रयोग के समय से लेकर लगभग आज तक, सभी मशीनी अनुवाद प्रणालियों को स्रोत पाठ के प्रत्येक वाक्य का अलग-अलग अनुवाद करने के लिए प्रशिक्षित किया गया है। जबकि एक वेब पेज केवल वाक्यों का एक समूह नहीं है, बल्कि एक संरचित पाठ है जिसमें मौलिक रूप से भिन्न तत्व होते हैं। अधिकांश पृष्ठों के मूल तत्वों पर विचार करें।

हैडर. आमतौर पर उज्ज्वल और बड़ा पाठ जो हम पृष्ठ में प्रवेश करते समय तुरंत देखते हैं। शीर्षक में अक्सर समाचार का सार होता है, इसलिए इसका सही अनुवाद करना महत्वपूर्ण है। लेकिन ऐसा करना मुश्किल है, क्योंकि शीर्षक में पाठ छोटा है और संदर्भ को समझे बिना आप गलती कर सकते हैं। अंग्रेजी के मामले में, चीजें और भी जटिल हैं, क्योंकि अंग्रेजी-भाषा की सुर्खियों में अक्सर गैर-पारंपरिक व्याकरण, infinitives, या यहां तक ​​​​कि क्रिया को छोड़कर वाक्यांश होते हैं। उदाहरण के लिए, गेम ऑफ थ्रोन्स के प्रीक्वल की घोषणा.

मार्गदर्शन. शब्द और वाक्यांश जो साइट को नेविगेट करने में हमारी सहायता करते हैं। उदाहरण के लिए, घर, पीछेतथा मेरा खातायह शायद ही "होम", "बैक" और "माई अकाउंट" के रूप में अनुवाद करने लायक है यदि वे साइट मेनू में स्थित हैं, न कि प्रकाशन के पाठ में।

मुख्य पाठ. उसके साथ सब कुछ आसान है, वह सामान्य ग्रंथों और वाक्यों से थोड़ा अलग है जो हम किताबों में पा सकते हैं। लेकिन यहां भी अनुवादों की निरंतरता सुनिश्चित करना महत्वपूर्ण है, अर्थात यह सुनिश्चित करना कि समान शब्दों और अवधारणाओं का एक ही वेब पेज के भीतर उसी तरह अनुवाद किया जाता है।

वेब पृष्ठों के उच्च-गुणवत्ता वाले अनुवाद के लिए, तंत्रिका नेटवर्क या हाइब्रिड मॉडल का उपयोग करना पर्याप्त नहीं है - पृष्ठों की संरचना को भी ध्यान में रखना आवश्यक है। और इसके लिए हमें काफी तकनीकी दिक्कतों का सामना करना पड़ा।

पाठ खंडों का वर्गीकरण. ऐसा करने के लिए, हम फिर से टेक्स्ट और दस्तावेज़ों के HTML मार्कअप (टैग, टेक्स्ट आकार, टेक्स्ट की प्रति यूनिट लिंक की संख्या, ...) के आधार पर कैटबॉस्ट और कारकों का उपयोग करते हैं। कारक काफी विषम हैं, इसलिए यह कैटबॉस्ट (ग्रेडिएंट बूस्टिंग पर आधारित) है जो सर्वोत्तम परिणाम दिखाता है (वर्गीकरण सटीकता 95% से ऊपर है)। लेकिन केवल खंड वर्गीकरण ही पर्याप्त नहीं है।

डेटा तिरछा. परंपरागत रूप से, Yandex.Translate एल्गोरिदम को इंटरनेट से टेक्स्ट पर प्रशिक्षित किया जाता है। ऐसा लगता है कि यह एक वेब पेज अनुवादक को प्रशिक्षित करने के लिए एक आदर्श समाधान है (दूसरे शब्दों में, नेटवर्क उसी प्रकृति के ग्रंथों से सीखता है, जिस पर हम इसे लागू करने जा रहे हैं)। लेकिन जैसे ही हमने अलग-अलग खंडों को एक-दूसरे से अलग करना सीखा, हमें एक दिलचस्प विशेषता का पता चला। औसतन, सामग्री वेबसाइटों पर सभी पाठों का लगभग 85% बनाती है, जिसमें शीर्षक और नेविगेशन लेखांकन केवल 7.5% प्रत्येक के लिए होता है। यह भी याद रखें कि शीर्षक और नेविगेशन तत्व बाकी पाठ से शैली और व्याकरण में स्पष्ट रूप से भिन्न हैं। इन दोनों कारकों ने संयुक्त रूप से डेटा तिरछा होने की समस्या को जन्म दिया। तंत्रिका नेटवर्क के लिए प्रशिक्षण नमूने में इन बहुत खराब प्रतिनिधित्व वाले खंडों की विशेषताओं को अनदेखा करना अधिक लाभदायक है। नेटवर्क केवल मुख्य पाठ का अच्छी तरह से अनुवाद करना सीखता है, जो शीर्षकों और नेविगेशन के अनुवाद की गुणवत्ता से ग्रस्त है। इस अप्रिय प्रभाव को बेअसर करने के लिए, हमने दो काम किए: हमने समानांतर वाक्यों की प्रत्येक जोड़ी के लिए तीन प्रकार के खंडों (सामग्री, शीर्षक या नेविगेशन) में से एक को मेटा-सूचना के रूप में सौंपा और प्रशिक्षण कोष में अंतिम दो की एकाग्रता को कृत्रिम रूप से बढ़ाया। 33% तक इस तथ्य के कारण कि सीखने वाले तंत्रिका नेटवर्क के समान उदाहरण अधिक बार दिखाना शुरू कर दिया।

मल्टी टास्क लर्निंग. चूंकि अब हम वेब पेजों पर टेक्स्ट को तीन वर्गों में विभाजित करने में सक्षम हैं, यह तीन अलग-अलग मॉडलों को प्रशिक्षित करने के लिए एक स्वाभाविक विचार की तरह लग सकता है, जिनमें से प्रत्येक एक अलग प्रकार के टेक्स्ट के अनुवाद का सामना करेगा - शीर्षक, नेविगेशन या विषय। यह वास्तव में अच्छी तरह से काम करता है, लेकिन यह योजना और भी बेहतर काम करती है, जिसमें हम एक तंत्रिका नेटवर्क को सभी प्रकार के ग्रंथों का एक साथ अनुवाद करने के लिए प्रशिक्षित करते हैं। समझने की कुंजी बहु-कार्य सीखने (एमटीएल) के विचार में निहित है: यदि कई मशीन सीखने के कार्यों के बीच एक आंतरिक संबंध है, तो एक मॉडल जो इन कार्यों को एक साथ हल करना सीखता है, प्रत्येक कार्य को बेहतर ढंग से हल करना सीख सकता है एक संकीर्ण प्रोफ़ाइल विशेष मॉडल की तुलना में!

फ़ाइन ट्यूनिंग. हमारे पास पहले से ही एक बहुत अच्छा मशीनी अनुवाद था, इसलिए यांडेक्स.ब्राउज़र के लिए नए अनुवादक को शुरू से ही प्रशिक्षित करना अनुचित होगा। सामान्य पाठों के अनुवाद के लिए एक बुनियादी प्रणाली लेना और इसे वेब पेजों के साथ काम करने के लिए प्रशिक्षित करना अधिक तर्कसंगत है। तंत्रिका नेटवर्क के संदर्भ में, इसे अक्सर ठीक-ट्यूनिंग के रूप में जाना जाता है। लेकिन अगर हम इस समस्या से सीधे संपर्क करते हैं, यानी। तैयार मॉडल से मूल्यों के साथ तंत्रिका नेटवर्क के वजन को प्रारंभ करें और नए डेटा से सीखना शुरू करें, आप डोमेन शिफ्ट प्रभाव का सामना कर सकते हैं: जैसा कि आप सीखते हैं, वेब पेजों (इन-डोमेन) के अनुवाद की गुणवत्ता में वृद्धि होगी, लेकिन सामान्य (आउट-ऑफ-डोमेन) ग्रंथों के अनुवाद की गुणवत्ता गिर जाएगी। इस अप्रिय विशेषता से छुटकारा पाने के लिए, अतिरिक्त प्रशिक्षण के दौरान, हम तंत्रिका नेटवर्क पर एक अतिरिक्त प्रतिबंध लगाते हैं, जिससे इसे प्रारंभिक अवस्था की तुलना में बहुत अधिक वजन बदलने से मना किया जाता है।

गणितीय रूप से, यह हानि फ़ंक्शन (हानि फ़ंक्शन) में एक शब्द जोड़कर व्यक्त किया जाता है, जो कि मूल और पुनर्प्रशिक्षित नेटवर्क द्वारा जारी किए गए अगले शब्द को उत्पन्न करने की संभाव्यता वितरण के बीच कुल्बैक-लीबलर दूरी (केएल-विचलन) है। जैसा कि दृष्टांत में देखा जा सकता है, इसका परिणाम इस तथ्य में होता है कि वेब पेजों के अनुवाद की गुणवत्ता में सुधार अब सादे पाठ के अनुवाद में गिरावट की ओर नहीं ले जाता है।

नेविगेशन से पॉलिशिंग आवृत्ति वाक्यांश. एक नए अनुवादक पर काम करने की प्रक्रिया में, हमने वेब पेजों के विभिन्न खंडों के ग्रंथों पर आंकड़े एकत्र किए और कुछ दिलचस्प देखा। नेविगेशन तत्वों से संबंधित ग्रंथ काफी मानकीकृत हैं, इसलिए वे अक्सर एक ही बॉयलरप्लेट वाक्यांशों का प्रतिनिधित्व करते हैं। यह इतना शक्तिशाली प्रभाव है कि इंटरनेट पर पाए जाने वाले सभी नेविगेशनल वाक्यांशों में से आधे से अधिक बार-बार आने वाले वाक्यांशों में से केवल 2,000 में हैं।

बेशक, हमने इसका फायदा उठाया और अपने अनुवादकों को उनकी गुणवत्ता के बारे में पूरी तरह से सुनिश्चित करने के लिए कई हजार सबसे लगातार वाक्यांशों और उनके अनुवादों को सत्यापन के लिए दिया।

बाहरी संरेखण। ब्राउज़र में वेब पेज अनुवादक के लिए एक और महत्वपूर्ण आवश्यकता थी - यह मार्कअप को विकृत नहीं करना चाहिए। जब HTML टैग्स को वाक्यों के बाहर या उनकी सीमाओं पर रखा जाता है, तो कोई समस्या नहीं होती है। लेकिन अगर वाक्य के अंदर है, उदाहरण के लिए, दो रेखांकितशब्दों, तो अनुवाद में हम "दो" देखना चाहते हैं रेखांकितशब्द"। वे। स्थानांतरण के परिणामस्वरूप, दो शर्तों को पूरा करना होगा:

  1. अनुवाद में रेखांकित अंश स्रोत पाठ में रेखांकित अंश के बिल्कुल अनुरूप होना चाहिए।
  2. रेखांकित अंश की सीमाओं पर अनुवाद की संगति का उल्लंघन नहीं किया जाना चाहिए।
इस व्यवहार को सुनिश्चित करने के लिए, हम पहले हमेशा की तरह पाठ का अनुवाद करते हैं, और फिर, सांख्यिकीय शब्द-दर-शब्द संरेखण मॉडल का उपयोग करके, हम स्रोत के अंशों और अनुवादित ग्रंथों के बीच पत्राचार का निर्धारण करते हैं। यह समझने में मदद करता है कि क्या रेखांकित किया जाना चाहिए (इटैलिकाइज्ड, हाइपरलिंक्ड, ...)

चौराहा पर्यवेक्षक. शक्तिशाली तंत्रिका नेटवर्क अनुवाद मॉडल जिन्हें हमने प्रशिक्षित किया है, उन्हें सांख्यिकीय मॉडल की पिछली पीढ़ियों की तुलना में हमारे सर्वर (सीपीयू और जीपीयू दोनों) पर अधिक कंप्यूटिंग संसाधनों की आवश्यकता होती है। साथ ही, उपयोगकर्ता हमेशा पृष्ठों को अंत तक नहीं पढ़ते हैं, इसलिए वेब पेजों का संपूर्ण पाठ क्लाउड पर भेजना बेमानी लगता है। सर्वर संसाधनों और उपयोगकर्ता ट्रैफ़िक को बचाने के लिए, हमने Translator को उपयोग करना सिखाया

खोज इंजन-अनुक्रमित वेबसाइटों की आधे अरब से अधिक प्रतियां हैं, और वेब पृष्ठों की कुल संख्या हजारों गुना अधिक है। रूसी भाषा की सामग्री पूरे इंटरनेट का 6% है।

वांछित पाठ का शीघ्रता से अनुवाद कैसे करें और इस तरह से कि लेखक का इच्छित अर्थ संरक्षित रहे। सांख्यिकीय सामग्री अनुवाद मॉड्यूल के पुराने तरीके बहुत ही संदिग्ध रूप से काम करते हैं, क्योंकि शब्दों, समय और अधिक की गिरावट को सटीक रूप से निर्धारित करना असंभव है। शब्दों की प्रकृति और उनके बीच का संबंध जटिल है, जो कभी-कभी परिणाम को बहुत ही अप्राकृतिक बना देता है।

अब यांडेक्स स्वचालित मशीनी अनुवाद का उपयोग करता है, जिससे अंतिम पाठ की गुणवत्ता में वृद्धि होगी। आप नए अंतर्निर्मित अनुवाद के साथ ब्राउज़र का नवीनतम आधिकारिक संस्करण डाउनलोड कर सकते हैं।

वाक्यांशों और शब्दों का हाइब्रिड अनुवाद

यांडेक्स ब्राउज़र एकमात्र ऐसा है जो पृष्ठ का संपूर्ण रूप से अनुवाद कर सकता है, साथ ही शब्दों और वाक्यांशों को व्यक्तिगत रूप से अनुवादित कर सकता है। यह फ़ंक्शन उन उपयोगकर्ताओं के लिए बहुत उपयोगी होगा जो कमोबेश विदेशी भाषा बोलते हैं, लेकिन कभी-कभी अनुवाद की कठिनाइयों का सामना करते हैं।

शब्द अनुवाद तंत्र में निर्मित तंत्रिका नेटवर्क हमेशा निर्धारित कार्यों का सामना नहीं करता है, क्योंकि दुर्लभ शब्दों को पाठ में एम्बेड करना और इसे पठनीय बनाना अत्यंत कठिन था। अब पुरानी तकनीकों और नई तकनीकों का उपयोग करके एप्लिकेशन में एक हाइब्रिड पद्धति का निर्माण किया गया है।

तंत्र इस प्रकार है: कार्यक्रम चयनित वाक्यों या शब्दों को स्वीकार करता है, फिर उन्हें तंत्रिका नेटवर्क के दोनों मॉड्यूल और सांख्यिकीय अनुवादक को देता है, और अंतर्निहित एल्गोरिथ्म निर्धारित करता है कि कौन सा परिणाम बेहतर है और फिर उपयोगकर्ता को देता है।

तंत्रिका नेटवर्क अनुवादक

विदेशी सामग्री को बहुत विशिष्ट तरीके से डिज़ाइन किया गया है:

  • शीर्षकों में शब्दों के पहले अक्षर बड़े अक्षरों में लिखे गए हैं;
  • वाक्य सरलीकृत व्याकरण के साथ बनाए जाते हैं, कुछ शब्द छोड़े जाते हैं।

वेबसाइटों पर नेविगेशन मेनू को उनके स्थान के आधार पर पार्स किया जाता है, जैसे कि वापस शब्द, सही ढंग से अनुवादित वापस (वापस जाएं), वापस नहीं।

उपरोक्त सभी विशेषताओं को ध्यान में रखते हुए, डेवलपर्स ने एक तंत्रिका नेटवर्क को अतिरिक्त रूप से प्रशिक्षित किया, जो पहले से ही टेक्स्ट डेटा की एक विशाल सरणी का उपयोग करता है। अब अनुवाद की गुणवत्ता सामग्री के स्थान और उसके डिजाइन से प्रभावित होती है।

लागू अनुवाद के परिणाम

अनुवाद की गुणवत्ता को BLEU* एल्गोरिथम द्वारा मापा जा सकता है, जो मशीन और पेशेवर अनुवादों की तुलना करता है। गुणवत्ता का पैमाना 0 से 100% तक।

तंत्रिका अनुवाद जितना बेहतर होगा, प्रतिशत उतना ही अधिक होगा। इस एल्गोरिथम के अनुसार, यांडेक्स ब्राउज़र ने 1.7 गुना बेहतर अनुवाद करना शुरू किया।

यांडेक्स ने अनुवादक का एक नया संस्करण लॉन्च किया है। एक हाइब्रिड सिस्टम अब अनुवाद पर काम करेगा: पहले इस्तेमाल किए गए सांख्यिकीय मॉडल के अलावा, अनुवादक एक तंत्रिका नेटवर्क का भी उपयोग करेगा। यह कंपनी के ब्लॉग में बताया गया था।

मशीनी अनुवाद के कई तरीके हैं। पहला, सबसे आम दृष्टिकोण सांख्यिकीय है। इस तरह का मशीनी अनुवाद समानांतर कॉर्पोरा (विभिन्न भाषाओं में एक ही पाठ) से प्राप्त जानकारी की एक बड़ी मात्रा को याद करने पर आधारित है: ये या तो एकल शब्द या व्याकरण संबंधी नियम हो सकते हैं। हालांकि, इस दृष्टिकोण में एक बहुत ही महत्वपूर्ण कमी है: सांख्यिकीय मशीनी अनुवाद जानकारी को याद रखता है, लेकिन इसे समझ में नहीं आता है, इसलिए ऐसा अनुवाद अक्सर कई अलग-अलग सही ढंग से अनुवादित टुकड़ों की तरह दिखता है, एक पाठ में एकत्र किया जाता है जो व्याकरण के संदर्भ में बहुत सही नहीं है और शब्दार्थ भार।

दूसरा दृष्टिकोण तंत्रिका नेटवर्क है। यह व्यक्तिगत शब्दों और वाक्यांशों के अनुवाद पर नहीं, बल्कि पूरे वाक्यों पर आधारित है, और इसका मुख्य लक्ष्य व्याकरण के संदर्भ में सर्वोत्तम अनुवाद गुणवत्ता प्राप्त करते हुए अर्थ को संरक्षित करना है। इस तरह की अनुवाद तकनीक उस भाषा के ज्ञान को भी संग्रहीत कर सकती है जिसे उसने सीखने की प्रक्रिया में सीखा है - यह उसे सामना करने की अनुमति देता है, उदाहरण के लिए, समझौते में त्रुटियों के साथ। तंत्रिका मशीन अनुवाद एक अपेक्षाकृत नया दृष्टिकोण है, हालांकि, यह पहले ही खुद को साबित कर चुका है: Google अनुवाद तंत्रिका नेटवर्क की मदद से, यह एक रिकॉर्ड-तोड़ अनुवाद गुणवत्ता प्राप्त करने में सक्षम था।

आज से, Yandex.Translate हाइब्रिड सिस्टम पर आधारित है। इस तरह की प्रणाली में पहले सेवा द्वारा उपयोग किए गए सांख्यिकीय अनुवाद और तंत्रिका नेटवर्क के संचालन के आधार पर अनुवाद शामिल हैं। कैटबॉस्ट (यांडेक्स द्वारा विकसित एक मशीन लर्निंग सिस्टम) पर आधारित एक विशेष क्लासिफायर एल्गोरिथ्म दो अनुवाद विकल्पों (सांख्यिकीय और तंत्रिका) में से सर्वश्रेष्ठ का चयन करता है और इसे उपयोगकर्ता को देता है।

आप यांडेक्स के नए संस्करण के काम के बारे में अधिक पढ़ सकते हैं। सेवा के प्रमुख, ब्रिटिश कम्प्यूटेशनल भाषाविद् डेविड टैलबोट के साथ हमारी बैठक में अनुवाद करें।

वर्तमान में, नई अनुवाद तकनीक केवल अंग्रेजी से रूसी में अनुवाद करते समय उपलब्ध है (कंपनी के अनुसार, यह सबसे लोकप्रिय अनुवाद दिशा है)। सिस्टम के साथ काम करते हुए, उपयोगकर्ता दो अनुवाद मॉडल (पुराने सांख्यिकीय और नए हाइब्रिड) के बीच स्विच कर सकता है और पुराने और नए संस्करणों के अनुवाद की तुलना कर सकता है। आने वाले महीनों में, अनुवादक के डेवलपर्स अनुवाद के अन्य क्षेत्रों को शामिल करने का वादा करते हैं।


Yandex.Translate के नए संस्करण में प्रयुक्त विभिन्न मॉडलों के अनुवाद के उदाहरण



तंत्रिका नेटवर्क का उपयोग करते हुए मशीनी अनुवाद इस विषय पर पहले वैज्ञानिक शोध के बाद से और उस क्षण तक एक लंबा सफर तय कर चुका है जब Google ने Google अनुवाद सेवा को गहन शिक्षण में पूर्ण हस्तांतरण की घोषणा की थी।

जैसा कि आप जानते हैं, तंत्रिका अनुवादक मैट्रिक्स गणना पर निर्मित द्विदिश आवर्तक तंत्रिका नेटवर्क (द्विदिशात्मक आवर्तक तंत्रिका नेटवर्क) के तंत्र पर आधारित है, जो आपको सांख्यिकीय मशीन अनुवादकों की तुलना में काफी अधिक जटिल संभाव्य मॉडल बनाने की अनुमति देता है। हालांकि, यह हमेशा माना गया है कि तंत्रिका अनुवाद, सांख्यिकीय अनुवाद की तरह, सीखने के लिए दो भाषाओं में ग्रंथों के समानांतर संग्रह की आवश्यकता होती है। मानव अनुवाद को संदर्भ के रूप में लेते हुए, इन कॉर्पोरा पर एक तंत्रिका नेटवर्क को प्रशिक्षित किया जाता है।

जैसा कि अब पता चला है, तंत्रिका नेटवर्क ग्रंथों के समानांतर कोष के बिना भी अनुवाद के लिए एक नई भाषा में महारत हासिल करने में सक्षम हैं! प्रीप्रिंट साइट arXiv.org ने इस विषय पर एक साथ दो पेपर प्रकाशित किए।

"कल्पना कीजिए कि आप एक व्यक्ति को बहुत सारी चीनी किताबें और बहुत सारी अरबी किताबें देते हैं - उनमें से कोई भी समान नहीं है - और इस व्यक्ति को चीनी से अरबी में अनुवाद करने के लिए प्रशिक्षित किया जाता है। यह असंभव लगता है, है ना? लेकिन हमने दिखाया है कि एक कंप्यूटर ऐसा कर सकता है, ”सैन सेबेस्टियन (स्पेन) में बास्क देश के विश्वविद्यालय के एक कंप्यूटर वैज्ञानिक मिकेल आर्टटेक्स कहते हैं।

अधिकांश मशीनी अनुवाद तंत्रिका नेटवर्क को "एक शिक्षक के साथ" प्रशिक्षित किया जाता है, जिसकी भूमिका किसी व्यक्ति द्वारा अनुवादित ग्रंथों का एक समानांतर संग्रह है। सीखने की प्रक्रिया में, मोटे तौर पर, तंत्रिका नेटवर्क एक धारणा बनाता है, मानक के साथ जाँच करता है, और अपने सिस्टम में आवश्यक समायोजन करता है, फिर यह आगे सीखता है। समस्या यह है कि दुनिया में कुछ भाषाओं के लिए बड़ी संख्या में समानांतर पाठ नहीं हैं, इसलिए वे पारंपरिक मशीन अनुवाद तंत्रिका नेटवर्क के लिए उपलब्ध नहीं हैं।


Google तंत्रिका मशीन अनुवाद (GNMT) तंत्रिका नेटवर्क की "सार्वभौमिक भाषा"। बाएं चित्रण में, प्रत्येक शब्द के अर्थ समूहों को अलग-अलग रंगों में दिखाया गया है, निचले दाएं में - इसके लिए विभिन्न मानव भाषाओं से प्राप्त शब्द के अर्थ: अंग्रेजी, कोरियाई और जापानी

प्रत्येक भाषा के लिए एक विशाल "एटलस" संकलित करने के बाद, सिस्टम फिर एक ऐसे एटलस को दूसरे पर ओवरले करने का प्रयास करता है - और वहां आप हैं, आपके पास समानांतर टेक्स्ट कॉर्पोरा तैयार है!

दो प्रस्तावित अनुपयोगी शिक्षण आर्किटेक्चर की योजनाओं की तुलना करना संभव है।


प्रस्तावित प्रणाली की संरचना। L1 भाषा में प्रत्येक वाक्य के लिए, सिस्टम दो चरणों का प्रत्यावर्तन सीखता है: 1) शोर पर प्रतिबंध(denoising), जो एक सामान्य एनकोडर के साथ एक वाक्य के शोर संस्करण को एन्कोड करने की संभावना को अनुकूलित करता है और L1 डिकोडर द्वारा इसका पुनर्निर्माण करता है; 2) उल्टा अनुवाद(बैक-ट्रांसलेशन) जब एक वाक्य का आउटपुट मोड में अनुवाद किया जाता है (यानी एक सामान्य एन्कोडर द्वारा एन्कोड किया गया और एल 2 डिकोडर द्वारा डीकोड किया गया), और फिर इस अनुवादित वाक्य को एक सामान्य एन्कोडर के साथ एन्कोड करने और एल 1 डिकोडर द्वारा मूल वाक्य को पुनर्प्राप्त करने की संभावना अनुकूलित है। चित्रण: मिशेला अर्टेटेक्स एट अल।


प्रस्तावित वास्तुकला और प्रणाली के सीखने के उद्देश्य (दूसरे वैज्ञानिक कार्य से)। आर्किटेक्चर एक वाक्य-दर-वाक्य अनुवाद मॉडल है जहां एन्कोडर और डिकोडर दोनों दो भाषाओं में काम करते हैं, इनपुट भाषा पहचानकर्ता के आधार पर, जो लुकअप टेबल को स्वैप करता है। शीर्ष (ऑटोकोडिंग): मॉडल को प्रत्येक डोमेन में डीनोइज़िंग करने के लिए प्रशिक्षित किया जाता है। नीचे (अनुवाद): पहले की तरह, साथ ही हम पिछली पुनरावृत्ति (नीला बॉक्स) में मॉडल द्वारा उत्पादित अनुवाद को इनपुट के रूप में उपयोग करके दूसरी भाषा से एन्कोड करते हैं। हरा अंडाकार हानि समारोह में शर्तों को दर्शाता है। चित्रण: गिलौम लैम्पल एट अल।

दोनों पेपर मामूली अंतर के साथ उल्लेखनीय रूप से समान कार्यप्रणाली का उपयोग करते हैं। लेकिन दोनों ही मामलों में, अनुवाद कुछ मध्यवर्ती "भाषा" के माध्यम से किया जाता है या, इसे बेहतर बनाने के लिए, एक मध्यवर्ती आयाम या स्थान। अब तक, बिना शिक्षक के तंत्रिका नेटवर्क अनुवाद की बहुत उच्च गुणवत्ता नहीं दिखाते हैं, लेकिन लेखकों का कहना है कि इसे सुधारना आसान है यदि आप शिक्षक की थोड़ी सी मदद का उपयोग करते हैं, तो अभी, शुद्धता के लिए प्रयोग, ऐसा नहीं किया गया था।

सीखने के प्रतिनिधित्व पर 2018 अंतर्राष्ट्रीय सम्मेलन के लिए प्रस्तुत पत्र। वैज्ञानिक प्रेस में अभी तक कोई भी लेख प्रकाशित नहीं हुआ है।