За оцінками Інституту Майбутнього Людства Оксфордського університету, вже в найближчому майбутньому машинний переклад може перевершити людей... а отже, перекладацька галузь і загалом індустрія мовних послуг будуть одними з перших, які постраждають від впровадження технологій штучного інтелекту.

У 2019 році Міністерство національної безпеки США (DHS) оголосило про свій план збирати та аналізувати соціальні мережі іноземних громадян, котрі прагнуть в'їхати до Сполучених Штатів. В рамках ініціативи "жорсткої перевірки" для визначення доцільності допуску іноземців до країни Служба громадянства та імміграції США (USCIS) випустила офіційний посібник в якому детально наведено рекомендації з використання Google Translate для перекладу повідомлень користувачів, чия онлайн-активність здійснюється не англійською мовою. Ця практика продовжується, попри застереження Google про те, що їх сервіс не може замінити людей-перекладачів.

Практика перекладу між людськими мовами здавна формувалася під впливом асиметрії влади. Наприклад, обмеження, накладені на численні мовні групи на африканському континенті багато століть тому, для розуміння Європейцями дискретних мовних об'єктів і самих назв застосованих до цих об’єктів, були нав'язані європейськими колонізаторами, як основа для створення мовної документації та посібників з перекладу, що підкріплювали колонізаторські зусилля. Деякі з перших граматичних довідників для раніше неписемних мов були створені християнськими місіонерами з метою перекладу Біблії та прозелітизму серед корінних народів по всьому світу. Історія рясніє прикладами колонізованих народів, які були змушені вивчати мови своїх колонізаторів, часто піддаючись покаранню за те, що розмовляли рідною мовою. У багатьох випадках цей мовний гніт сприяв зменшенню кількості носіїв мов корінних народів, а вимога до обов'язкового перекладу ще більше поглиблювала їхнє поневолення.

Таким чином, мовні технології уможливлюють новий вид лінгвістичного нагляду. Власне, саме такі інтереси сприяли розвитку технології машинного перекладу в середині XX століття. Соціально-політичний контекст, у якому вперше з'явився машинний переклад, сформував основні цілі та передумови проєкту, а його подальший розвиток і використання в комерційних цілях не тільки сприяє, але й вимагає консолідації ресурсів і влади в дедалі більших масштабах.

Зародження машинного перекладу

Поява перших систем машинного перекладу в Сполучених Штатах виникла під час Холодної війни. Перші системи, що базувалися на правилах, здебільшого розроблялися на замовлення військових та інших федеральних відомств і часто спиралися на міждисциплінарну співпрацю між інженерами та лінгвістами. Після періоду інтенсивних досліджень, в яких переважали наукові роботи, що фінансувалися урядом, машинний переклад став доступним широкому загалу під час революції персональних комп'ютерів у 1990-х роках, коли з'явилося комерційне програмне забезпечення для перекладу. У 2000-х роках величезний індекс вебконтенту Google і його фінансові ресурси уможливили збагачення й застосування статистичних, а згодом і нейронних методів машинного перекладу, що призвело до розгортання в Інтернеті вільно доступних сервісів перекладу в тому вигляді, в якому вони широко використовуються сьогодні.

"Природно виникає питання, чи можна розглядати проблему перекладу як проблему криптографії. Коли я дивлюся на статтю російською мовою, я кажу: "Насправді вона написана англійською, але закодована якимись дивними символами. Зараз я візьмуся за розшифровку". — Уоррен Вівер, у листуванні з Норбертом Вінером (1947)

Сучасні комп'ютерні технології беруть свій початок від роботи в галузі криптографії та зламу кодів під час Другої світової війни. Американський вчений Уоррен Вівер, який співпрацював з піонером теорії інформації Клодом Шенноном, зацікавився застосуванням теорії інформації до перекладу людських мов. У 1949 році Вівер, тодішній директор Відділу природничих наук Інституту Рокфеллера, розповсюдив серед кількох лінгвістів та інженерів записку під назвою "Переклад", в якій закликав до застосування комп'ютерів для перекладу людських мов. Записка спричинила активізацію досліджень у галузі машинного перекладу в різних наукових і технологічних установах, зокрема у Вашингтонському та Джорджтаунському університетах, IBM і корпорації RAND.

Джерело: HistoryOfInformation.com

Рішення про те, якими мовами розпочати спроби автоматичного перекладу, було політичним, зумовленим на той час суперництвом між США та СРСР під час Холодної війни, а також бажанням посилити контроль за науковою літературою російською мовою. Ентоні Еттінгер, на той час студент Гарвардського університету, згадує, що його залучили до співпраці з комп'ютерним науковцем Говардом Ейкеном, одним з адресатів записки Вівера, лише тому, що він вивчав російську мову.

Джерело: HistoryOfInformation.com

Дослідження стабільно продовжувалися, і, незважаючи на продемонстровану командою Джорджтаунського університету та IBM перспективну систему з російсько-англійського перекладу фінансування скоротилося в 1960-х роках після публікації критичної доповіді ALPAC (Консультативний комітет з автоматичної обробки мови), в якій нарікали на низьку якість машинного перекладу. Однак уряд США залишився надійним замовником машинного перекладу; у своїй програмній промові 1997 року на шостому Cаміті з Машинного Перекладу Том Педтке згадує про кілька ключових подій 1990-х років, що відбулися саме завдяки державному замовленню. Наприклад, у 1991 році Агентство з боротьби з наркотиками інвестувало значні кошти в удосконалення іспансько-англійського перекладу, а проєкти з китайсько-англійського та російсько-англійського перекладу фінансувалися АНБ, ФБР, DARPA та ВМС. Наприкінці 1990-х років відбулася зміна ключових гравців (і споживачів) машинного перекладу.

Від 1997 до сьогодні: Переклад, заснований на даних

"Найважливіше, що зараз відбувається в Кремнієвій долині, — це … інституційна розбудова і консолідація влади у таких масштабах і з такою швидкістю, які, ймовірно, є безпрецедентними в історії людства". — Гідеон Льюїс-Краус, New York Times (2016)

З середини і до кінця 1990-х років еволюція обчислювальних потужностей і революція персональних комп'ютерів уможливили розробку програмних засобів перекладу для широкого кола споживачів. 

Компанія SYSTRAN, була заснована в рамках програми зі створення системи машинного перекладу при Джорджтаунському університеті, спільно з компанією Digital Equipment Corporation, яка на той час була одним з лідерів у галузі апаратного забезпечення, запустили в 1997 році AltaVista, першу в Інтернеті безплатну службу перекладу. Попри те, що на той час він був інноваційним і корисним, його переклади часом були далекі від ідеальних та іноді призводили до комічних або незручних ситуацій. Наступного року була заснована компанія Google. 

Ще бувши аспірантами Стенфорда, Сергій Брін і Ларрі Пейдж розпочали роботу над створенням величезного індексу контенту молодої всесвітньої павутини в рамках проєкту "Цифрові бібліотеки", який фінансувався DARPA, NSF і NASA; результатом цієї роботи згодом стане пошукова система Google.

2004 року Google стала надзвичайно цінною публічною компанією, яка здобула визнання користувачів Інтернету в усьому світі. Брін згадував, що одного разу отримав повідомлення від південнокорейського шанувальника, але пропустивши його через сервіс автоматичного перекладу SYSTRAN, який Google тоді ліцензувала, отримав наступний текст — "Нарізана сира риба бажає. Загугліть зелену цибулю!". Як стверджує Брін, це стало поштовхом до розширення функціоналу Google, включивши до нього переклад. Зрештою, у своєму прагненні проіндексувати всю мережу, Google повинен був отримати можливість проникнути до не англомовної частини мережі.

Franz Och, with a copy of the Rosetta Stone, said Google’s translation tool “can make the language barrier go away.”
Франц Ох. Джерело: New York Times

Того року Пейдж звернувся до Франца Оха, на той час наукового співробітника Інституту інформаційних наук Університету Південної Каліфорнії, аби найняти його для створення того, що згодом стало Google Translate. Спочатку Ох був налаштований скептично і не розумів, навіщо пошуковій компанії занурюватися у сферу перекладу, але його спокусив факт безпрецедентних обчислювальних потужностей які мав Google, за допомогою яких можна було значно збільшити масштаби статистичного машинного перекладу (SMT), що стало можливим завдяки величезній базі текстових даних, які були в розпорядженні Google. Протягом наступних кількох років під керівництвом Оха Google Translate значно випередив всі розробки університетських дослідницьких груп в галузі машинного перекладу.

Економічні, політичні та філософські питання

Основною рушійною силою машинного перекладу був пошук вичерпної колекції знань, що виходять за межі локального контексту. Перші спроби американців машинному перекладу були спрямовані на розшифрування радянських повідомлень і наукових праць часів холодної війни, а тепер Google використовує свої найсучасніші технології машинного перекладу для створення величезної бази даних світового онлайн-контенту. Хоча пересічний користувач Google Translate нібито отримує вигоду від доступу до цього ресурсу, ці безплатні інструменти можна вважати "гачками", які ще більше втягують користувачів в систему експлуататорських відносин наглядового капіталізму  "зосереджуючи економічну активність до жменьки технологічних гігантів, які надають послуги перекладу". 

Оскільки нейромережевий переклад вимагає великих обчислювальних потужностей і величезних баз даних, можна очікувати подальшої концентрації влади основних гравців, що вже призводить до олігополії серед постачальників лінгвістичних послуг, таких як Systran, Star або Omniscien, разом з основними технологічними гігантами, такими як Google, Amazon, Microsoft та інших. У цьому розрідженому середовищі питання надійності, підзвітності та конфіденційності неминуче спливають на поверхню. 

Можна навести приклад масового витоку даних з популярного сервісу безкоштовного перекладу Translator.com в 2017році. Лізе Рандеберг через Google Пошук знайшла повідомлення про звільнення, плани по скороченню персоналу, паролі, код та контракти різних компаній, які користувалися послугами Translate.com. Однак витік інформації — це лише верхівка айсберга. Якщо почитати умови надання послуг, то можна побачити, що весь контент, який користувачі завантажують в безкоштовні перекладацькі сервіси, належить корпораціям які ними володіють. У деяких випадках це порушує питання авторських прав і є ще одним вторгненням у наше приватне життя, оскільки зібрані таким чином дані слугуватимуть для вдосконалення профілювання, маркетингу та стеження, що тільки доповнює і без того широкий арсенал технологій цифрового стеження для побудови сучасного паноптикуму.

“Межі моєї мови означають межі мого світу.” — Людвіг Вітґенштайн (1922)

У той час як ключові урядові бенефіціари технологій машинного перекладу наголошували на корисності технології задля "встановлення миру" через взаєморозуміння, Google рекламує свій сервіс як інструмент, що "руйнує мовні бар'єри і ... [робить] світ доступнішим". Цей образ мови як "бар'єру" часто згадується в дискусіях про машинний переклад, пропонуючи утопічний погляд на загальне порозуміння, після подолання цих бар'єрів. За іронією долі, як показує перевірка соціальних мереж, проведена Міністерством внутрішньої безпеки США, програмне забезпечення для перекладу використовується якраз для підтримки культурних бар'єрів, лише доповнюючи арсенал технологічних інструментів для розмежування "своїх" і "чужих" груп.

Ситуація додатково ускладнюється ще й тим, що, на перший погляд, плавність нейромережевого перекладу для багатьох мовних пар може маскувати той факт, що системам все ще важко створювати адекватні переклади; вони можуть посилювати соціальні упередження та схильні до неточності в передачі важливих аспектів, таких як заперечення. Це особливо небезпечно, якщо розглядати сценарії з високими ризиками, в яких технологія машинного перекладу часто використовується і на яку покладаються, наприклад, при взаємодії між поліцією і цивільними особами. Ми повинні бути пильними, застосовуючи імовірнісні інструменти, намагаючись зробити розбірливим те, що було приховано або спотворено, і переклад не є винятком.

Нарешті, нейромережевий машинний переклад, разом з іншими інструментами обробки мови на основі штучного інтелекту, може вплинути на наше ставлення до мови. З технічної точки зору, відбувається перехід від природних мов, які за своєю природою є безладними і постійно розвиваються, до оптимізованого лінгвістичного контенту і даних, створених для машинного опрацювання, що відповідають формату "керованої мови".

Безкоштовні інструменти перекладу: пристрої, цифрові платформи, інструменти, мережі та протоколи одночасно не лише надають контекст контенту та діють як елементи, які його структурують, вони водночас створюють сам контент. Дійсно, з точки зору теорії комунікації, замість того, щоб повідомлення передавались від людини до людини через різні носії, ми тепер стикаємося з ситуацією, коли повідомлення можуть надходити як від машин, так і від людей і призначатися як для людей, так і для машин (наприклад, індексаційні роботи або віртуальні асистенти). Іншими словами, медіа стають і відправником, і одержувачем. 

Коли дедалі більша частка текстів і повідомлень, з якими ми стикаємося як в Інтернеті, так і через "розумні" пристрої, створюється машинами, можна очікувати більшої стандартизації мов. Наприклад, чим більше ми покладаємося на програми перекладу за кордоном, як зазначає доктор Джосс Муркенс, тим більше нас можуть “навчати” ці програми говорити таким чином, щоб забезпечити максимально прямий переклад. Люди, ймовірно, зрештою будуть навчені говорити обмеженою або неприродньою мовою, щоб досягти “найкращого” результату.

Ще одним свідченням цього є те, що воно може впливати на саму Google: старший аналітик Google Webmaster Trends Джон Мюллер визнав, що Google може бути обманутий контентом перекладений машиною, коли йдеться про ранжування результатів пошуку.

Переосмислення машинного перекладу

Мови не крадуть так, як крадуть власність. Скоріше, людям відмовляють у суверенітеті, необхідному для формування їхніх власних культурних та освітніх практик.

Навчання та оцінка найсучасніших методів нейронного машинного перекладу, як правило, спирається на великі паралельні колекції даних, створені перекладачами-людьми. Віверова характеризація перекладу між мовами лише як дешифрування закодованих повідомлень виглядає грубою, а перекладачі та літературознавці взагалі мають застереження щодо неможливості точного перекладу машиною, особливо художньої літератури та поезії. Справді, поняття "еквівалентності" між текстами активно обговорюється в перекладознавстві. Це не означає, що машинний переклад позбавлений епістемологічного підходу; принцип паралельного перекладу, що лежить в основі сучасних моделей машинного перекладу, відповідає прагматичному, біхевіористському підходу Куайна до перекладу. Незалежно від того, чи вважаєте ви цю концепцію переконливою, чи ні, важливо визнати, що дані, які вважаються золотим стандартом перекладу, містять у собі суб'єктивну позицію людей, які їх написали, що впливає на подальші асоціації, закладені в автоматизованих системах.

Успіх сучасних нейронних систем машинного перекладу значною мірою зумовлений опорою на величезні колекції лінгвістичних даних з Інтернету. Існують тисячі так званих "малоресурсних" мов (і мало поширених діалектів широковживаних мов), для яких немає величезних обсягів оцифрованих даних, політичних чи фінансових стимулів для розвитку інструментів перекладу, необхідних для успішного застосування нейромережевого перекладу. У зв'язку з цим у носів мови може з'явитися простір для вибіркового підходу до того, чи варто, і якщо так, то кому саме надавати свої знання і культуру для нагляду.

У 2005 році лідери народу Мапуче подали до суду на корпорацію Microsoft, звинувативши її в "інтелектуальному піратстві", коли компанія-розробник програмного забезпечення спробувала випустити версію операційної системи Windows мовою мапудунґун, мовою Мапуче. Microsoft не консультувалася з Мапуче і не шукала їхньої згоди на використання їхньої мови, але співпрацювала з Чилійським урядом над розробкою перекладу, однак судовий позов все одно отримали. 

Технології сильно ускладнили розуміння можливості "володіння" мовою. Чи достатньо каркасу з тисячі речень, витягнутих з Інтернету, аби виокремити достатню кількість морфосинтаксичних особливостей для подальшої обробки та перекладу? Який вихід у лінгвістичної спільноти, якщо вона не довіряє компаніям розробникам ПЗ для створення інструментів їхньою мовою?

Західні дискурси зникнення мов не розглядають як критичну небезпеку для розвитку технологій, а розвиток технологій для "малоресурсних" мов сприймається як суспільне благо. І справді, саме формулювання "малоресурсна" мова" неявно впливає на мотивацію збирача даних, хоча носії мови мають у своєму розпорядженні безліч ресурсів у вигляді ідіом, жартів, байок та усних історій. З іншого боку, насильницька асиміляція і колонізація призвели до різкого зменшення кількості носіїв незліченної кількості мов корінних народів, і зусилля із документування та відродження таких мов, як Маорі та Юпік, стають об'єктом загальної уваги.

Застосовуючи колективний підхід для розв’язання проблеми нестачі технологічних ресурсів для десятків африканських мов, проєкт Masakhane пропонує створення мовних технологій африканцями і для африканців, залучаючи таким чином найбільш зацікавлені сторони до керівництва напрямком досліджень і кураторства даних з самого початку проєкту. Masakhane створює можливості для учасників, які не мають формальної підготовки в галузі обчислювальних систем, брати безпосередню і конструктивну участь, і є багатонадійним кроком на шляху до використання технології перекладу для розширення можливостей носіїв африканських мов і їхньої спадщини.

Створення, розвиток і застосування технології машинного перекладу історично пов'язане з практиками спостереження та управління. Переклад залишається політичним актом, а розробки машинного перекладу заснованого на даних зосереджені переважно в корпораціях, що ускладнює механізми перерозподілу влади. Усвідомлення недоліків машинного перекладу, як інструменту і як парадигми необхідне для кращого формулювання відповідних контекстів його використання.

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Ivan Diakonov
Ivan Diakonov@ivanko_d

542Прочитань
13Автори
15Читачі
Підтримати
На Друкарні з 15 квітня

Більше від автора

Вам також сподобається

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Вам також сподобається