Машинний переклад як інструмент влади

11 грудня 18 хв читати

Зміст

Зародження машинного перекладу
Від 1997 до сьогодні: Переклад, заснований на даних
Економічні, політичні та філософські питання
Переосмислення машинного перекладу

За оцінками Інституту Майбутнього Людства Оксфордського університету, вже в найближчому майбутньому машинний переклад може перевершити людей... а отже, перекладацька галузь і загалом індустрія мовних послуг будуть одними з перших, які постраждають від впровадження технологій штучного інтелекту.

У 2019 році Міністерство національної безпеки США (DHS) оголосило про свій план збирати та аналізувати соціальні мережі іноземних громадян, котрі прагнуть в'їхати до Сполучених Штатів. В рамках ініціативи "жорсткої перевірки" для визначення доцільності допуску іноземців до країни Служба громадянства та імміграції США (USCIS) випустила офіційний посібник в якому детально наведено рекомендації з використання Google Translate для перекладу повідомлень користувачів, чия онлайн-активність здійснюється не англійською мовою. Ця практика продовжується, попри застереження Google про те, що їх сервіс не може замінити людей-перекладачів.

Практика перекладу між людськими мовами здавна формувалася під впливом асиметрії влади. Наприклад, обмеження, накладені на численні мовні групи на африканському континенті багато століть тому, для розуміння Європейцями дискретних мовних об'єктів і самих назв застосованих до цих об’єктів, були нав'язані європейськими колонізаторами, як основа для створення мовної документації та посібників з перекладу, що підкріплювали колонізаторські зусилля. Деякі з перших граматичних довідників для раніше неписемних мов були створені християнськими місіонерами з метою перекладу Біблії та прозелітизму серед корінних народів по всьому світу. Історія рясніє прикладами колонізованих народів, які були змушені вивчати мови своїх колонізаторів, часто піддаючись покаранню за те, що розмовляли рідною мовою. У багатьох випадках цей мовний гніт сприяв зменшенню кількості носіїв мов корінних народів, а вимога до обов'язкового перекладу ще більше поглиблювала їхнє поневолення.

Таким чином, мовні технології уможливлюють новий вид лінгвістичного нагляду. Власне, саме такі інтереси сприяли розвитку технології машинного перекладу в середині XX століття. Соціально-політичний контекст, у якому вперше з'явився машинний переклад, сформував основні цілі та передумови проєкту, а його подальший розвиток і використання в комерційних цілях не тільки сприяє, але й вимагає консолідації ресурсів і влади в дедалі більших масштабах.

Зародження машинного перекладу

Поява перших систем машинного перекладу в Сполучених Штатах виникла під час Холодної війни. Перші системи, що базувалися на правилах, здебільшого розроблялися на замовлення військових та інших федеральних відомств і часто спиралися на міждисциплінарну співпрацю між інженерами та лінгвістами. Після періоду інтенсивних досліджень, в яких переважали наукові роботи, що фінансувалися урядом, машинний переклад став доступним широкому загалу під час революції персональних комп'ютерів у 1990-х роках, коли з'явилося комерційне програмне забезпечення для перекладу. У 2000-х роках величезний індекс вебконтенту Google і його фінансові ресурси уможливили збагачення й застосування статистичних, а згодом і нейронних методів машинного перекладу, що призвело до розгортання в Інтернеті вільно доступних сервісів перекладу в тому вигляді, в якому вони широко використовуються сьогодні.

"Природно виникає питання, чи можна розглядати проблему перекладу як проблему криптографії. Коли я дивлюся на статтю російською мовою, я кажу: "Насправді вона написана англійською, але закодована якимись дивними символами. Зараз я візьмуся за розшифровку". — Уоррен Вівер, у листуванні з Норбертом Вінером (1947)

Сучасні комп'ютерні технології беруть свій початок від роботи в галузі криптографії та зламу кодів під час Другої світової війни. Американський вчений Уоррен Вівер, який співпрацював з піонером теорії інформації Клодом Шенноном, зацікавився застосуванням теорії інформації до перекладу людських мов. У 1949 році Вівер, тодішній директор Відділу природничих наук Інституту Рокфеллера, розповсюдив серед кількох лінгвістів та інженерів записку під назвою "Переклад", в якій закликав до застосування комп'ютерів для перекладу людських мов. Записка спричинила активізацію досліджень у галузі машинного перекладу в різних наукових і технологічних установах, зокрема у Вашингтонському та Джорджтаунському університетах, IBM і корпорації RAND.

Рішення про те, якими мовами розпочати спроби автоматичного перекладу, було політичним, зумовленим на той час суперництвом між США та СРСР під час Холодної війни, а також бажанням посилити контроль за науковою літературою російською мовою. Ентоні Еттінгер, на той час студент Гарвардського університету, згадує, що його залучили до співпраці з комп'ютерним науковцем Говардом Ейкеном, одним з адресатів записки Вівера, лише тому, що він вивчав російську мову.

Дослідження стабільно продовжувалися, і, незважаючи на продемонстровану командою Джорджтаунського університету та IBM перспективну систему з російсько-англійського перекладу фінансування скоротилося в 1960-х роках після публікації критичної доповіді ALPAC (Консультативний комітет з автоматичної обробки мови), в якій нарікали на низьку якість машинного перекладу. Однак уряд США залишився надійним замовником машинного перекладу; у своїй програмній промові 1997 року на шостому Cаміті з Машинного Перекладу Том Педтке згадує про кілька ключових подій 1990-х років, що відбулися саме завдяки державному замовленню. Наприклад, у 1991 році Агентство з боротьби з наркотиками інвестувало значні кошти в удосконалення іспансько-англійського перекладу, а проєкти з китайсько-англійського та російсько-англійського перекладу фінансувалися АНБ, ФБР, DARPA та ВМС. Наприкінці 1990-х років відбулася зміна ключових гравців (і споживачів) машинного перекладу.

Від 1997 до сьогодні: Переклад, заснований на даних

"Найважливіше, що зараз відбувається в Кремнієвій долині, — це … інституційна розбудова і консолідація влади у таких масштабах і з такою швидкістю, які, ймовірно, є безпрецедентними в історії людства". — Гідеон Льюїс-Краус, New York Times (2016)

З середини і до кінця 1990-х років еволюція обчислювальних потужностей і революція персональних комп'ютерів уможливили розробку програмних засобів перекладу для широкого кола споживачів.

Компанія SYSTRAN, була заснована в рамках програми зі створення системи машинного перекладу при Джорджтаунському університеті, спільно з компанією Digital Equipment Corporation, яка на той час була одним з лідерів у галузі апаратного забезпечення, запустили в 1997 році AltaVista, першу в Інтернеті безплатну службу перекладу. Попри те, що на той час він був інноваційним і корисним, його переклади часом були далекі від ідеальних та іноді призводили до комічних або незручних ситуацій. Наступного року була заснована компанія Google.

Ще бувши аспірантами Стенфорда, Сергій Брін і Ларрі Пейдж розпочали роботу над створенням величезного індексу контенту молодої всесвітньої павутини в рамках проєкту "Цифрові бібліотеки", який фінансувався DARPA, NSF і NASA; результатом цієї роботи згодом стане пошукова система Google.

2004 року Google стала надзвичайно цінною публічною компанією, яка здобула визнання користувачів Інтернету в усьому світі. Брін згадував, що одного разу отримав повідомлення від південнокорейського шанувальника, але пропустивши його через сервіс автоматичного перекладу SYSTRAN, який Google тоді ліцензувала, отримав наступний текст — "Нарізана сира риба бажає. Загугліть зелену цибулю!". Як стверджує Брін, це стало поштовхом до розширення функціоналу Google, включивши до нього переклад. Зрештою, у своєму прагненні проіндексувати всю мережу, Google повинен був отримати можливість проникнути до не англомовної частини мережі.

Franz Och, with a copy of the Rosetta Stone, said Google’s translation tool “can make the language barrier go away.” — Франц Ох. Джерело: New York Times

Того року Пейдж звернувся до Франца Оха, на той час наукового співробітника Інституту інформаційних наук Університету Південної Каліфорнії, аби найняти його для створення того, що згодом стало Google Translate. Спочатку Ох був налаштований скептично і не розумів, навіщо пошуковій компанії занурюватися у сферу перекладу, але його спокусив факт безпрецедентних обчислювальних потужностей які мав Google, за допомогою яких можна було значно збільшити масштаби статистичного машинного перекладу (SMT), що стало можливим завдяки величезній базі текстових даних, які були в розпорядженні Google. Протягом наступних кількох років під керівництвом Оха Google Translate значно випередив всі розробки університетських дослідницьких груп в галузі машинного перекладу.

Економічні, політичні та філософські питання

Основною рушійною силою машинного перекладу був пошук вичерпної колекції знань, що виходять за межі локального контексту. Перші спроби американців машинному перекладу були спрямовані на розшифрування радянських повідомлень і наукових праць часів холодної війни, а тепер Google використовує свої найсучасніші технології машинного перекладу для створення величезної бази даних світового онлайн-контенту. Хоча пересічний користувач Google Translate нібито отримує вигоду від доступу до цього ресурсу, ці безплатні інструменти можна вважати "гачками", які ще більше втягують користувачів в систему експлуататорських відносин наглядового капіталізму "зосереджуючи економічну активність до жменьки технологічних гігантів, які надають послуги перекладу".

Оскільки нейромережевий переклад вимагає великих обчислювальних потужностей і величезних баз даних, можна очікувати подальшої концентрації влади основних гравців, що вже призводить до олігополії серед постачальників лінгвістичних послуг, таких як Systran, Star або Omniscien, разом з основними технологічними гігантами, такими як Google, Amazon, Microsoft та інших. У цьому розрідженому середовищі питання надійності, підзвітності та конфіденційності неминуче спливають на поверхню.

Можна навести приклад масового витоку даних з популярного сервісу безкоштовного перекладу Translator.com в 2017році. Лізе Рандеберг через Google Пошук знайшла повідомлення про звільнення, плани по скороченню персоналу, паролі, код та контракти різних компаній, які користувалися послугами Translate.com. Однак витік інформації — це лише верхівка айсберга. Якщо почитати умови надання послуг, то можна побачити, що весь контент, який користувачі завантажують в безкоштовні перекладацькі сервіси, належить корпораціям які ними володіють. У деяких випадках це порушує питання авторських прав і є ще одним вторгненням у наше приватне життя, оскільки зібрані таким чином дані слугуватимуть для вдосконалення профілювання, маркетингу та стеження, що тільки доповнює і без того широкий арсенал технологій цифрового стеження для побудови сучасного паноптикуму.

“Межі моєї мови означають межі мого світу.” — Людвіг Вітґенштайн (1922)

У той час як ключові урядові бенефіціари технологій машинного перекладу наголошували на корисності технології задля "встановлення миру" через взаєморозуміння, Google рекламує свій сервіс як інструмент, що "руйнує мовні бар'єри і ... [робить] світ доступнішим". Цей образ мови як "бар'єру" часто згадується в дискусіях про машинний переклад, пропонуючи утопічний погляд на загальне порозуміння, після подолання цих бар'єрів. За іронією долі, як показує перевірка соціальних мереж, проведена Міністерством внутрішньої безпеки США, програмне забезпечення для перекладу використовується якраз для підтримки культурних бар'єрів, лише доповнюючи арсенал технологічних інструментів для розмежування "своїх" і "чужих" груп.

Ситуація додатково ускладнюється ще й тим, що, на перший погляд, плавність нейромережевого перекладу для багатьох мовних пар може маскувати той факт, що системам все ще важко створювати адекватні переклади; вони можуть посилювати соціальні упередження та схильні до неточності в передачі важливих аспектів, таких як заперечення. Це особливо небезпечно, якщо розглядати сценарії з високими ризиками, в яких технологія машинного перекладу часто використовується і на яку покладаються, наприклад, при взаємодії між поліцією і цивільними особами. Ми повинні бути пильними, застосовуючи імовірнісні інструменти, намагаючись зробити розбірливим те, що було приховано або спотворено, і переклад не є винятком.

Нарешті, нейромережевий машинний переклад, разом з іншими інструментами обробки мови на основі штучного інтелекту, може вплинути на наше ставлення до мови. З технічної точки зору, відбувається перехід від природних мов, які за своєю природою є безладними і постійно розвиваються, до оптимізованого лінгвістичного контенту і даних, створених для машинного опрацювання, що відповідають формату "керованої мови".

Безкоштовні інструменти перекладу: пристрої, цифрові платформи, інструменти, мережі та протоколи одночасно не лише надають контекст контенту та діють як елементи, які його структурують, вони водночас створюють сам контент. Дійсно, з точки зору теорії комунікації, замість того, щоб повідомлення передавались від людини до людини через різні носії, ми тепер стикаємося з ситуацією, коли повідомлення можуть надходити як від машин, так і від людей і призначатися як для людей, так і для машин (наприклад, індексаційні роботи або віртуальні асистенти). Іншими словами, медіа стають і відправником, і одержувачем.

Коли дедалі більша частка текстів і повідомлень, з якими ми стикаємося як в Інтернеті, так і через "розумні" пристрої, створюється машинами, можна очікувати більшої стандартизації мов. Наприклад, чим більше ми покладаємося на програми перекладу за кордоном, як зазначає доктор Джосс Муркенс, тим більше нас можуть “навчати” ці програми говорити таким чином, щоб забезпечити максимально прямий переклад. Люди, ймовірно, зрештою будуть навчені говорити обмеженою або неприродньою мовою, щоб досягти “найкращого” результату.

Ще одним свідченням цього є те, що воно може впливати на саму Google: старший аналітик Google Webmaster Trends Джон Мюллер визнав, що Google може бути обманутий контентом перекладений машиною, коли йдеться про ранжування результатів пошуку.

Переосмислення машинного перекладу

Мови не крадуть так, як крадуть власність. Скоріше, людям відмовляють у суверенітеті, необхідному для формування їхніх власних культурних та освітніх практик.

Навчання та оцінка найсучасніших методів нейронного машинного перекладу, як правило, спирається на великі паралельні колекції даних, створені перекладачами-людьми. Віверова характеризація перекладу між мовами лише як дешифрування закодованих повідомлень виглядає грубою, а перекладачі та літературознавці взагалі мають застереження щодо неможливості точного перекладу машиною, особливо художньої літератури та поезії. Справді, поняття "еквівалентності" між текстами активно обговорюється в перекладознавстві. Це не означає, що машинний переклад позбавлений епістемологічного підходу; принцип паралельного перекладу, що лежить в основі сучасних моделей машинного перекладу, відповідає прагматичному, біхевіористському підходу Куайна до перекладу. Незалежно від того, чи вважаєте ви цю концепцію переконливою, чи ні, важливо визнати, що дані, які вважаються золотим стандартом перекладу, містять у собі суб'єктивну позицію людей, які їх написали, що впливає на подальші асоціації, закладені в автоматизованих системах.

Успіх сучасних нейронних систем машинного перекладу значною мірою зумовлений опорою на величезні колекції лінгвістичних даних з Інтернету. Існують тисячі так званих "малоресурсних" мов (і мало поширених діалектів широковживаних мов), для яких немає величезних обсягів оцифрованих даних, політичних чи фінансових стимулів для розвитку інструментів перекладу, необхідних для успішного застосування нейромережевого перекладу. У зв'язку з цим у носів мови може з'явитися простір для вибіркового підходу до того, чи варто, і якщо так, то кому саме надавати свої знання і культуру для нагляду.

У 2005 році лідери народу Мапуче подали до суду на корпорацію Microsoft, звинувативши її в "інтелектуальному піратстві", коли компанія-розробник програмного забезпечення спробувала випустити версію операційної системи Windows мовою мапудунґун, мовою Мапуче. Microsoft не консультувалася з Мапуче і не шукала їхньої згоди на використання їхньої мови, але співпрацювала з Чилійським урядом над розробкою перекладу, однак судовий позов все одно отримали.

Технології сильно ускладнили розуміння можливості "володіння" мовою. Чи достатньо каркасу з тисячі речень, витягнутих з Інтернету, аби виокремити достатню кількість морфосинтаксичних особливостей для подальшої обробки та перекладу? Який вихід у лінгвістичної спільноти, якщо вона не довіряє компаніям розробникам ПЗ для створення інструментів їхньою мовою?

Західні дискурси зникнення мов не розглядають як критичну небезпеку для розвитку технологій, а розвиток технологій для "малоресурсних" мов сприймається як суспільне благо. І справді, саме формулювання "малоресурсна" мова" неявно впливає на мотивацію збирача даних, хоча носії мови мають у своєму розпорядженні безліч ресурсів у вигляді ідіом, жартів, байок та усних історій. З іншого боку, насильницька асиміляція і колонізація призвели до різкого зменшення кількості носіїв незліченної кількості мов корінних народів, і зусилля із документування та відродження таких мов, як Маорі та Юпік, стають об'єктом загальної уваги.

Застосовуючи колективний підхід для розв’язання проблеми нестачі технологічних ресурсів для десятків африканських мов, проєкт Masakhane пропонує створення мовних технологій африканцями і для африканців, залучаючи таким чином найбільш зацікавлені сторони до керівництва напрямком досліджень і кураторства даних з самого початку проєкту. Masakhane створює можливості для учасників, які не мають формальної підготовки в галузі обчислювальних систем, брати безпосередню і конструктивну участь, і є багатонадійним кроком на шляху до використання технології перекладу для розширення можливостей носіїв африканських мов і їхньої спадщини.

Створення, розвиток і застосування технології машинного перекладу історично пов'язане з практиками спостереження та управління. Переклад залишається політичним актом, а розробки машинного перекладу заснованого на даних зосереджені переважно в корпораціях, що ускладнює механізми перерозподілу влади. Усвідомлення недоліків машинного перекладу, як інструменту і як парадигми необхідне для кращого формулювання відповідних контекстів його використання.

Переклад Технології Ші Нейромережі

Статті про вітчизняний бізнес та цікавих людей:

Lullaby@lullaby.ua
Mantle: розбір шведського бренду активного догляду за обличчям і як зорієнтуватися в лінійці
Mantle вирізняється підходом, рідкісним для догляду за обличчям: замість звичного «anti-age» він говорить про здоров'я шкіри – її бар'єр, рівний тон і сяйво.
Дата публікації: 8 год томуЧас на прочитання: 5 хв читати
Теми цього довгочиту:
Mantle
UCloud@ucloud_ua
Хмарні сервіси та їх використання | UCloud
Хмарні сервіси: збереження даних, трансляції, бізнес-програми та освіта. Дізнайтесь, де застосовують хмарні сервіси та як обрати їх для бізнесу.
Дата публікації: 5 дн. томуЧас на прочитання: 4 хв читати
Теми цього довгочиту:
Хмарні Сервіси
Design Print UA@designprintua
Як паковання впливає на сприйняття бренду
Паковання давно перестало бути лише способом перенести або захистити товар. Для бізнесу це частина першого контакту з клієнтом: ще до того, як людина оцінить сам продукт, вона вже бачить матеріал, форму, якість друку та загальну подачу.
Дата публікації: 7 липняЧас на прочитання: 3 хв читати
Теми цього довгочиту:
Виготовлення Упаковки
Л
Леруа@leroymerlin.ua
Розкладний садовий стілець: огляд варіантів від «ЛЕРУА МЕРЛЕН» для дачі та тераси
Мобільні розкладні стільці — елемент комфортного відпочинку на відкритій дачній ділянці, терасі, патіо, в альтанці тощо. На відміну від стаціонарних крісел і диванів, це меблі, які легко переносити з місця на місце, ховати в приміщенні від дощу і брати з собою на заміські пікніки
Дата публікації: 3 липняЧас на прочитання: 4 хв читати
Теми цього довгочиту:
Садові Меблі
Kreisel UA@kreisel
Завод у Фастові: як КРАЙЗЕЛЬ будує українське виробництво світової якості?
Завод німецької компанії КРАЙЗЕЛЬ у Фастові функціонує за суворими німецькими стандартами, випускаючи продукцію з високими експлуатаційними характеристиками і стабільною європейською якістю
Дата публікації: 1 липняЧас на прочитання: 3 хв читати
Теми цього довгочиту:
Будматеріали

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!

Написати

ІД

Іван Дʼяконов@ivanko_d

9Довгочити

780Перегляди

16Підписники

Підтримати

На Друкарні з 15 квітня 2023

Більше від автора

Нічого приховувати. Хибний компроміс між конфіденційністю та безпекою
Приватність чи безпека? Як держава порушує права громадян заради надзвичайних ситуацій. Розкриття хибних аргументів захисників безпеки та їх пагубного впливу на конфіденційність.
Дата публікації: 23 серпняЧас на прочитання: 9 хв читати
Теми цього довгочиту:
Приватність
Платний VPN чи безкоштовний. Що потрібно врахувати під час вибору
Що дорожче: крадіжка особистих даних чи філіжанка кави? Коли платний захист коштує рівно стільки ж, скільки і кавовий напій, вибір очевидний
Дата публікації: 23 серпняЧас на прочитання: 8 хв читати
Теми цього довгочиту:
Vpn
Meta продовжує скорочення працівників. Є застереження, що дезінформація буде посилюватися.
Півдюжини нинішніх і колишніх співробітників мають побоювання, що нові звільнення можуть поставити під загрозу модерацію контенту
Дата публікації: 23 травняЧас на прочитання: 9 хв читати
Теми цього довгочиту:
Дезінформація

Це також може зацікавити:

Антон Дронов@anton.dronov
Ці тренди штучного інтелекту будуть ключовими у 2025 році — дослідження TechStartups
Щоб зрозуміти, куди рухається AI у 2025, я звернувся до масштабного дослідження від TechStartups. Вони проаналізували ключові тренди штучного інтелекту, і деякі з них виявилися особливо цікавими. У цьому матеріалі розглянемо найперспективніші з них.
Дата публікації: 21 січняЧас на прочитання: 7 хв читати
Теми цього довгочиту:
Штучний Інтелект
Олександр Пузиренко@aiRaffe
Bryan Adams - Please Forgive Me
Авторський еквіритмічний переклад українською + згенерований ШІ музичний твір
Дата публікації: 4 травняЧас на прочитання: 4 хв читати
Теми цього довгочиту:
Переклад
Kateryna Staryk@raII8_smhYySPnb
Booklya — перша книгарня зі штучним інтелектом в Іспанії, створена українцями
У Іспанії, серед сонячних вулиць та тихих кав’ярень, з’явилася книгарня нового типу — наповнена книжками та штучним інтелектом, створена українцями. Це не просто місце, де продаються книги: «Booklya» поєднує традицію друкованого слова з передовими технологіями.
Дата публікації: 29 червняЧас на прочитання: 3 хв читати
Теми цього довгочиту:
Ші

Нічого приховувати. Хибний компроміс між конфіденційністю та безпекою

Теми цього довгочиту:

Платний VPN чи безкоштовний. Що потрібно врахувати під час вибору

Теми цього довгочиту:

Meta продовжує скорочення працівників. Є застереження, що дезінформація буде посилюватися.

Теми цього довгочиту:

Зародження машинного перекладу

Від 1997 до сьогодні: Переклад, заснований на даних

Економічні, політичні та філософські питання

Переосмислення машинного перекладу

Статті про вітчизняний бізнес та цікавих людей:

Mantle: розбір шведського бренду активного догляду за обличчям і як зорієнтуватися в лінійці

Теми цього довгочиту:

Хмарні сервіси та їх використання | UCloud

Теми цього довгочиту:

Як паковання впливає на сприйняття бренду

Теми цього довгочиту:

Розкладний садовий стілець: огляд варіантів від «ЛЕРУА МЕРЛЕН» для дачі та тераси

Теми цього довгочиту:

Завод у Фастові: як КРАЙЗЕЛЬ будує українське виробництво світової якості?

Теми цього довгочиту:

Більше від автора

Нічого приховувати. Хибний компроміс між конфіденційністю та безпекою

Теми цього довгочиту:

Платний VPN чи безкоштовний. Що потрібно врахувати під час вибору

Теми цього довгочиту:

Meta продовжує скорочення працівників. Є застереження, що дезінформація буде посилюватися.

Теми цього довгочиту:

Це також може зацікавити:

Ці тренди штучного інтелекту будуть ключовими у 2025 році — дослідження TechStartups

Теми цього довгочиту:

Bryan Adams - Please Forgive Me

Теми цього довгочиту:

Booklya — перша книгарня зі штучним інтелектом в Іспанії, створена українцями

Теми цього довгочиту:

Коментарі (0)

Це також може зацікавити:

Ці тренди штучного інтелекту будуть ключовими у 2025 році — дослідження TechStartups

Теми цього довгочиту:

Bryan Adams - Please Forgive Me

Теми цього довгочиту:

Booklya — перша книгарня зі штучним інтелектом в Іспанії, створена українцями

Теми цього довгочиту: