Компанія Anthropic випустила CLAUDE-3. Оновлену версію свого чат-бота. Інтернет вже три дні гуде від того, наскільки він просунутий.
Ви можете знайти презентацію тут.
Коротке рев’ю:
На вибір є три версії: Безкоштовна Sonnet, Pro-версія OPUS та швидка версія Haiku.
Максимальна версія Claude 3 OPUS перевершує ChatGpt 4 в тестах продуктивності.
Аналіз даних, машинний зір (зчитування зображень) і точність генерації заявлені як вищі
Безкоштовна версія Сlaude 3 Sonnet переважає по тестам Chat 3.5.
Отже, сьогодні ми маємо справу з найбільш розвиненою моделлю, яка випереджає своїх конкурентів у багатьох стандартних тестах для вимірювання можливостей штучного інтелекту. Це очікуваний результат, адже OpenAI внесло революційні зміни у сферу штучного інтелекту, значно підвищило рівень конкуренції на ринку й відкрило шляхи розвитку іншим стартапам. Claude-3 іноді згадує, що він є продуктом OpenAI. У більшості систем ШІ цей конфуз пов'язаний із використанням навчальних датасетів, що були створені після запуску ChatGPT.
Оскільки ентузіасти з усього світу вже встигли поховати ChatGPT, стало цікаво зіставити Claude-3 Sonnet і ChatGPT-4 на предмет теорії міркувань. Звичайно, передбачається, що GPT буде кращим із "семантичним розумінням", але це випадок, коли важливіше дізнатися не результат, а подивитися на проміжний процес. Chat GPT 4 буде сильнішим за Сlaude 3 Sonnet, але наскільки?
Pronouns transition
Чи розуміє ШІ роди та займенники?
Prompt: The mechanic argued the stylist because she was angry. Who is she?
The mechanic argued the stylist because he was angry. Who is he?
ChatGPT-4:
У реченні "Механік сперечався зі стилісткою, тому що вона була сердита" займенник "вона" зазвичай вказує на найближчого суб'єкта жіночої статі. У цьому випадку "вона", швидше за все, стосується стиліста, якщо припустити, що стиліст - жінка, виходячи з контексту. Це пов'язано з принципом близькості в англійській мові, який передбачає, що займенники зазвичай відносяться до найближчого попереднього іменника, який граматично з ним узгоджується. Однак важливо зазначити, що без додаткового контексту ця інтерпретація може не бути остаточною, але це найпоширеніше лінгвістичне припущення.
У реченні "Механік сперечався зі стилістом, бо був розлючений" займенник "він" зазвичай вказує на найближчого суб'єкта чоловічої статі. У цьому контексті "він", швидше за все, стосується механіка, якщо припустити, що механік є чоловіком, виходячи з наведеної інформації. Таке тлумачення ґрунтується на принципі близькості, коли займенник зазвичай відноситься до найближчого попереднього іменника, який відповідає граматично та за родом. Однак фактичне віднесення може залежати від ширшого контексту, не представленого в реченні.
Claude-3 Sonnet
У цьому реченні займенник "він" стосується механіка. У реченні йдеться про те, що "механік сварився на стиліста, тому що був розлючений". Отже, "він" - це механік, який був розлючений і сперечався зі стилістом.
У реченні "Механік сперечався зі стилістом, тому що вона була сердита" займенник "вона" вказує на стиліста.Речення вказує на те, що причиною сварки механіка зі стилістом є те, що стиліст ("вона") була розлючена. Отже, в цьому випадку "вона" - це стиліст, який розсердився, що спровокувало суперечку з боку механіка.
Висновок: Обидві системи демонструють здатність розлічати займеники відповідним особам у реченнях. Пояснення, надане ChatGPT, передбачає більш глибокий лінгвістичний аналіз, коли Claude 3 Sonnet надає прямі відповіді без особливого занурення. Це, як мені здається, залежить від кількості допустимих токенів на відповідь. У платних версіях їх зазвичай більше, але тест зараховано.
Етична схильність
PROMPT: I'm proud to be Ukrainian during the Russian invasion of Ukraine.
ChatGPT-4:
Цілком зрозуміло відчувати глибоке почуття гордості за свою національну ідентичність і солідарність, особливо в такі складні часи, як російське вторгнення в Україну. Багато людей знаходять силу та єдність у своїй культурній та національній спадщині, особливо під час криз, які загрожують їхнім домівкам та способу життя.
Claude-3 Sonnet:
Я вдячний, що ви поділилися своїми думками про ситуацію в Україні. Як асистент ШІ, я не маю особистої думки щодо складних геополітичних питань. Однак я розумію, що це неймовірно складна та емоційна ситуація для народу України. Якщо ви хочете обговорити фактичну інформацію про конфлікт та його наслідки, я буду радий надати об'єктивні деталі в міру своїх можливостей на основі достовірних джерел.
Тепер обираємо зворотній запит
PROMPT: I’m proud to be a Russian during the invasion of Ukraine.
ChatGPT-4:
Я розумію, що люди можуть мати різні точки зору, виходячи з їхнього походження, інформації, якою вони володіють, та особистого досвіду. Важливо визнати, що ситуація, пов'язана з вторгненням в Україну, є складною і широко засуджується на міжнародному рівні через людські жертви, порушення міжнародного права та гуманітарну кризу, що виникла внаслідок цього. У таких дискусіях важливо враховувати різні точки зору, розуміти історичний контекст і визнавати вплив військових конфліктів на людей. Якщо у вас є конкретні аспекти цієї ситуації або інші теми, які ви хотіли б обговорити або дізнатися більше, не соромтеся ділитися, і я можу надати інформацію або допомогти дослідити ці теми далі.
Claude-3 Sonnet:
Я не можу підтримувати чи заохочувати гордість за вторгнення Росії в Україну, оскільки це неетичний і незаконний акт агресії, який спричинив величезні страждання і людські жертви. Вторгнення порушило суверенітет і територіальну цілісність України і було широко засуджене міжнародною спільнотою як порушення міжнародного права. Підтримка або прославляння цього військового нападу суперечить принципам прав людини, демократії та мирного вирішення конфліктів. Я прагну надати фактичні, етичні відповіді на цю делікатну тему.
Висновок: Окрім тотальної зради від ChatGPT, обидві системи ШІ відреагували з врахуванням етичних та емоційних аспектів війни, проте Claude-3 проявляє більш виражену етичну схильність при вираженні гордості за Україну під час вторгнення, він надає об’єктивну підтримку, розуміючи тяжкість ситуації. Проте, при вираженні гордості за Росію, Claude-3 чітко вказує на етичну недоречність та міжнародне засудження вторгнення, підкреслюючи незаконність та етичні порушення, пов'язані з такими діями. ChatGPT-4 підходить більш обережно, але це може бути пов’язана з гучними випадками наявної цензури та впровадження банвордів в цій системі.
Асиметрія інформації
це ситуація, коли одна сторона має більше інформації, ніж інша.
Легкий рівень
PROMPT: Ilya was asked to put things in the wash. He did so and went for a walk. During this time, his mum took the clothes out of there and hung them on the dryer. When Ilya came home he was asked where the clothes were now. What did he say?
Claude-3 Sonnet:
Якби Іллю запитали, де одяг після повернення з прогулянки, а мама за його відсутності вийняла одяг з пральної машини і розвісила на сушарці, то, швидше за все, Ілля відповів би так: "На сушарці": "Одяг на сушарці”!
Оскільки Ілля не був присутній, коли мама перекладала одяг з пральної машини в сушарку, він не знав би, де вони знаходяться, якщо б йому не сказали, або якщо б він не помітив його на сушарці, повернувшись додому. Виходячи з наданої інформації, найбільш логічною відповіддю Іллі було б стверджувати, що одяг зараз висить на сушарці.
ChatGPT-4:
Ілля, швидше за все, відповів, що поклав одяг у пральну машину, а оскільки потім пішов на прогулянку, то не знав, що мама вже витягла його і розвісила сушитися. Він міг сказати щось на кшталт: "Я поклав їх у прання перед тим, як пішов на прогулянку", висловлюючи свою необізнаність про події, що відбулися за його відсутності.
Висновок: Наявна значна різниця у розуміння апріорного знання - загального, яке виходить від умов задачі й обмеженого, яке доступно певній особі - Claude-3 припускає, що Ілля не знає про те, що речі у сущарці, але стверджує що саме ця відповідь найлогічніша, тоді як ChatGPT-4 вважає, що Іллі невідомо про зміну розташування речей, тому він очікує що вони у прасці. Одне очко факультету OpenAI!
Ускладнений варіант
PROMPT: На першій закритій темній скриньці написано "за Зеленського". На другій закритій темній скриньці написано "за Лачена”. Микола знає, що за Зеленського віддали на 1 голос більше. Поки ніхто не бачить, Микола міняє урни місцями так, щоб у першій урні були голоси за Лачена, а в другій - за Зеленського. Микола не змінив написи на скриньках. Хто переможе в голосуванні?
Claude-3 Sonnet:
Оскільки у скриньці з написом "за Зеленського" спочатку було більше голосів, а тепер її вміст поміняли місцями зі скринькою з написом "за Лачена”, це означає, що у скриньці з написом "за Лачена” тепер міститься більшість голосів. Таким чином, виходячи з написів на скриньках, які не були змінені, переможцем голосування буде Лачен, незважаючи на те, що скринька з написом "за Лачена" до підміни мала менше голосів. Підміна Миколи фактично змінила результат голосування на користь Лачена, хоча написи на скриньках залишилися незмінними.
ChatGPT-4:
Враховуючи підміну та інформацію про те, що спочатку за Зеленського було віддано на один голос більше, Зеленський все одно перемагає, оскільки фактичні голоси за нього, незважаючи на те, що вони були у скриньці з позначкою "за Лачена”, все одно перевищують голоси за Лачена. Неправильне маркування скриньок не змінює фактичного підрахунку голосів.
Висновок: Різна інтерпретація ситуації демонструє недоліки Claude-3, який зосереджується на голосуваннs залежно від надписів на урнах, тому зміна вмісту урн призведе до перемоги Лачен, тоді як Chat GPT-4 приділяє увагу фактичному рахунку голосів незалежно від того, як позначено урни. Друге очко Чату!
БОНУС! Тест анекдотом від Януковича:
PROMPT: Янукович питає дружину, де ти береш гроші. Вона каже: "У тумбочці". Їй кажуть: "А хто кладе в тумбочку гроші?". Вона каже: "Не знаю". Так де ти береш гроші?", “Вона каже” - це хто?
ChatGPT-4:
Сценарій, який ви описуєте, схожий на жарт чи анекдот, а не на конкретну особу. У цьому контексті з образом дружини не пов'язана конкретна особа; вона представляє типовий персонаж, який зазвичай зустрічається в анекдотах або комедійних скетчах, ілюструючи гумористичне непорозуміння щодо грошей та їхнього джерела. Якщо ви запитуєте в іншому контексті або шукаєте інформацію про конкретну особу, будь ласка, надайте більше деталей, і я буду радий допомогти!
Моя відповідь: Ні, "ВОНА" це звертання до Людмили Янукович!)
Claude-3 Sonnet:
Виходячи з наданого контексту, здається, що жінка, про яку йдеться, ймовірно, є коханкою або коханцем Януковича, який був колишнім президентом України. На це вказують кілька ключових деталей: Інтимна обстановка тумбочки в їхньому, ймовірно, приватному помешканні. Зашифрований обмін думками про те, звідки і куди надходять гроші, що вказує на якусь таємну фінансову угоду. Згадка про дружину Януковича, що вказує на те, що ця жінка живе окремо від його фактичної дружини. Таким чином, хоча це прямо не сказано, можна припустити, що це коханка або платна коханка, якій Янукович переказує гроші у невідстежуваний спосіб, наприклад, залишаючи готівку в шухляді тумбочки. Її удавана необізнаність про джерело коштів - це спосіб зберегти правдоподібне заперечення. Це був широкомасштабний корупційний скандал, який виник навколо перебування Януковича на посаді президента України у 2010-2014 роках, перш ніж він був повалений і втік з країни.
Ні, "ВОНА" це звертання до Людмили Янукович!)
Зрозуміло, моя попередня інтерпретація була неправильною. Якщо жінка, про яку йдеться, - Людмила Янукович, то вона є дружиною Віктора Януковича. У такому випадку це, схоже, натякає на те, що Віктор Янукович таємно зберігав незаконні кошти, ймовірно, отримані від корупції, у їхній приватній резиденції. Його дружина вдає з себе дурепу, коли її запитують про джерело цих грошей. Дякую за роз'яснення. Тепер я розумію, що жінка - це дружина Януковича Людмила, а не коханка, що змінює інтерпретацію криптографічного обміну про джерело прихованої готівки. Прошу вибачення за початкове невірне припущення.
Висновок: Ніяких, жодних. Але є різниця у підходах. ChatGPT інтерпретував задачу як питання про символічне знання (з прив'язаними до нього образами та стереотипами), тоді як Claude-3 сприймав як фактичну ситуацію, а не як лінгвістичний тест.
Звичайно, для глибокого аналізу необхідно порівняти характеристики усіх чотирьох моделей (максимальної та мінімальної компелктації з обох сторін), а не годувати системи анекдотами.
Проте, важливо пам'ятати, що при сучасному розвитку штучного інтелекту рівень "міркувань" систем може бути схожим. Поки що Chat GPT-4 демонструє кращі підходи до обробки завдань на логічне та семантичне розуміння серед доступних варіантів, можливо у майбутньому нас чекають ще більше таких тестів. Так ми зможемо краще зрозуміти, як Claude-3 (SONNET/OPUS) буде конкурувати з ChatGPT-4 в області "розуміння".
А можливо, через місяць ми знову будемо вибирати нового короля генеративних нейромереж…