Java Software Engineer

Рівні ізоляції транзакцій у БД

29 червня 13 хв читати

Зміст

Транзакція
Race conditions
Рівні ізоляції
Оптимістичний / Песимістичний підхід
Чіт шит
Джерела

Проблема у проектуванні бази даних з’являється тоді, коли нам треба працювати більше ніж з одним клієнтом. Цей другий клієнт абсолютно непередбачуваний, він може читати дані поки перший клієнт їх записує, модифікувати поки перший читає, або записувати різні дані разом із першим. Основна ідея багатопотоковості: Пекло це інші.

Транзакція

Транзація це логічна одиниця, яка містить набір команд для читання і записування даних. Концептуально, усі команди у транзакції повинні виконуватись атомарно, виходячи з цього є два наслідки виконання транзакції:

Успішне (commit)
Неуспішне (rollback/abort)

Транзакція дозволяє залишити дані в базі узгодженими, якщо транзакція змінила 10 полів, а мала змінити 20, то всі зміни просто відкотяться.

Для того, щоб дані не втратились продюсер повинен імплементувати необхідні дії при невдалій транзакції. @Transactional наприклад буферизує дані на стороні продюсера поки виконується транзакція, що дозволяє продюсеру отримати доступ до даних, коли транзакція виконує ролбек.

Race conditions

Race conditions виникають, коли дві або більше транзакції намагаються одночасно змінити, або отримати доступ до спільних ресурсів, і кінцевий результат залежить від порядку виконання цих операцій. Якщо race conditions трапляються у вашій БД, то це швидше за все через некоректну ізоляцію транзакцій, або її повну відсутність.

Dirty Read

Уявіть ситуацію, перша транзакція у процесі записування даних у БД, але ця транзакція ще не завершилась. Якщо друга транзакція бачить анкомітед дані першої транзакції, то це брудне читання.

Наслідком брудного читання є неузгодженість даних, коли перша транзакція виконує ролбек: Перша транзакція відкотить свої зміни, друга прочитає зміни, які не будуть відповідати стану БД, тобто дані не будуть узгодженими.

Dirty read проблема з ролбеком — Dirty Read проблема з ролбеком

Також, якщо T1 захоче оновити декілька об’єктів, то T2 можливо побачить лише частину оновлень.

Також dirty read називають write–read conflict, або reading uncommitted data

Non-Repeatable Read

Не повторюване читання також називають read skew, виникає, коли між двома читаннями T1 існує запис T2, що у наслідку може повернути різні значення для кожного читання T1.

Non-Repeatable Read може призвести до серйозних проблем у базах даних, особливо в системах, де цілісність даних є критичною. Наприклад запит, який для обчислення на різних етапах читає дані з A:

C = R(A) - R(B)
R(A) / C

Виконання цього запиту важко буде передбачити, якщо рівень ізоляції не запобігає Non-Repeatable Read.

Dirty write

Брудний запис трапляється, коли транзакції одночасно змінюють одні й ті самі дані, внаслідок чого дані, записані однією з транзакцій, перезаписуються іншою.

Write skew

Зсув запису трапляється, коли транзакції читають спільні дані, потім здійснюють зміни на основі прочитаних даних і записують свої результати, в наслідку таблиця містить мікс змін обох транзакцій. Це стає проблемою, коли існують логічні умови для модифікації даних.

Спрощений приклад з книги Клепмана: Два лікарі стоять на on-call, обом стало зле і вони хочуть піти з роботи, тому одночасно повідомляють про це через нашу програму.

Так як при зчитуванні обидві транзакції отримали 2, то це задовільнило умову для запису даних, в результаті обидва лікарі зняли себе з on-call і всі у лікарні померли.

Особливість цього конфлікту полягає у тому, що змінюються різні рядки у базі даних, тобто не виникає прямого конфлікту між даними, що робить цей race condition менш очевидним.

Phantom read

Фантомне читання відбувається, коли транзакція двічі зчитує набір рядків, і нові рядки додаються або видаляються з цього набору іншою транзакцією.

Чим phantom read відрізняється від non-repeatable read? Non-repeatable read стосується змін даних у існуючих рядках, а у phantom read додаються, або забираються рядки.

Існує підхід, materializing conflict, який перетворює фантом на конфлікт блокувань для конкретного набору рядків, які існують у базі даних. Для цього треба створити окрему табличку, яка використовуватиметься виключно для локів на потрібні дані.

Lost update

Lost Update схожий на Write Skew, тобто теж дві транзакції одночасно читають і змінюють дані, але у Lost Update транзакціїї змінюють один і той самий рядок, в наслідку чого втрачаються дані.

Від Dirty Write відрізняється тим, які дані будуть перезаписані: комітед(Lost Update) чи некомітед (Dirty write).

Halloween

Це дуже специфічна аномалія, трапляється, коли операція оновлення викликає зміну розташування рядка у результуючому сеті, потенційно дозволяючи рядку бути знову обробленим пізніше в тій самій операції оновлення.

Називається так, бо була відкрита у Геловін 1976-го під час роботи над запитом, який мав підвищити зарплату на десять відсотків кожному співробітнику, що заробляв менше $25,000. Цей запит виконувався успішно, без помилок, але після його завершення всі співробітники в БД заробляли принаймні $25,000.

Оскільки їм постійно підвищували зарплату, доки вони не досягли рівня встановленого запитом (25000). Очікувалося, що запит пройде по кожному запису про співробітників із зарплатою менше $25,000 лише один раз. Насправді ж, через те, що навіть оновлені записи були видимі для механізму виконання запитів і продовжували відповідати критеріям запиту, записи про зарплати відповідали кілька разів і кожного разу підвищувалися на 10%, доки всі вони не перевищили $25,000.

Тобто певному користувачу підняли ЗП з $14000 до $15400, але транзакція продовжувала бачити рядок з даними цього користувача при наступних командах і піднімала зарплату допоки на задовільнила свою умову (<25000).

Рівні ізоляції

Рівні ізоляції це групи гарантій, що описують, які race conditions, запобігаються у БД. Зазвичай категоризують за ступенем захисту від аномалій під час виконання транзакцій. Таким чином існують слабші та сильніші рівні ізоляції.

Read Uncommitted

Найнижчий рівень ізоляції, dirty reads дозволені. Використовується дуже рідко через ризик великої кількості аномалій.

Read Committed

Дві гарантії:

При читанні з БД транзакція бачитиме тільки дані, які були закомічені. (запобігає dirty read)
При записувані в БД транзакція тільки перезаписуватиме дані, які були закомічені. (запобігає dirty write)

Цей рівень ізоляції є доволі популярним, він є дефолтним в: Oracle 11g, PostgreSQL, SQL Server 2012, MemSQL

Запобігання dirty write зазвичай імплементують через блокування рядків. Перед модифікуванням об’єкта транзакція спочатку повинна взяти блокування над цим об’єктом і тримати його, доки не закінчить своє виконання. Якщо інша транзакція захоче переписати об’єкт у той самий момент часу, то їй доведеться чекати, поки перша транзакція не завершиться.

Для уникнення dirty read теж можна використовувати лок над рядками і змушувати кожну транзакцію брати лок над об’єктом в момент читання і відразу після прочитання відпускати лок.

Підхід із локування рядків для читання погано працює на практиці, бо одна довготривала транзакція запису може змусити багато транзакцій читання чекати доки довготривала транзакція виконається.

Це відбувається через те, що транзакції запису створюють лок на весь час виконання транзакції, коли транзакції читання тільки на момент читання даних.

По цій причині більшість БД використовують наступний підхід: Для кожного об’єкта, який записується, БД пам’ятає закомічене значення об’єкту (старе) і те, яке транзакція намагається закомітити (нове). Поки транзакція виконується - іншим транзакціям просто дається старе значення.

Repeatable Read

Repeatable Read часто імплементовується через Snapshot Isolation. Основна ідея Snapshot Isolation полягає в тому, що кожна транзакція отримує снапшот бази даних на час свого початку і працює з цим снапшотом протягом всієї своєї діяльності. Це означає, що вона бачить узгоджений стан даних, який не змінюється впродовж її життєвого циклу.

Для реалізації Snapshot Isolation система зберігає кілька версій кожного рядка даних, кожна версія має часову мітку, яка вказує час її створення або зміни, цей метод називається MVCC (Multi-Version Concurrency Control) Транзакції отримують доступ до версій даних, які існували на момент старту транзакції.

Є проблема з назвами, деякі БД цей рівень ізоляції називають Serializable (Oracle), деякі Repeatable Read (MySQL, PostgreSQL). Назва відрізняється через те, що SQL стандарт немає концепту ізоляції снапшотів, бо стандарт базується на System R визначені рівнів ізоляції (1975) і ізоляцію снапшотів тоді ще не придумали. Замість ізоляції напшотів стандарт визначає Repeatable Read, який поверхово схожий на ізоляцію снапшотів.

Декілька БД імплементують Repeatable Read, проте гарантії, які вони забезпечують сильно відрізняються від БД до БД. Існує формальне визначення Repeatable Read, але більшість імплементацій його не задовільняють.

Щоб все зробити ще заплутанішим IBM DB2 використовує Repeatable Read як назву Serializability

Serializable

Зазвичай цей рівень ізоляції вважається найсильнішим, гарантує, що два потоки будуть виконуватсь одночасно так само, як би і виконувались за порядком, звідси і слово serial.

Є три техніки імплементації Serializable:

Виконання транзакцій послідовно
2PL (Two-phase locking)
Оптимістичні підходи керування конкурентністю, як Serializable snapshot isolation (SSI)

Виконання транзакцій послідовно дозволить запобігти багатьом проблемам, такий підхід імплементований в Redis, також деякі системи з буквально серіальним виконанням можуть мати кращий перфоманс, бо уникають локінг та інші проблеми з координацією транзакцій.

Важливо розуміти, що послідовне виконання транзакцій використовує тільки одне ядро процесора.

Цей підхід добре підійде для швидких і малих транзакцій, також імплементація обмежена кейсами з оперативною пам’яттю, якщо дані не помістяться в RAM, то однопотоковий доступ до диску сильно вдарить по виконанню.

2PL є дуже старим підходом, його використовували 30 років (перестали в 70-х). 2PL можна описати, як більший суворий лок, який я описував у Read Committed.

Декілька транзакцій можуть брати лок для читання одного об’єкту допоки в об’єк ніхто не пише. Тільки як об’єкт хтось хоче модифікувати, то до об’єкту очікується ексклюзивний доступ.

В 2PL записувач не просто блокує інших записувачів, він також блокує інших читачів і навпаки.

У Snapshot Isolation читачі не можуть блокувати записувачів і навпаки.

Існує дві фази блокування:

Growing Phase: Транзакція може лише отримувати блокування (lock), але не може звільняти їх. Протягом цієї фази транзакція отримує необхідні блокування на об'єкти, з якими вона хоче взаємодіяти (читати чи писати).
Shrinking Phase: Транзакція може лише звільняти блокування, але не може отримувати нові. Коли транзакція починає звільняти блокування, вона переходить до цієї фази і не може більше отримувати нові блокування.

Таким чином записувачі і читачі змінюють один одному фазу блокування.

Використовуються два основні типи блокувань: спільні блокування (shared locks) для операцій читання і ексклюзивні блокування (exclusive locks) для операцій запису.

У 2PL поганий перфоманс пов’язаний із зміною локів і звісно через можливе виникнення дед локів, як наслідок взаємного блокування.

Існують інші види 2PL з більшою суворістю і з більшим обмеженням паралелізму: S2PL, і SS2PL.

Serializable Snapshot Isolation трішки програє Snapshot Isolation по перфомансу, використовується в PostgreSQL, як оптимістична імплементація Serializable. Імпементується як розширення Snapshot Isolation, де окрім базового алгоритму створення різних версій даних з прив’язкою до часу ще додається алгоритм перевірки серіальних конфліктів між записами транзакцій і визначення чи ці транзакції треба абортити чи комітити (Це і робить алгоритм оптимістичним).

Для великих транзакцій потрібні великі логи, як відслідковуватимуть конфлікти, БД потрібно буде не тільки тримати ці логи, а ще й проходитись по ним. Це варто враховувати.

Оптимістичний / Песимістичний підхід

У СУБД існують два основних підходи до контролю багатопотоковості: песимістичний і оптимістичний. Кожен з них має свої переваги та недоліки, і застосовується залежно від специфіки завдань.

2PL є песимістичним, якщо щось може піти погано, то краще перечекати доки ситація не стане хорошою знову, щоб продовжити роботу. SSI є оптимістичним підходом, замість блокування, якщо щось небезпечне трапиться, транзакція просто продовжить своє виконання з надією, що все виправиться.

Оптимістичний підхід для підтримки узгодженості даних перевіряє конфлікти перед комітом і на основі наявності конфліктів транзакція абортиться, або комітиться.

Чіт шит

Тут перелік зручних табличок про покриття аномалій, опис рівнів та опис імплементацій.

Рівень	Dirty Reads/Writes	Non-repeatable	Write Skew	Phantom	Lost updates	Halloween
Read Uncommitted	+	+	+	+	+	-
Read committed	-	+	+	+	+	-
Repeatable Read	-	-	-	+	-	-
Serializable	-	-	-	-	-	-

Рівень	Опис
Read Uncommitted	Найнижчий. Дозволяє бачити дані, які ще не були закомічені
Read committed	Дозволяє бачити тільки дані, які були закомічені
Repeatable Read	Гарантує, якщо транзакція читає рядок, вона може знову прочитати цей рядок пізніше в транзакції та знайти ті самі значення
Serializable	Найвищий. Гарантує, що транзакцій виконуються паралельно гарантуєчи такий рівень ізоляції, якби вони виконували послідовно (serial)

Ріень	Імплементація
Read Uncommitted	-
Read committed	1. Блокування рядків з взаємним очікуванням 2. Зберігати старе і нове значення і при очікуванні давати старе
Repeatable Read	Snapshot Isolation: Зберігати багато версій даних з прив’язкою до часу (снапшот). Кожна транзакція працює з своїм снапшотом
Serializable	1. Послідовне виконання 2. 2PL: Спільні локи для читання і лок для запису, які постійно змінюють лок над об’єктом один одному 2. Serializable Snapshot Isolation: Це Snapshot Isolation з перевіркою на конфлікти в кінці транзакції, щоб перевіряти, чи потрібен ролбек

Джерела

Martin Kleppmann. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems
https://learn.microsoft.com/en-us/previous-versions/sql/sql-server-2008-r2/ms189122(v=sql.105)?redirectedfrom=MSDN
https://www.youtube.com/watch?v=sxabCqWsFHg
https://blog.coeo.com/a-cheat-sheet-for-isolation-levels-in-sql-server

Програмування Бази Даних Java Postgres

Статті про вітчизняний бізнес та цікавих людей:

Lullaby@lullaby.ua
Mantle: розбір шведського бренду активного догляду за обличчям і як зорієнтуватися в лінійці
Mantle вирізняється підходом, рідкісним для догляду за обличчям: замість звичного «anti-age» він говорить про здоров'я шкіри – її бар'єр, рівний тон і сяйво.
Дата публікації: 3 дн. томуЧас на прочитання: 5 хв читати
Теми цього довгочиту:
Mantle
UCloud@ucloud_ua
Хмарні сервіси та їх використання | UCloud
Хмарні сервіси: збереження даних, трансляції, бізнес-програми та освіта. Дізнайтесь, де застосовують хмарні сервіси та як обрати їх для бізнесу.
Дата публікації: 9 липняЧас на прочитання: 4 хв читати
Теми цього довгочиту:
Хмарні Сервіси
Design Print UA@designprintua
Як паковання впливає на сприйняття бренду
Паковання давно перестало бути лише способом перенести або захистити товар. Для бізнесу це частина першого контакту з клієнтом: ще до того, як людина оцінить сам продукт, вона вже бачить матеріал, форму, якість друку та загальну подачу.
Дата публікації: 7 липняЧас на прочитання: 3 хв читати
Теми цього довгочиту:
Виготовлення Упаковки
Л
Леруа@leroymerlin.ua
Розкладний садовий стілець: огляд варіантів від «ЛЕРУА МЕРЛЕН» для дачі та тераси
Мобільні розкладні стільці — елемент комфортного відпочинку на відкритій дачній ділянці, терасі, патіо, в альтанці тощо. На відміну від стаціонарних крісел і диванів, це меблі, які легко переносити з місця на місце, ховати в приміщенні від дощу і брати з собою на заміські пікніки
Дата публікації: 3 липняЧас на прочитання: 4 хв читати
Теми цього довгочиту:
Садові Меблі
Kreisel UA@kreisel
Завод у Фастові: як КРАЙЗЕЛЬ будує українське виробництво світової якості?
Завод німецької компанії КРАЙЗЕЛЬ у Фастові функціонує за суворими німецькими стандартами, випускаючи продукцію з високими експлуатаційними характеристиками і стабільною європейською якістю
Дата публікації: 1 липняЧас на прочитання: 3 хв читати
Теми цього довгочиту:
Будматеріали

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!

Написати

Yaroslav Kutsela@penrose

Java Software Engineer

9Довгочити

7.8KПерегляди

86Підписники

На Друкарні з 26 квітня 2023

Більше від автора

Stack та Heap
В JVM використовуються дві структури для зберігання інформації в пам’яті: Stack та Heap. Вони мають полярну філософію і ми не можемо обійтись без жодної із них. У цьому пості я намагатимусь обширно опрацювати причини використання обох структур та їхні особливості.
Дата публікації: 23 листопадаЧас на прочитання: 14 хв читати
Теми цього довгочиту:
Java
Види черг в RabbitMQ
Стаття про черги в Rabbit. Кворум черги. Raft консенсус алгоритм. Типи конфірмів і ановледжментів. Типи черг. V1 vs V2. Фічі черг. Використання, недоліки та переваги.
Дата публікації: 18 травняЧас на прочитання: 11 хв читати
Теми цього довгочиту:
Програмування
Види протоколів в RabbitMQ
Пост про порівняння протоколів у Rabbit. Різні версії Advanced Message Queuing Protocol. Недоліки та переваги, способи використання.
Дата публікації: 13 травняЧас на прочитання: 7 хв читати
Теми цього довгочиту:
Rabbitmq

Це також може зацікавити:

P
Pritesh@Pritesh
Machine Learning in Java: Not Dead, Just Wearing Glasses and Crunching Numbers
Java. The language that refuses to retire. The veteran of the enterprise. The one who’s always at the meeting five minutes early with coffee, logging everything, and politely reminding everyone to catch exceptions.
Дата публікації: 9 липняЧас на прочитання: 6 хв читати
Теми цього довгочиту:
Java
Oleksandr Klymenko@overpathz
Поширені помилки у дизайні REST API
У довгочиті розглядаються поширені помилки при проектуванні REST API та способи їх уникнення: версіонування, використання DTO, підхід CQRS, робота з мікросервісами, та інші практики для підвищення продуктивності, безпеки й зручності API
Дата публікації: 22 жовтняЧас на прочитання: 9 хв читати
Теми цього довгочиту:
Java
Вітя@kor0p
Пайтон: декоратори - як і навіщо?
Входячи в пайтон-розробку, кожен дев точно стикався з цим явищем, бо декоратори присутні у каждому, у каждому сучасному фреймворці Пайтона
Дата публікації: 14 квітняЧас на прочитання: 2 хв читати
Теми цього довгочиту:
Пайтон Для Новачків

Stack та Heap

Теми цього довгочиту:

Види черг в RabbitMQ

Теми цього довгочиту:

Види протоколів в RabbitMQ

Теми цього довгочиту:

Транзакція

Race conditions

Dirty Read

Non-Repeatable Read

Dirty write

Write skew

Phantom read

Lost update

Halloween

Рівні ізоляції

Read Uncommitted

Read Committed

Repeatable Read

Serializable

Оптимістичний / Песимістичний підхід

Чіт шит

Джерела

Статті про вітчизняний бізнес та цікавих людей:

Mantle: розбір шведського бренду активного догляду за обличчям і як зорієнтуватися в лінійці

Теми цього довгочиту:

Хмарні сервіси та їх використання | UCloud

Теми цього довгочиту:

Як паковання впливає на сприйняття бренду

Теми цього довгочиту:

Розкладний садовий стілець: огляд варіантів від «ЛЕРУА МЕРЛЕН» для дачі та тераси

Теми цього довгочиту:

Завод у Фастові: як КРАЙЗЕЛЬ будує українське виробництво світової якості?

Теми цього довгочиту:

Більше від автора

Stack та Heap

Теми цього довгочиту:

Види черг в RabbitMQ

Теми цього довгочиту:

Види протоколів в RabbitMQ

Теми цього довгочиту:

Це також може зацікавити:

Machine Learning in Java: Not Dead, Just Wearing Glasses and Crunching Numbers

Теми цього довгочиту:

Поширені помилки у дизайні REST API

Теми цього довгочиту:

Пайтон: декоратори - як і навіщо?

Теми цього довгочиту:

Коментарі (1)

Це також може зацікавити:

Machine Learning in Java: Not Dead, Just Wearing Glasses and Crunching Numbers

Теми цього довгочиту:

Поширені помилки у дизайні REST API

Теми цього довгочиту:

Пайтон: декоратори - як і навіщо?

Теми цього довгочиту: