Що, якщо я вам скажу, що ви зможете створити аудіокнигу зі своїм власним голосом штучного інтелекту (клонованим за допомогою технологій штучного інтелекту) менш ніж за годину? І менше 100 доларів?
«Дослідження показали, що люди, які слухають аудіокниги, здатні запам’ятати більше інформації, ніж ті, хто читає з традиційної книги . Крім того, дослідження показали, що люди, які слухають аудіокниги, краще зберігають інформацію з часом порівняно з тими, хто читає книги традиційним способом». audiobooks.com
Висока вартість виробництва аудіокниг (до ШІ голосу)
Час і гроші є одними з найбільших перешкод для авторів і авторів, щоб записати та випустити власні аудіокниги. Тому сьогодні більшість авторів не мають професійно створених аудіокниг.
Оповідання: якщо ви наймаєте професійного актора озвучування, його гонорар може варіюватися від 100 до 500 доларів США за завершену годину (PFH) або більше. Ці погодинні ставки залежать від досвіду та попиту оповідача. Натомість, якщо ви зможете клонувати свій високоякісний голос і використовувати його для самостійного оповідання книги, вартість становитиме лише частку від того, що ви платите за диктора.
Редагування та постпродакшн: після дикторського тексту ваш аудіо потрібно відредагувати та опублікува. Послуги професійного редагування аудіо стягуються від 50 до 100 доларів США за годину.
Ми не будемо вдаватися до додаткових витрат, таких як дизайн обкладинки та поточні маркетингові зусилля для просування вашої аудіокниги. Крім того, коли ваша аудіокнига нарешті опублікована, платформи розповсюдження, такі як ACX, отримують 40-60% від кожного продажу.
Зайве говорити, що час для завершення аудіокниги може легко зайняти місяці! Більшості авторів, яких я знаю, довелося б відмовитися від інших проектів, щоб вони могли поїхати до студій звукозапису та постійно працювати з редакторами, щоб це зробити. Якщо хтось захворів, будь то автор, оповідач чи редактор, проект неминуче затримується.
Незважаючи на те, що творці та автори раді випуску своїх аудіокниг, довгий шлях до досягнення цього може справді виснажити вас емоційно та фінансово.
Хороша новина полягає в тому, що є кращий спосіб!
Що таке ElevenLabs?
ElevenLabs — це генеруюче програмне забезпечення голосового штучного інтелекту, яке досліджує «найпередовіші технології перетворення тексту в мовлення та клонування голосу». Будь-хто, хто вміє спілкуватися за допомогою мови, може використовувати ElevenLabs для створення реалістичних озвучок за допомогою власного голосу. У 2023 році ElevenLabs ще більше вдосконалила свої функції клонування голосу та запустила професійне клонування голосу (PVC), щоб створити ідеальну цифрову копію вашого голосу за допомогою найсучаснішого штучного інтелекту для клонування голосу, доступного через рівень підписки Creator, і ми вважаємо, що це найкраще налаштування для створення аудіокниги. Докладніше про це.
Але спочатку ми повинні запитати, чому ми повинні створювати аудіокниги за допомогою ElevenLabs, а не використовувати готовий голос ШІ.
Навіщо створювати аудіокниги з ElevenLabs
Сьогодні існує багато варіантів створення аудіокниг із голосами ШІ. Фактично, більшість генеративного голосового програмного забезпечення штучного інтелекту пропонує готові голоси ШІ, як і ElevenLabs! Ви можете побачити в їхньому спадному меню «Синтез мовлення», клонувати свій власний голос необов’язково.
Проте набагато краще й цікавіше розповідати аудіокнигу власним голосом! Ми всі це знаємо, але пошук відповідного генеративного голосового програмного забезпечення ШІ є першим і найважливішим кроком.
Люди не слухають і не будуть слухати вашу аудіокнигу, якщо голос ШІ поганий.
Нам потрібно врахувати той факт, що низькоякісні голоси штучного інтелекту не тільки ускладнять проєкт, але й відвернуть слухачів, які в захваті від вашої книги, і можуть ніколи не повернутися до іншої аудіокниги від вас.
Під голосами ШІ низької якості ми маємо на увазі:
Відсутність емоційного вираження
Не вистачає вокальної різноманітності
Немає контекстної адаптації
І більше! Погані або погані голоси штучного інтелекту зіпсують враження для вас і ваших слухачів аудіокниг. Аудіо звучатиме рівно, беземоційно, а дехто навіть каже, що просто дратує.
Це саме те, чого ми хочемо уникнути, використовуючи якісне програмне забезпечення, таке як ElevenLabs. Якщо ви читаєте це, тому що збираєтеся відмовитися від голосів штучного інтелекту, обов’язково спробуйте ElevenLabs у своєму наступному проекті.
👉👉СПРОБУЙТЕ ELEVENLABS БЕЗКОШТОВНО
Кроки для створення аудіокниг за допомогою ElevenLabs
Крок 1. Зареєструйте обліковий запис ElevenLabs
Вам потрібно зареєструвати обліковий запис ElevenLabs, але ви можете спочатку спробувати ElevenLabs безкоштовно. Для запису вашої аудіокниги ми рекомендуємо підписку Creator ($22/місяць), оскільки вона розроблена для «творців контенту, яким потрібна переконлива оповідь для свого контенту та доступ до професійного клонування голосу (PVC)».
Крок 2. Використовуйте «Додати голос» для клонування
Натисніть «Синтез мовлення», потім натисніть «+Додати голос», щоб почати клонування свого голосу!
Ви перейдете до VoiceLab, де ви зможете отримати доступ до наявних клонованих голосових профілів або додати новий, натиснувши «Додати генерований або клонований голос».
Вам буде запропоновано вибрати «Тип голосу для створення». Ми знову рекомендуємо «Професійне клонування голосу», для якого потрібна підписка Creator.
Підписавшись на версію Creator, ви помітите, що ліміт символів становить 110 000. Середня довжина книги містить близько 50 000 слів. Кожне слово має близько 5 символів. Таким чином, середня довжина книги становить близько 250 000 символів. У версії Creator у вас є можливість «Увімкнути виставлення рахунків на основі використання (перевищувати 110 000 символів). Ви можете включити тумблер.
Крок 3. Ознайомтеся з оплатою за використання вашої книги
У вашу поточну підписку включено 110 000 символів. За кожні 1000 символів понад це з вас стягуватиметься 0,3 дол. США (30 центів). ElevenLabs стягуватиме плату з вашого способу оплати щоразу, коли ваш рахунок досягне 44 доларів США.
Таким чином, для середньої книги на 250 000 символів ви дивитесь на загальну вартість близько 66 доларів, тобто 22 долари (вартість передплати) + 42 долари (вартість додаткових символів).
Крок 4. Створіть свою книгу за допомогою функції проекту
Коли ваш голос буде клоновано та готовий до використання, ви можете почати генерувати свою книгу! Ваш голос не буде готовий одразу, якщо ви використовуєте професійне клонування голосу (що займає приблизно 4 тижні з осені 2023 року). Якщо вам потрібно негайно записати книгу, замість цього ви можете скористатися миттєвим клонуванням голосу.
Щоб отримати доступ до функції проекту, натисніть « Проекти » вгорі, а потім натисніть «+ Створити новий проект».
2. Я віддаю перевагу використанню «Створити порожній проект», тому що це дозволяє мені самостійно будувати розділи.
3. Почніть будувати свої розділи з правого боку! Ви також можете включити такі розділи, як «Вступ» або будь-що інше, що передує Розділу 1, Розділу 2 тощо.
4. Коли ви закінчите, натисніть «Перетворити».
А як щодо налаштувань голосу?
Налаштування голосу відображаються як одне зі спадних меню. За замовчуванням стабільність встановлено на 65%, покращення чіткості та подібності встановлено на 72%, а покращення стилю встановлено на 0%. Цей параметр за замовчуванням зазвичай працює добре. Але щоб переконатися, що вам подобається те, як його налаштовано, ми рекомендуємо вам спочатку випробувати його лише за кількома абзацами вашої книги. Якщо ви збираєтеся змінити налаштування за замовчуванням і зрештою знайдете налаштування, яке найкраще підходить для вашого голосу, БУДЬ ЛАСКА, не забудьте записати налаштування у відсотках (як вони налаштовані), щоб ви могли повторити налаштування знову в майбутньому.
Ось що означає кожне налаштування:
Стабільність
Більша варіативність: збільшення варіативності може зробити мовлення більш виразним, а результати змінюватимуться між повторними генераціями. Це також може призвести до нестабільності.
Більш стабільний: підвищення стабільності зробить голос більш узгодженим між повторними генераціями, але також може зробити його звучання дещо монотонним. Для довших текстових фрагментів рекомендуємо зменшити це значення.
Уточнення та покращення подібності
Низький: рекомендовані низькі значення, якщо у створеному мовленні присутні фонові артефакти.
Високий: Високе покращення підвищує загальну чіткість голосу та схожість оратора. Дуже високі значення можуть спричинити артефакти, тому рекомендується налаштувати цей параметр, щоб знайти оптимальне значення.
Перебільшення стилю
Жодного: без перебільшення стилю
Високий: рекомендовано високі значення, якщо стиль промови має бути перебільшеним порівняно із завантаженим аудіо. Більш високі значення можуть призвести до більшої нестабільності у згенерованому мовленні. Встановлення значення 0.0 значно збільшить швидкість генерації та є налаштуванням за замовчуванням
Посилення динаміка
Збільште схожість синтезованого мовлення та голосу за рахунок деякої швидкості генерації.
Крок 5. З’єднання аудіо
Хоча існує кілька способів з’єднати аудіо, я рекомендую вам попрацювати з аудіоредактором на цьому останньому кроці. Це не займе багато часу, а вартість буде незначною. Це забезпечить якість і плавність і професійність переходів між розділами.
Крім того, ви також можете виконати цей крок самостійно. Існує два основних способи з’єднати аудіо: за допомогою цифрової аудіоробочої станції (DAW) або за допомогою онлайнового аудіо з’єднувача.
Використання DAW:
Відкрийте DAW та імпортуйте аудіофайли, які потрібно об’єднати.
Розмістіть аудіофайли в тому порядку, у якому ви хочете їх відтворити.
Використовуйте інструменти редагування DAW, щоб обрізати та зменшувати аудіофайли, щоб вони плавно переходили від одного до іншого.
Експортуйте остаточний зшитий аудіофайл.
DAW, які ми любимо, включають:
Podcastle
GarageBand (безкоштовно на Mac)
Audacity (безкоштовно на Mac і ПК)
Використання онлайн-з’єднувача звуку:
Перейдіть на веб-сайт онлайн-зв’язування аудіо, наприклад Clideo або Audio Joiner.
Завантажте аудіофайли, які потрібно з’єднати.
Розмістіть аудіофайли в тому порядку, у якому ви хочете їх відтворити.
Натисніть кнопку «З’єднати», щоб об’єднати аудіофайли.
Завантажте остаточний зшитий аудіофайл.
Який спосіб ви виберете, залежатиме від ваших особистих уподобань і потреб. Якщо вам зручно користуватися DAW, це дасть вам найбільший контроль над процесом зшивання. Однак, якщо ви не знайомі з DAW, то використання онлайнового аудіо з’єднувача – це швидкий і простий спосіб з’єднати аудіо.
👉👉СПРОБУЙТЕ ELEVENLABS БЕЗКОШТОВНО
Як працює професійне клонування голосу (PVC)?
Професійне клонування голосу (PVC), на відміну від миттєвого клонування голосу (IVC), яке дозволяє майже миттєво клонувати голоси з дуже короткими зразками, дозволяє навчити гіперреалістичну модель голосу. Це досягається шляхом навчання спеціальної моделі на великому наборі голосових даних для створення моделі, яку неможливо відрізнити від оригінального голосу.
Ось що вам слід знати щодо процесу ElevenLab, часових рамок і найкращих практик для досягнення оптимальних результатів.
Оскільки користувацькі моделі потребують тонкого налаштування та навчання, потрібен деякий час, перш ніж ви зможете використовувати свій голосовий клон. Дати оцінку складно, оскільки вона залежить від кількості людей у черзі перед вами та кількох інших факторів. Однак ми рекомендуємо передбачити приблизно 4 тижні, поки ви не отримаєте свій голосовий клон. Ми сподіваємося, що це може бути зроблено швидше, але це залишається приблизною оцінкою.
🎙️ Професійне обладнання для запису: використовуйте високоякісне обладнання для запису для отримання оптимальних результатів, оскільки AI клонує все, що стосується аудіо. Високоякісний вхід = високоякісний вихід. Будь-який мікрофон буде працювати, але ми рекомендуємо мікрофон XLR, який підключається до спеціального аудіоінтерфейсу. Кілька загальних рекомендацій щодо низького класу – це щось на кшталт Audio Technica AT2020 або Rode NT1 з інтерфейсом Focusrite або подібним.
🗣️ Використовуйте поп-фільтр: використовуйте поп-фільтр під час запису. Це мінімізує вибухові речовини під час запису.
📏 Відстань до мікрофона: розташуйтеся на правильній відстані від мікрофона – рекомендовано приблизно два кулаки від мікрофона, але це також залежить від типу запису, який ви хочете.
💥 Запис без шумів: переконайтеся, що аудіовхід не має жодних перешкод, наприклад фонової музики чи шуму. Клонування штучного інтелекту найкраще працює з чистим, чистим звуком.
🎧 Акустика приміщення: бажано записувати в кімнаті з акустичною обробкою. Це зменшує небажане відлуння та фонові шуми, що забезпечує чіткіше введення звуку для ШІ. Ви можете зробити щось тимчасове, використовуючи товсту ковдру або ковдру, щоб зволожити простір для запису.
⚙️ Попередня обробка аудіо: подумайте про редагування свого аудіо заздалегідь, якщо ви прагнете отримати певний звук. Наприклад, якщо вам потрібен відшліфований вихід, схожий на подкаст, попередньо обробіть аудіо, щоб відповідати цій якості, або якщо у вас є довгі паузи або багато «хм» і «ам» між словами, оскільки штучний інтелект також імітує їх .
🎚️ Регулювання гучності: підтримуйте постійну гучність, достатньо гучну, щоб було чітко, але не настільки, щоб викликати спотворення. Мета полягає в тому, щоб досягти збалансованого та стабільного рівня звуку. Ідеальним буде від -23 дБ до -18 дБ RMS з справжнім піком -3 дБ.
🔊 Достатня тривалість аудіо: забезпечте принаймні 30 хвилин аудіо високої якості, яке відповідає наведеним вище вказівкам для досягнення найкращих результатів – бажано ближче до 3 годин аудіо. Чим більше якісних даних ви зможете ввести в ШІ, тим кращим буде голосовий клон. Кількість зразків не має значення; загальний час роботи має значення. Однак, якщо ви плануєте завантажити кілька годин аудіо, краще розділити його на кілька приблизно 30-хвилинних зразків. Це полегшує завантаження.
📁 Завантаження: після натискання кнопки «Завантажити» ви не зможете вносити зміни в клон, і він буде заблокований. Переконайтеся, що ви завантажили правильні зразки, які вам потрібні.
✅ Перевірте свій голос: коли все буде записано та завантажено, вам буде запропоновано підтвердити свій голос. Щоб забезпечити безперебійну роботу, будь ласка, спробуйте перевірити свій голос за допомогою того самого або подібного обладнання, яке використовувалося для запису семплів, а також з тоном і подачею, подібними до тих, що присутні в семплах. Якщо у вас немає доступу до такого самого обладнання, спробуйте перевірити якнайкраще. Якщо це не вдасться, вам доведеться звернутися до служби підтримки.
Майте на увазі, що все це залежить від результату, який ви хочете. Штучний інтелект намагатиметься клонувати все в аудіо, але щоб ШІ працював оптимально та передбачувано, ми пропонуємо дотримуватися вказівок, згаданих вище.
Будь ласка, зверніть увагу: якщо PVC здається непосильним і навчання займає занадто багато часу, ви все одно можете скористатися миттєвим клонуванням голосу від ElevenLab, щоб записати та клонувати свій голос, а потім створити аудіокнигу зі штучним інтелектом.
Голоси ACX і AI
Однак існує одна перешкода для доступності аудіокниг на основі TTS. Відповідно до їх поточної політики ACX/ Audible не дозволяє публікувати аудіокниги, озвучені голосами ШІ. Однак аудіокнига з автоматичним озвученням голосів штучного інтелекту приймається на інших платформах.
Де публікувати свої аудіокниги AI Voice
На момент написання цієї статті ACX/ Audible не підтримує аудіокниги зі штучним інтелектом, але існують інші платформи для включення основних гравців, наприклад:
Google Play Books
Apple
Kobo
OverDrive
Scribd
Spotify
Storytel
BooxAI
A.I. Book Publisher
А також видавничі платформи, такі як:
Findaway Voices
Kobo Writing Life
Author’s Republic
PublishDrive
Soundwise
👉👉СПРОБУЙТЕ ELEVENLABS БЕЗКОШТОВНО
Ціни для ElevenLabs
Ви можете почати роботу з ElevenLabs безкоштовно. Вони мають додаткові пакети, включаючи:
Початковий ($5/місяць)
Творець ($22/місяць)
Незалежний видавець ($99/місяць)
Зростаючий бізнес ($330/місяць)
Обмеження для голосових аудіокниг, створених штучним інтелектом
Як згадувалося раніше, голосові аудіокниги, згенеровані штучним інтелектом, мають обмеження, зокрема Elevenlabs. Ви можете розпочати з кількох тестів. Наприклад, створення аудіо для першого або двох розділів перед тим, як приступити до всієї книги, використовуючи платформу ШІ. Потім ви можте провести перевірку людиною та переконатися, що ви або хтось інший прослуховує весь аудіо, створений ШІ. Будь ласка, слухайте та переглядайте без навушників або гарнітури, оскільки ці артефакти можуть дезорієнтувати та бути гучними.
Попередження: ви можете помітити дивні артефакти, які час від часу генеруються як частина ідеального розділу. Це може засмучувати, але це те, що ви хочете відкрити скоріше, ніж пізніше. Якщо виникнуть подібні технічні проблеми, ви можете заздалегідь зв’язатися зі службою обслуговування клієнтів платформи штучного інтелекту та командами технічної підтримки, щоб надати відгук і дізнатися, чи зможуть вони надати вам додаткову інформацію.
Хоча високоякісний вихідний/навчальний голос, безсумнівно, може допомогти покращити результат, немає гарантії, що штучний інтелект зможе негайно надати вам ідеально згенеровані аудіокниги, готові для завантаження на згадану вище платформу. Людська перевірка не є обов’язковою.
Законодавство, комплаєнс і не дуже веселі речі, які ви повинні знати
Під час створення та розповсюдження аудіокниг зі штучним інтелектом необхідно враховувати низку юридичних питань і питань відповідності. До них належать:
Авторське право: ШІ-аудіокниги, ймовірно, захищені авторським правом, як і традиційні аудіокниги. Це означає, що вам потрібно буде отримати дозвіл від власника авторських прав, перш ніж створювати або розповсюджувати аудіокнигу штучного інтелекту. Коротше кажучи, зосередьтеся на аудіокнигах зі штучним інтелектом для книг, написаних вами, а не кимось іншим.
Інтелектуальна власність: якщо ви використовуєте штучний інтелект для створення вмісту аудіокниги, вам потрібно враховувати права інтелектуальної власності системи штучного інтелекту. ElevenLabs чітко пояснює, що ви повинні клонувати лише свій власний голос, а не чужий. Для отримання додаткової інформації зверніться до Умов використання ElevenLab.
Точність: аудіокниги зі штучним інтелектом можуть бути дуже точними, але перед розповсюдженням важливо переконатися, що вміст точний. Це особливо важливо для аудіокниг, пов’язаних із відповідністю, які можуть містити складну правову та нормативну інформацію.
Позначення авторства: якщо ви використовуєте штучний інтелект для генерування вмісту аудіокниги, вам слід приписати вміст системі штучного інтелекту. Це важливо для прозорості та уникнення претензій щодо плагіату.
Найкращі методи використання AI Voice в аудіокнигах
Використовуйте перевірену систему ШІ. Вибираючи систему штучного інтелекту для генерування вмісту аудіокниг, переконайтеся, що використовуєте надійну систему від відомої компанії. Це допоможе забезпечити точність і надійність системи ШІ. Для цього ElevenLabs довела, що є платформою, якій довіряють багато творців, і вона серйозно ставиться до конфіденційності та умов використання.
Нехай ваші аудіокниги перевірить людина. Перш ніж розповсюджувати свої аудіокниги зі штучним інтелектом, попросіть їх переглянути людину, щоб переконатися, що вміст точний і відповідний. Це особливо важливо для аудіокниг, пов’язаних із відповідністю.
Використовуйте чітку та лаконічну мову. Пишучи вміст для своїх аудіокниг зі штучним інтелектом, використовуйте чітку та лаконічну мову, яку легко зрозуміти. Це допоможе уникнути плутанини чи непорозумінь. Якщо книга написана та перевірена людьми, її вміст, швидше за все, буде якіснішим і релевантнішим для ваших читачів. Однак, якщо ви створюєте книгу повністю за допомогою генеративного штучного інтелекту, дуже важливо, щоб її перевірили ви або редактор.
Будьте в курсі останніх законів і правил. Закони та правила, що стосуються штучного інтелекту, постійно розвиваються, тому важливо бути в курсі останніх подій. Це допоможе вам переконатися, що ваші аудіокниги AI завжди відповідають вимогам.
Висновок: запишіть голос ШІ, навчений вами в ElevenLabs
Отже, чи варто витрачати час і гроші (менше 100 доларів), щоб створити свою аудіокнигу з вашим голосом?
Відповідь ТАК, якщо висока вартість і складна логістика запису аудіокниги не дозволяють створити її для своєї книги. ElevenLabs — чудова альтернатива, яка допомагає зробити аудіокниги доступними не лише для вас як автора, але й для ваших слухачів, які віддадуть перевагу аудіокнигам іншим форматам вашої книги.
Якщо ви є автором самостійної публікації та володієте правами на свою книгу, клонування AI-голосу та розповсюдження вашої книги на платформах аудіокниг AI часто простіше.
Однак, якщо ви працюєте з видавцем, який володіє правами на вашу книгу, вам потрібно буде проконсультуватися з ним, перш ніж записувати аудіокнигу з або без ШІ.
Генеративний штучний інтелект постійно змінюється, як і видавнича галузь, включаючи виробництво та розповсюдження аудіокниг. Я сподіваюся, що ця стаття проллє світло на творців і авторів, які хочуть розповісти свої історії та розвивати свій бізнес, охоплюючи більшу аудиторію.