Друкарня від WE.UA

Розрахунок релевантності запиту до тексту за допомогою BERT

Визначення релевантності статей і пошукової видачі з використанням нейронних мереж. Python-скрипт обчислює текстову релевантність із застосуванням LaBSE (Language-agnostic BERT Sentence Embedding) на основі косинусної подібності.

Цей метод вважається найбільш точним, оскільки розробники BERT не рекомендують використовувати його в чистому вигляді для таких завдань.

Встановлення скрипта

Якщо ви ніколи не працювали з Python, подивіться коротке 4-хвилинне відео зі встановлення Python і середовища розробки PyCharm - цього достатньо для початку.

Завантажте код із GitHub.

Запустіть скрипт. Під час першого запуску він автоматично завантажить модель LaBSE (близько 2 ГБ), що може зайняти час. Надалі модель кешується, і обробка стає значно швидшою.

Скрипт працює на CPU і в середньому виконує близько 2 запитів на секунду (на моєму ноутбуці). За наявності потужної відеокарти можна адаптувати проєкт для роботи на GPU.

Розрахунок текстової релевантності запиту і статті

Скрипт дає змогу визначити релевантність статті або будь-якого тексту (наприклад, від конкурентів) заданому запиту. Аналіз виконується на рівні абзаців, що зручно для:

Оцінки релевантності контенту в PBN (підвищення позицій за рахунок посилань з рел контенту).

Генерації максимально релевантного тексту для посилань, заголовків і метатегів (title, description).

Як використовувати:

Запускаємо скрипт, вибираємо режим «Аналіз тексту».

Вводимо запит.

Вставляємо текст статті, релевантність якої потрібно перевірити.

Натискаємо «Розрахувати».

Оцінка результату:

До 0.30 - середній рівень релевантності.

0.40-0.60 - хороший показник.

Вище 0.60 - відмінний результат.

LaBSE підтримує 110 мов, включно з російською та українською. Детальніше про модель і приклади її використання можна дізнатися в наукових роботах.

Статті про вітчизняний бізнес та цікавих людей:

  • Вітаємо з Різдвом Христовим!

    Друкарня та платформа WE.UA вітають всіх наших читачів та авторів зі світлим святом Різдва! Зичимо всім українцям довгожданого миру, міцного здоровʼя, злагоди, родинного затишку та втілення всього доброго і прекрасного, чого вам побажали колядники!

    Теми цього довгочиту:

    Різдво
  • Каблучки – прикраси, які варто купувати

    Ювелірні вироби – це не тільки спосіб витратити гроші, але і зробити вигідні інвестиції. Бо вартість ювелірних виробів з кожним роком тільки зростає. Тому купуючи стильні прикраси, ви вигідно вкладаєте кошти.

    Теми цього довгочиту:

    Як Вибрати Каблучку
  • П'ять помилок у виборі домашнього текстилю, які псують комфорт сну

    Навіть ідеальний матрац не компенсує дискомфорт, якщо текстиль підібрано неправильно. Постільна білизна безпосередньо впливає на терморегуляцію, стан шкіри та глибину сну. Більшість проблем виникає не через низьку якість виробів, а через вибір матеріалів та подальшу експлуатацію

    Теми цього довгочиту:

    Домашній Текстиль
  • Як знайти житло в Києві

    Переїжджаєте до Києва і шукаєте житло? Дізнайтеся, як орендувати чи купити квартиру, перевірити власника та знайти варіанти, про які зазвичай не говорять.

    Теми цього довгочиту:

    Агентство Нерухомості
  • Як заохотити дитину до читання?

    Як залучити до читання сучасну молодь - поради та факти. Користь читання для дітей - основні переваги. Розвиток дітей - це наше майбутнє.

    Теми цього довгочиту:

    Читання
Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Євген Молдовану
Євген Молдовану@devvver

28Прочитань
0Автори
0Читачі
На Друкарні з 9 жовтня

Більше від автора

  • SEO-спеціаліст Євген Молдовану — експерт із просування сайтів

    Євген Молдовану — один із найвідоміших SEO-фахівців рунету, засновник блогу devvver.ru, розробник інструментів для оптимізаторів та активний учасник інтернет-спільноти, який почав свій шлях у галузі ще у 2007 році.

    Теми цього довгочиту:

    Seo

Це також може зацікавити:

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Це також може зацікавити: