Більше від автора

SEO-спеціаліст Євген Молдовану — експерт із просування сайтів

Євген Молдовану — один із найвідоміших SEO-фахівців рунету, засновник блогу devvver.ru, розробник інструментів для оптимізаторів та активний учасник інтернет-спільноти, який почав свій шлях у галузі ще у 2007 році.

23 травня 3 хв читати

Seo

Євген Молдовану

Розрахунок релевантності запиту до тексту за допомогою BERT

9 лютого 2 хв читати

Визначення релевантності статей і пошукової видачі з використанням нейронних мереж. Python-скрипт обчислює текстову релевантність із застосуванням LaBSE (Language-agnostic BERT Sentence Embedding) на основі косинусної подібності.

Цей метод вважається найбільш точним, оскільки розробники BERT не рекомендують використовувати його в чистому вигляді для таких завдань.

Встановлення скрипта

Якщо ви ніколи не працювали з Python, подивіться коротке 4-хвилинне відео зі встановлення Python і середовища розробки PyCharm - цього достатньо для початку.

Завантажте код із GitHub.

Запустіть скрипт. Під час першого запуску він автоматично завантажить модель LaBSE (близько 2 ГБ), що може зайняти час. Надалі модель кешується, і обробка стає значно швидшою.

Скрипт працює на CPU і в середньому виконує близько 2 запитів на секунду (на моєму ноутбуці). За наявності потужної відеокарти можна адаптувати проєкт для роботи на GPU.

Розрахунок текстової релевантності запиту і статті

Скрипт дає змогу визначити релевантність статті або будь-якого тексту (наприклад, від конкурентів) заданому запиту. Аналіз виконується на рівні абзаців, що зручно для:

Оцінки релевантності контенту в PBN (підвищення позицій за рахунок посилань з рел контенту).

Генерації максимально релевантного тексту для посилань, заголовків і метатегів (title, description).

Як використовувати:

Запускаємо скрипт, вибираємо режим «Аналіз тексту».

Вводимо запит.

Вставляємо текст статті, релевантність якої потрібно перевірити.

Натискаємо «Розрахувати».

Оцінка результату:

До 0.30 - середній рівень релевантності.

0.40-0.60 - хороший показник.

Вище 0.60 - відмінний результат.

LaBSE підтримує 110 мов, включно з російською та українською. Детальніше про модель і приклади її використання можна дізнатися в наукових роботах.