Визначення релевантності статей і пошукової видачі з використанням нейронних мереж. Python-скрипт обчислює текстову релевантність із застосуванням LaBSE (Language-agnostic BERT Sentence Embedding) на основі косинусної подібності.
Цей метод вважається найбільш точним, оскільки розробники BERT не рекомендують використовувати його в чистому вигляді для таких завдань.
Встановлення скрипта
Якщо ви ніколи не працювали з Python, подивіться коротке 4-хвилинне відео зі встановлення Python і середовища розробки PyCharm - цього достатньо для початку.
Завантажте код із GitHub.
Запустіть скрипт. Під час першого запуску він автоматично завантажить модель LaBSE (близько 2 ГБ), що може зайняти час. Надалі модель кешується, і обробка стає значно швидшою.
Скрипт працює на CPU і в середньому виконує близько 2 запитів на секунду (на моєму ноутбуці). За наявності потужної відеокарти можна адаптувати проєкт для роботи на GPU.
Розрахунок текстової релевантності запиту і статті
Скрипт дає змогу визначити релевантність статті або будь-якого тексту (наприклад, від конкурентів) заданому запиту. Аналіз виконується на рівні абзаців, що зручно для:
Оцінки релевантності контенту в PBN (підвищення позицій за рахунок посилань з рел контенту).
Генерації максимально релевантного тексту для посилань, заголовків і метатегів (title, description).
Як використовувати:
Запускаємо скрипт, вибираємо режим «Аналіз тексту».
Вводимо запит.
Вставляємо текст статті, релевантність якої потрібно перевірити.
Натискаємо «Розрахувати».
Оцінка результату:
До 0.30 - середній рівень релевантності.
0.40-0.60 - хороший показник.
Вище 0.60 - відмінний результат.
LaBSE підтримує 110 мов, включно з російською та українською. Детальніше про модель і приклади її використання можна дізнатися в наукових роботах.