Що таке robot.txt та що змінив штучний інтелект

Robots.txt - це файл, який є в кореневому каталозі майже кожного сайту. Він визначає правила, за якими роботи пошукових систем можуть сканувати цей сайт. Власник сайту може налаштувати правила на свій розсуд. Наприклад, вказати, які сторінки не можна індексувати, або зовсім заборонити ботам доступ. 

Навіщо це потрібно?

Боти, що індексують сайти, з'явилися в 1990-х. Їх використовували для каталогізації інтернету, щоб полегшити пошук потрібних даних. Таке сканування подобалося не всім, оскільки уповільнювало роботу сайту. 

Тоді програміст Мартін Костер придумав протокол виключення роботів. Він являв собою звичайний текстовий файл, що описує правила роботи пошукових алгоритмів для конкретного сайту. Протокол не накладав жодних юридичних зобов'язань, але став такою собі подобою суспільного договору між власниками сайтів і пошуковиків. 

Як це працює?

Сканування роботами дає можливість додавати сайти в пошукову видачу, тому більшість власників дозволяє індексацію, щоб залучити трафік. Це вигідно всім: пошуковики отримують інформацію, а сайти — нових відвідувачів. При цьому у власників залишається можливість приховати від пошукових систем будь-яку інформацію на сайті.

Що змінилося зараз?

З появою штучного інтелекту роботи стали збирати в інтернеті інформацію для навчання алгоритмів. Наприкінці 2023 року New York Times подала в суд на OpenAI, заявивши, що для навчання мовних моделей було використано мільйони захищених авторським правом матеріалів.

Із цим можна щось зробити?

У файлі robots.txt можна прописати заборону на збір інформації роботами нейромережевих компаній, але їх з кожним днем стає все більше, і заборонити все дуже складно. Крім того, правила індексації — це неформальна домовленість, а отже, їх можна ігнорувати, якщо компанія не дуже переймається своєю репутацією.

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Rodion Shkurko
Rodion Shkurko@rodion.shkurko

20.5KПрочитань
17Автори
92Читачі
Підтримати
На Друкарні з 23 квітня

Більше від автора

Вам також сподобається

  • 7 робіт, повʼязаних з ШІ, для тих, хто не вміє кодувати

    Хоча більшість вакансій, пов’язаних зі штучним інтелектом, опублікованих на Indeed і LinkedIn, призначені для розробників програмного забезпечення та інженерів із машинного навчання, деякі з них все ж не вимагають технічної підготовки.

    Теми цього довгочиту:

    Штучний Інтелект
  • Її таємниця(нарис про Олександру Свеклу)

    Олександра Свекла може на себе сміливо вішати ореол загадковості та таємничості. Один лиш факт того, що вона фігурувала то як Олеся, то як Сфекла вже говорить про відомість даної особи, тому сьогодні мова піде про цю покритою таємницями українську письменницю.

    Теми цього довгочиту:

    Українська Література
  • Пройобана монополія на насилля

    Цей пост - реакція на те що відбулося на цьому тижні у моєму рідному місті. Відео події можна переглянути по першому посиланню.

    Публікація містить описи/фото насилля, еротики або іншого чутливого контенту.

    Теми цього довгочиту:

    Україна

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Вам також сподобається

  • 7 робіт, повʼязаних з ШІ, для тих, хто не вміє кодувати

    Хоча більшість вакансій, пов’язаних зі штучним інтелектом, опублікованих на Indeed і LinkedIn, призначені для розробників програмного забезпечення та інженерів із машинного навчання, деякі з них все ж не вимагають технічної підготовки.

    Теми цього довгочиту:

    Штучний Інтелект
  • Її таємниця(нарис про Олександру Свеклу)

    Олександра Свекла може на себе сміливо вішати ореол загадковості та таємничості. Один лиш факт того, що вона фігурувала то як Олеся, то як Сфекла вже говорить про відомість даної особи, тому сьогодні мова піде про цю покритою таємницями українську письменницю.

    Теми цього довгочиту:

    Українська Література
  • Пройобана монополія на насилля

    Цей пост - реакція на те що відбулося на цьому тижні у моєму рідному місті. Відео події можна переглянути по першому посиланню.

    Публікація містить описи/фото насилля, еротики або іншого чутливого контенту.

    Теми цього довгочиту:

    Україна