Політика Debian щодо ШІ: відкритий код чи етичні обмеження?

Кілька розробників Debian прагнуть ухвалити Загальну резолюцію (GR), тобто принципове рішення, щоб прояснити, за яких умов LLM можуть використовуватися в Debian. Перший пропозицію під заголовком “Толкование DFSG на моделі штучного інтелекту (ШІ)” від Мо Чжоу з команди Deep Learning датовано 19 квітня. Запропонований альтернативний варіант від Торстена Глазера з’явився 23 квітня. У центрі уваги стоїть відповідність DFSG (Директорія вільного програмного забезпечення Debian) тому, як дані для навчання LLM, навіть тих, які називають себе Open Source, були зібрані і як це задокументовано.

Наразі два пропозиції

Перше пропозицію, за яке повинні проголосувати розробники, звучить так:

Пропозиція A: Моделі ШІ, що публікуються під ліцензією Open Source без оригінальних навчальних даних або програм, не вважаються такими, що відповідають DFSG.

Якщо такі моделі не будуть вважатися відповідними DFSG, це виключить їх з основного гілки Debian, їх потрібно буде класифікувати як contrib або non-free і розмістити в відповідних репозиторіях. Це пропозицію отримало необхідну кількість з п’яти підтримок за кілька днів.

Альтернативна пропозиція є більш суворою і формулює:

Модель може бути навчена лише з правомірно придбаних і використаних творів, повинна дотримуватися всіх ліцензій творів, що використовуються в навчанні, і повинна сама бути ліцензованою під відповідною ліцензією, яка дозволяє розповсюдження, або взагалі не повинна бути прийнятною для не вільних.

Цей підхід виведе моделі, які не відповідають цим умовам, з репозиторіїв Debian. Їх можна буде отримати лише з третьої сторони, що багато користувачів Debian відкидає. Далі вказується:

Кожна робота, що виникає з генеративного використання моделі, може бути такою ж вільною, як сама модель; наприклад, програмування з використанням моделі з contrib/non-free запобігає появі результату в main.

Необхідно також ураховувати екологічний аспект, коли Глазер пише:

Проект Debian просить, щоб навчальні джерела не добувалися неетично, а екологічні наслідки навчання та використання моделей ШІ враховувалися.

Альтернативна пропозиція Глазера дуже ускладнює зберігання LLM у архівах Debian. Поки що йому вдалося залучити тільки одного прихильника.

Глазер описує вимоги своєї пропозиції на запит:

Головним чином — жорстка анти-ШІ позиція (з деякими винятками). Ніяких дискусій про їхні переваги, ніяких тверджень, що це неминуче. Вимога на повну інформацію про джерела, повну назву тощо відповідно до наших звичайних процедур. Ніякого прийняття термінології OSAID.

Інший підхід

Колишній керівник проекту Debian Сем Хартман має трохи інший погляд на ШІ в Debian:

Я думаю, що для Debian важливо вважати моделі ШІ вільними, навіть якщо ці моделі базуються на моделях, які не публікують свої навчальні дані. У контексті DFSG вважаю, що модель сама по собі часто є кращою формою модифікації для створення похідних творів.

…
Якщо ми надто зосередимося на доступності даних, на мою думку, ми допоможемо великим гравцям і витісним окремих осіб і маленьких учасників з екосистеми вільного програмного забезпечення. Я розроблю варіант GR, щоб підтримати цю позицію.

https://lists.debian.org/debian-project/2025/02/msg00014.html

Таким чином, можливо, буде щонайменше третє пропозиція від Сема Хартмана, яке вимагатиме більш гнучкого ставлення до LLM, щоб не потрапити в пастку великих гравців.

Не вперше

Це не перший раз, коли Debian обговорює, як слід поводитися з ШІ в проекті. Ще в 2018 році обговорювали Deep Learning. Минулого року дискусія була поновлена, після того як Gentoo заборонив використання генеративних інструментів ШІ/ML через авторські, етичні та якісні занепокоєння. Передбачаються ще кілька запропонованих варіантів, перш ніж у найближчі місяці може бути ухвалена GR.

Що ви думаєте?

Я вважаю цю тему дуже цікавою, і дискусія виводить на поверхню багато аспектів, які мають бути визнані у цьому питанні, яке наша колишня канцлерка називала новим простором. Я дуже зацікавлений, як Debian впорається з цим і, можливо, надасть першу корисну основу для дій для інших проектів.