Träningsdata till AI-modeller omfattas ofta av upphovsrätt. Enligt GPAI Code of Practice ska leverantörer kunna visa att datainsamlingen följer EU:s regelverk. Denna artikel förklarar vad koden säger om dokumentation, licenshantering och ansvar.
Bakgrund: Varför upphovsrätt är centralt för AI-utveckling
Många AI-modeller tränas på stora mängder text, bild, ljud eller video. Dessa datamängder kan innehålla material som skyddas av:
- Upphovsrätt (copyright)
- Databasskydd
- Närstående rättigheter (ex. presspublikationer)
Enligt AI Act ska leverantörer säkerställa att användningen av sådana data sker i enlighet med EU-rätten.
Vad säger GPAI-koden?
Koden betonar tre huvudprinciper:
1. Tydlig policy för upphovsrätt
Organisationen bör ha en intern upphovsrättspolicy som omfattar:
- Hur data väljs, samlas in och granskas
- Hur licenser verifieras och dokumenteras
- Hur användningen av skyddat material begränsas eller exkluderas
2. Dokumentation av datakällor
Det räcker inte att ange att "öppna källor" använts. Koden kräver att leverantören dokumenterar:
- Namngivna källor
- Licensvillkor eller rättsligt stöd för användning
- Eventuella filter för att undvika otillåten användning
Exempel:
Om modellen tränats på innehåll från Wikipedia, Common Crawl och kommersiellt licensierat material, bör varje källa dokumenteras separat med licensstatus.
3. Hantering av rättighetsförfrågningar
GPAI-leverantörer bör kunna:
- Identifiera om deras modell innehåller innehåll från viss källa
- Redogöra för vilken grund som använts vid träning
- Hantera begäran om rättelse, borttagning eller kompensation
Detta gäller särskilt modeller som används kommersiellt eller i offentlig sektor.
Konsekvenser vid bristande efterlevnad
Bristande dokumentation eller otydliga licensgrunder kan leda till:
- Rättsliga åtgärder från rättighetsinnehavare
- Förseningar i upphandling där dokumentation efterfrågas
- Förlorat förtroende i marknader där ansvar och transparens är avgörande
Vem ansvarar?
Ansvarsfördelningen bör vara tydlig:
- Utvecklingsteamet ansvarar för att tekniskt filtrera eller märka data
- Juridiskt team ansvarar för licensgranskning och dokumentation
- Projektledning eller produktägare bör integrera copyright compliance i AI-livscykeln
Verktyg och rutiner
Koden nämner inga specifika verktyg, men organisationer rekommenderas att:
- Använda automatiserade datagranskningsverktyg
- Skapa interna checklistor för dokumentation
- Implementera granskning före och efter träning
Upphandling och extern granskning
Vid offentlig upphandling kan efterlevnad av upphovsrätt bli en kvalitetsfaktor. GPAI-leverantörer som kan visa dokumenterad datakontroll har fördel i processer där compliance, spårbarhet och ansvar efterfrågas.
Sammanfattning
GPAI Code of Practice tydliggör att upphovsrätt är ett krav i både utveckling och implementering av AI. Leverantörer bör:
- Etablera en tydlig intern upphovsrättspolicy
- Dokumentera alla träningsdata med rättslig grund
- Förbereda sig för att svara på rättighetsförfrågningar
Detta gäller särskilt aktörer som utvecklar eller använder foundation models i kommersiella eller offentliga sammanhang.
Nyckelbegrepp för vidare läsning:
- AI copyright compliance EU
- AI training data and intellectual property
- GPAI code copyright policy
- AI Act and data licensing
- Responsible AI data practices
- Foundation model copyright risk
- Public procurement AI copyright
Relaterade artiklar i klustret
Denna artikel ingår i ett kluster om AI-förordningen och GPAI Code of Practice. Läs vidare:
Frågor om upphovsrätt i GPAI
Frågor och svar om datakällor, licenser och dokumentation
Hur hanteras upphovsrätt i generativa AI-modeller enligt EU:s AI-förordning? Här förklaras vad GPAI Code of Practice säger om licenser, dokumentation och ansvar.
Vad säger AI-förordningen om upphovsrätt i AI?
AI-förordningen kräver att GPAI-leverantörer visar att träningsdata används i enlighet med upphovsrätts- och immaterialrättsliga regler inom EU.
Måste alla datakällor dokumenteras?
Ja. Enligt GPAI Code of Practice ska leverantören kunna redovisa vilka källor som använts, vilken licensgrund som finns och om skyddat innehåll filtrerats bort.
Vad är syftet med en copyright policy för AI?
Syftet är att säkerställa att organisationen har interna rutiner för att undvika otillåten användning av skyddat material vid träning och distribution av AI-modellen.
Vad räknas som skyddat innehåll?
Skyddat innehåll inkluderar text, bilder, ljud, video och databaser som omfattas av upphovsrätt, närstående rättigheter eller databasskydd enligt EU-rätten.
Vad händer om modellen innehåller skyddat material?
Leverantören bör kunna hantera rättighetsförfrågningar, redovisa användningsgrunden och i vissa fall justera modellen eller kompensera rättighetsinnehavare.
Gäller detta även open source-modeller?
Ja. Även öppna modeller omfattas om de distribueras, används kommersiellt eller används i offentlig sektor inom EU.
Är det bindande att följa dessa krav idag?
GPAI Code of Practice är än så länge frivillig, men anses ligga nära kommande formella standarder. Efterlevnad kan vara avgörande vid granskning eller upphandling.