Meta piratkopierade 82 terabyte e-böcker för att träna sin AI

Meta

Meta anklagas för att ha laddat ner enorma mängder piratkopierade e-böcker via bittorrent för att träna modellerna till bolagets AI.

Det finns pågående stämningsansökningar mot Meta där författare påstår att just deras böcker använts i AI-träningen – och med nya uppgifter känns det allt mer sannolikt.

Mark Zuckerberg gav klartecken till piratkopiering

Redan för flera månader sedan kom de första uppgifterna att Metas VD, Mark Zuckerberg, gav klartecken till användning av piratkopierat material. Nu har vi ytterligare uppgifter som styrker de påståendena.

Enligt påstått läckta mejl som dateras tillbaka till oktober 2022 indikeras att anställda på Meta laddade ner extrema mängder piratkopierade böcker. Hela 82 terabyte vilket är en ofantlig mängd då en enda bok normalt sträcker sig mellan 500 kb och 3-4 MB beroende på bok och format.

Mejlen involverar både vanliga anställda och personer med chefsbefattningar inom bolaget. Här är några mejl och deras innehåll:

Oktober 2022: Melanie Kambadur skriver att hon vägrar delta i piratkopiering som form av datainsamling.

April 2023: Nikolay Bashlykov ansvarar för datainsamlingen och skriver att ”torrenting från en företagsdator inte känns bra” samt att bolaget måste vara försiktig med IP-adresser när de laddar ner innehållet.

September 2023: Nikolay Bashlykov varnar för så kallad ”seeding” med efterföljande diskussioner kring seeding som ett problem för legaliteten i vad de gör.

Meta förnekar alla anklagelser

Det finns även uppgifter från Meta-forskaren Frank Zhang som pekar på att Meta medvetet försökte dölja sina förhavanden genom att hindra de egna servrarna från att utföra seeding, dvs blockera dem från att skicka data ut till torrentnätverken.

Totalt ska 81,7 terabyte e-böcker ha laddats ner från sajter som Z-Library och LibGen. Båda är numera nedstängda.

Meta har svarat på stämningarna och föga förvånande säger bolaget att de bestämt avvisar samtliga anklagelser som riktas mot dem. Bolaget menar att det inte finns några som helst bevis på nedladdning eller distribuering av piratkopierat material.

Llama baseras på öppen källkod – eller?

Llama är AI-modellen som står i fokus hos Meta när bolaget tvingas till domstol av författarna.

Författarna som står i fokus är Sarah Silverman och Ta-Nehisi Coates. Båda säger att sig veta att Meta använt just deras böcker till att träna Llama-modellen.

Sarah Silverman är mest känd som skådespelare och komiker, men har även skrivit böcker som ”The Bedwetter”. Ta-Nehisi Coates är en journalist och författare som har skrivit böcker som ”The Message” och ”The Water Dancer”.

Mikael Anderberg är en veteran inom teknikvärlden med stor kännedom kring tillverkare, nya tekniker och produkter. Har mångårig erfarenhet från blogg- och it-världen vilken bidrar till utvecklingen av Tekniksmart tillsammans med andra entusiaster. Mikael har i grunden expertis inom fotografering och kamerautrustning, copywriter och content editing, och SEO. Läs mer om mig här.