Yapay Zeka Eğitimi: Kitap metinlerinin telif hakkıyla korunan veri kümesi artık çevrimdışı

Oyseon

Active member
6 Kas 2020
1,420
0
36
Birden fazla yapay zeka modelini eğitmek için kullanılan, telif hakkıyla korunan kitaplardan oluşan büyük bir metin koleksiyonu, Danimarkalı bir korsanlıkla mücadele örgütünün kışkırtmasıyla internetten kaldırıldı. Yaratıcılara göre “Books3” adı verilen veri koleksiyonu, metin dosyaları olarak İngilizce 197.000 kitap metnini içeriyor. Hafta sonu yayınlanan bir analize göre metinlerin çoğunluğu kurgu değil. Ancak boyutu 37 gigabaytın üzerinde olan metin dosyası aynı zamanda Stephen King, Margaret Atwood ve Scientology’nin kurucusu L. Ron Hubbard’ın yazdığı on binlerce kurgu eseri de içeriyor. Bu nedenle eserlerin çoğunluğu 20 yıldan daha eski değildir. Diğer şeylerin yanı sıra, Facebook annesi Meta’nın yapay zekası da onunla eğitildi.

Reklamcılık



Veriler kaybolmadı


Torrentfreak’e göre veri toplama, Danimarka’nın hak sahiplerinden oluşan bir ittifak olan RetighedsAlliances’ın bu yöndeki talebi üzerine internetten kaldırıldı. Kendi açıklamasına göre, “Danca ve yabancı kitapların yasa dışı kopyalarının yapay zeka eğitimi için kullanılmasına” son verdi. Daha önce “yasadışı e-kitaplar” koleksiyonunda Danimarkalı yazarların eserleri bulunmuştu. Kuruluş, hak sahiplerinin eserlerinin yasa dışı kopyalarının dil modellerini eğitmek için kullanılmasını kabul etmeyeceklerine dair açık bir sinyalden söz ediyor. Ancak bu adım yalnızca dosyanın daha fazla indirilmesini engeller. Verilere zaten sahipseniz hâlâ elinizdedir. Bununla eğitilmiş bazı AI modelleri de var.

Silme işleminin duyurulmasından birkaç gün sonra, hafta sonu ABD dergisi The Atlantic’te “Books3″ün bir analizi yayınlandı. İçerdiği ISBN’lere dayanarak veritabanının gerçekte 190.000’den fazla e-kitap içerdiğini yeniden yapılandırmak mümkün oldu. Ancak analize katılanlar 20.000 kişiyi tespit edemedi. Geri kalanların çoğu büyük yayıncı Penguin Random House’dan geldi ve ardından HarperCollins geldi. Bu nedenle OpenAI’ye karşı koymak isteyen geliştirici Shawn Presser tarafından derlendi. “Books3” sayesinde diğer yapay zeka geliştiricileri, GPT modelleriyle karşılaştırılabilir sistemler eğitmiş olabilir. ABD dergisine verdiği demeçte, hedefin lisans eksikliğiyle ilgili endişelere ağır bastığını söyledi.

Bu nedenle “Kitaplar3”, “Yığın” adı verilen daha da büyük bir veri koleksiyonunun parçasıdır. Kitap metinlerinin yanı sıra YouTube’dan altyazılar, Avrupa Parlamentosu’ndan belgeler, Vikipedi metinleri ve çöken ABD şirketi Enron’un dahili e-postalarını da içeriyor. Torrentfreak, çevrimiçi portal “The Eye”ın “Books3″ün kaldırılması talebini yerine getirmesine rağmen, her iki veri koleksiyonuna da çevrimiçi olarak erişilebileceğini yazıyor. Kitap koleksiyonu, diğer şeylerin yanı sıra, şu anda ABD’li kitap yayıncılarıyla başka bir konuda hukuki anlaşmazlığı yürüten İnternet Arşivi’nin elinde bulunuyor.


(mho)



Haberin Sonu