Openai Şüphe Altında: GPT-4O Sözde O'Reilly kitaplarıyla eğitilmiş

Oyseon

Active member
6 Kas 2020
1,420
0
36
ABD yazılım şirketi OpenAAI, AI model GPT-4O'sunu izinsiz olarak eğitmek için O'Reilly-Verlag'dan en az 34 kitap kullandığı söyleniyor. Bu, yayıncı ve genel müdür Timothy O'Reilly'nin kendisinin dahil olduğu AI ifşa projesi tarafından yapılan bir çalışma ile gösterilmiştir. Çalışmada, GPT-3.5 Turbo ve GPT-4O Mini'ye sahip araştırmacılar, şirketin diğer iki modelini kontrol ettiler, ancak O'Reilly Yayınevi'nin telif hakkının potansiyel ihlallerine daha az açık referanslar buldular.

Araştırmacılar O'Reilly kitaplarından 14.000 alıntı inceliyor


Araştırmalarında, çalışma yazarları OpenAAI'den AI modellerine çoktan seçmeli sorular sağladılar. Dört yanıt seçeneğinden biri, O'Reilly Yayınevi'nden 34 incelenen kitaptan birinden tam anlamıyla bir alıntı idi, diğer üç seçim seçeneği açıklanmış varyantlardı. Toplamda, kitaplardan yaklaşık 14.000 özet kullandılar. Chatbot gerçek bir alıntı tanıydıysa, araştırmacılar bunu ilgili AI modelinin yayıncının telif hakkı korumalı materyali ile eğitildiğinin bir göstergesi olarak yorumladılar.






Bu atölye, Github Copilot ve ChatGPT'nin kod oluşturulmasını nasıl basitleştirebileceğini ve hızlandırabileceğini gösteriyor. Rehberlik altında, katılımcılar doğrudan araçlarla çalışır ve geliştirme iş akışlarında GitHub Copilot ve ChatGPT kullanırlar. CHATGPT'nin olasılıklarını kendi projelerinizde kullanmak için .NET, Python ve JavaScript/TypeScript gibi çeşitli programlama dillerinde Openai Rest API'sını uygulamayı öğreneceksiniz. Buna ek olarak, eğitim gömme dünyasını ve geri alma heceleyen nesil (RAG) tasarımını tanıtmaktadır. Çalıştay çevrimiçi olarak gerçekleşir, Haber/S/NDL6L adresinden daha fazla bilgi







Özellikle, çalışma yazarları istatistiksel muayenelerden türetilebilen sözde AUROC değeri hesapladılar. Daha yüksek değerler, Openai'nin O'Reilly yayınevinin kitaplarıyla bir AI modelini eğitme olasılığını göstermektedir. GPT-4O için, araştırmacılar yüzde 82'lik bir değer belirlediler, bu da kitapların içeriğinin modeli eğitmek için kullanıldığına dair açık bir gösterge elde ettiler. Ayrıca Openai'nin 34 kitabın hepsini içeren Kütüphane Genesis Gölge Kütüphanesi'nin bir veritabanını kullandığından şüpheleniyorlar.

Çalışma: GPT-4O Mini O'Reilly Works ile Eğitilmedi


Ayrıca, AI ifşa projesinin araştırmacıları, halka açık olmayan verilerin öneminin zaman içinde Openai modellerinin eğitiminde arttığı sonucuna varmıştır. 2021 veritabanlı Model GPT-3.5 Turbo, kamuya açık olmayan ekstreler için yüzde 54'lük bir Auroc değeri elde etti. Bununla birlikte, 2024'te yayınlanan GPT-4O mini modeli yüzde 56 ile benzer bir değer elde etti. Çalışma yazarlarına göre, OpenAai'nin bu iki modeli O'Reilly kitaplarıyla eğitmediği gerçeğinden elde edilebilir.

Soruşturma Openai modellerinin ve O'Reilly Yayınevi'nin eserlerinin bireysel bir görünümü olmasına rağmen, yazarlar eğitimi eğitimi için telif hakkı korumalı çalışmaların kullanımında sistematik bir sorun görmektedir. Ayrıca, eğitim sırasında kullanılan içerik için daha fazla şeffaflık ve resmi bir lisans çerçevesi gereklidir. Karşılık gelen ücret olmadan, gelecekte modellerin eğitilebileceği herhangi bir içerik olmayacaktır. Son olarak, New York Times ayrıca OpenAAI'ye karşı AI modellerinin eğitim alanında telif hakkı ihlallerinden de şikayet etti.




(SFE)