DarkBERT, ChatGPT’nin karanlık kardeşi Darknet’ten gelen verilerle eğitildi mi?

Oyseon

Active member
6 Kas 2020
1,423
0
36


  1. DarkBERT, ChatGPT’nin karanlık kardeşi Darknet’ten gelen verilerle eğitildi mi?

Güney Koreli bir araştırma ekibi, Büyük Dil Modelleri (LLM) eğitimi için bir veri seti için Tor ağını taradı. Alışılmadık bir şekilde elde edilen veriler, yalnızca karanlık ağdan, yani potansiyel olarak bilgisayar korsanlarından, siber suçlulardan ve dolandırıcılardan ve ayrıca siyasi olarak zulüm görenlerden ve şeffaf olmayan işlemler veya gözlemlenmeyen bilgi alışverişi için anonimliğe değer veren diğerlerinden gelir. örneğin baskıcı bir rejim altında.

Bununla oluşturulan DarkBERT modeli, yetenekleri açısından aynı mimari tipindeki (BERT ve RoBERTa) diğer büyük dil modellerine eşit veya biraz daha üstün olmalıdır. Bu, ekibin arXiv.org’daki bir ön araştırma raporunda bildirdiği gibi, ilk test dizisinden ortaya çıktı. Genel olarak atom kodunu veya gizli bilgileri ona emanet etmemek daha iyidir – ancak aynısı genel olarak üretken yapay zeka sistemleri için de geçerlidir.

Dark Web, Clear Web’den farklı konuşuyor





Dark web etkinliğini kategorize etmek için kayıt istatistikleri



Dark Web etkinliğini kategorize etmek için kayıt istatistiği


(Resim: DarkBERT: İnternetin Karanlık Yüzü İçin Bir Dil Modeli)



Gerçeklere bir bakış: Dunkelbert’in yaratıcıları, çalışmalarına “kaçırıldı” adını vererek karanlık bir not vermelerine rağmen, dünya hakimiyetini ele geçirmeye veya gizli İnternetten İnternet’in görünür alanına içerik dökmeye (Clear Web) niyetleri olmadığını söylüyorlar. . DarkBERT ile, farklı kullanım durumlarında derin ağ için alana özgü bir modelin avantajlarını ve dezavantajlarını araştırmak istiyorlar.

DarkBERT, Darknet’e ışık getirmeyi hedefliyor


Raporun giriş kısmına göre araştırmanın amacı, Darknet’in dilini daha da geliştirmek. Dark Web için özel olarak tasarlanmış dil modelleri “değerli bilgiler sağlayabilir”. Güney Koreli ekip, karanlık ağın geniş bir dil modelinde yeterli bir şekilde temsil edilmesinin, bu alanı açık ağın görünür alanından ayırıyor gibi görünen sözcüksel ve yapısal çeşitliliği evcilleştirmek için önemli olduğuna inanıyor. Araştırmacılara göre, kapsayıcı hedef, güvenlik araştırması ve Darknet alanı için bağlamsal anlayışa sahip bir AI modeli oluşturmaktır.


Projenin ilk sorusu, Darknet’ten alınan verilerle ilgili hedeflenen eğitimin, bir LLM’ye, ücretsiz olarak erişilebilen “yüzeye yakın” İnternetten alınan verilerle eğitime göre bu alanın dilinin bağlamını daha iyi anlaması sağlayıp sağlamadığıydı. Veri toplamak için ekip, Tor üzerinden karanlık ağa bir dil modeli bağladı ve ikinci adımda bir model oluşturmak için kullandıkları tarama yoluyla ham veriler topladı. Araştırmacılar daha sonra yeni modeli, Google tarafından geliştirilen BERT (Transformers’tan Çift Yönlü Kodlayıcı Temsilleri) türündeki mevcut AI modelleri ve geliştirilmiş mimarisi RoBERTa (Robustly Optimized BERT Pre-training Approach) ile karşılaştırdı.




DarkBERT: Ön eğitim sürecinin ve değerlendirme senaryolarının çizimi



DarkBERT: Ön eğitim sürecinin ve değerlendirme senaryolarının çizimi


(Resim: DarkBERT: İnternetin Karanlık Yüzü İçin Bir Dil Modeli)



Hedef Kitle: Siber güvenlik kurumları ve kolluk kuvvetleri


Beklendiği gibi DarkBERT, alan bilgisiyle karanlık web testlerinde ikisinden daha iyi performans gösterdi – en azından biraz. BERT, güçlü GPT tipi Transformer modelleri karşısında artık biraz modası geçmiş olarak kabul edilirken, Google tarafından açık kaynak olarak kullanıma sunuldu ve çoğaltma çalışmaları için model türünün kullanılmasıyla ilgili araştırmalar devam ediyor. DarkBERT, ön baskıdan da görülebileceği gibi, iki haftalık bir süre boyunca iki veri setinin beslendiği, sonradan eğitilmiş bir RoBERTa’dır: bir kez taranan ham veriler ve ikinci kez veri setinin hazırlanmış (ön işlenmiş) bir formu.

Hedef grup siber suçlular değil, siber suçlarla savaşmak için karanlık ağı araştıran kanun uygulayıcı kurumlardır. Ön baskıya göre, dark web’deki en yaygın konular dolandırıcılık ve veri hırsızlığıdır ve dark web’in ayrıca organize suçlar tarafından isimsiz görüşmeler için kullanıldığı söyleniyor. Yaklaşımla ilgili ilginç olan şey, karanlık veya derin web’in, Google gibi arama motorlarının gizlediği ve insanların çoğunluğunun oy kullanmadığı (veya yapmadığı) bir İnternet alanı olmasıdır, çünkü bunun için özel bir yazılım gereklidir. .




Soğan Yöntemi: Tor Ağı Nasıl Çalışır?



Tor Tarayıcıda Soğan Prosedürü: Tor Ağı Nasıl Çalışır?


(Resim: BSI)



Anonimlik, gazeteciler ve muhalefet üyeleri için de önemlidir.


Temel olarak, internette anonim olarak gezinmek, mahremiyetlerine önem veren ve verilerini kişiselleştirilmiş reklamcılık yoluyla veri toplamayı veya hedeflemeyi bir iş modeli haline getiren (Google gibi) büyük teknoloji şirketlerinin havuzuna atmak istemeyen herkes için ilginç olacaktır. ). Gazeteciler, muhalefet üyeleri ve siyasi olarak zulüm görenler de, örneğin bölgesel olarak engellenen ve sansürlenen içeriğe erişmek için Darknet’i kullanıyor. Tor tarayıcı başlangıçta bağlantı verilerini anonimleştirmek için bir yer paylaşımlı ağdan başka bir şey değildir, logosu ve kısaltması soğan ilkesini temsil eder (yazılınca kısaltma “Soğan Yönlendirici” dir). Tor, kullanıcılarını, örneğin tarama yaparken, sohbet ederken ve e-posta gönderirken veri trafiğini analiz etmekten korur.


Önerilen Haber Amaçlı İçerik



İzninizle, harici bir YouTube videosu (Google Ireland Limited) buraya yüklenecek.



Her zaman YouTube videosunu yükle

YouTube videosunu şimdi yükle




c’t 3003: “Darknet hakkında bilmeniz gerekenler (ve orada nasıl güvende olunacağı)” – Jan-Keno Janssen




İnsan geri bildirimli takviye eğitimi (RLHF) nedeniyle mevcut modelleri çok yumuşak ve empatik bulan herkes DarkBERT’ten memnun olabilir – veya “karanlık” değişken Darknet’in doğası hakkındaki mitleri yok ederse sonunda hayal kırıklığına uğrayabilir. çıktı beklenenden daha önemsiz çıkıyor. Yüzey seviyesindeki İnternet de estetikle ünlü değil. DarkBERT ücretsiz olarak erişilebilir değil ve arXiv ön baskısına göre modeli halka açık hale getirme planları yok.







Karanlık web etkinliklerini sınıflandırmada BERT ve RoBERTa ile karşılaştırıldığında DarkBERT’in performans sonuçları (her durumda en iyi performans kalın harflerle vurgulanmıştır)


(Resim: DarkBERT: İnternetin Karanlık Yüzü İçin Bir Dil Modeli)



Planlanan yayın yok


Benzer yaklaşımlar, örneğin ilgili forumları veya yasa dışı faaliyetleri izlemek için gerçek zamanlı bir aramayla birleştirilmeleri koşuluyla siber güvenlik yetkilileri için ilgi çekici olabilir. Bu tür yaklaşımların, gözetim ve sansürün henüz kök salmadığı İnternet’in son korunan alanlarının kurbanı olmaması umulmaktadır.

Kolluk kuvvetlerine erişim izni verilip verilmeyeceği bilinmiyor, ancak akademik araştırma amaçlı talepler kabul edilecek. LLaMA’nın Meta AI / FAIR (Facebook AI Research) tarafından bu formda erişilebilir hale getirildiğini ve hızlı bir şekilde sızdırıldığını göz önünde bulundurursanız, DarkBERT’in öngörülebilir bir gelecekte – örneğin Darknet’te – gayri resmi olarak dolaşıma girmesi düşünülebilir.


(o)



Haberin Sonu