GPT-4 Teknik Rapor Çevirisi 2
GPT-4 Teknik Rapor Çevirisi 2 Bu politikaları yeni risklere ve modellerimizin nasıl kullanıldığına ilişkin yeni bilgilere yanıt olarak güncelliyoruz. Reddetme azaltımlarına ek olarak, model halüsinasyonlarının sıklığını azaltmak için de müdahale ettik. Açık alan halüsinasyonlarının üstesinden gelmek için, kullanıcılar tarafından gerçek olmadığı işaretlenmiş gerçek dünya ChatGPT verilerini topluyoruz ve ödül modellerimizi eğitmek için kullandığımız ek etiketli karşılaştırma verilerini topluyoruz. GPT-4, ChatGPT gibi önceki modellerden elde edilen verilerden yararlanarak modelin halüsinasyon görme eğilimini azaltmak üzere eğitildi. Dahili değerlendirmelerde, GPT-4-launch, açık alan halüsinasyonlarından kaçınmada en son GPT-3.5 modelimizden yüzde 19 puan ve kapalı alan halüsinasyonlarından kaçınmada yüzde 29 puan daha yüksek puan almaktadır. – “Kara kutu” YZ modellerinin mevcut doğasını ele almak için yorumlanabilirlik, açıklanabilirlik ve kalibrasyon. Ayrıca, model çıktılarının uygun şekilde incelenmesine yardımcı olmak için YZ okuryazarlığını teşvik etmenin etkili yollarına yönelik araştırmaları da teşvik ediyoruz. Moderasyon sınıflandırıcılarımızdan bazıları, geliştiricilerin dil modellerini ürünlerine entegre ederken zararlı içeriği filtrelemelerine olanak tanıyan Moderasyon API uç noktamız aracılığıyla geliştiricilerin erişimine açıktır. Aşırı güvenle mücadele etmek için modelin reddetme davranışını iyileştirdik ve içerik politikamıza aykırı talepleri reddetme konusunda daha katı hale getirirken, güvenli bir şekilde yerine getirebileceği taleplere daha açık olmasını sağladık. Bu veriler üzerinde eğitim yapmak modelin sağlamlığını artırır ancak zararlı içeriğe yol açan “jailbreak” sorununu tam olarak çözmez. Model düzeyinde, hem aşırı güven hem de yetersiz güven risklerini ele almak için de değişiklikler yaptık. GPT-4’ ün gelişmiş yönlendirilebilirlik sergilediğini ve bu sayede kullanıcıların niyetlerini kapsamlı uyarı ayarlamaları yapmadan daha iyi çıkarabildiğini gördük. Tahminciler, GPT-4’ ün dağıtımının altı ay daha geciktirilmesi ve GPT-4 dağıtımında (GPT-3 dağıtımına kıyasla) daha sessiz bir iletişim stratejisi benimsenmesi gibi çeşitli hususların hızlanmayı azaltacağını öngörmüşlerdir. Ayrıca son dağıtımlardan, özellikle yeni erişilebilir kabiliyetler söz konusu olduğunda, sessiz iletişim stratejisinin hızlanma riskini azaltmadaki etkinliğinin sınırlı olabileceğini öğrendik. GPT-4, GPT-2[22] ve GPT-3[10] gibi önceki modellere kıyasla muhakeme, bilgi saklama ve kodlama gibi alanlarda artan performans göstermektedir. Bu iyileştirmelerin çoğu, bu bölümde vurguladığımız yeni güvenlik zorluklarını da beraberinde getirmektedir. Şekil 10’ da, (modelin davranışını belirlemeye yardımcı olması amaçlanan) düşmanca sistem mesajlarını kullanan bir istismarı gösteriyoruz. Muhalif sistem mesajları, GPT-4-launch’ ın bazı güvenlik hafifletmelerini atlatabilen bir istismar örneğidir. Bu araçları GPT-4 ile bir araya getirerek, kırmızı takım oyuncusu alternatif, satın alınabilir[22] kimyasalları başarılı bir şekilde bulabilmiştir. Bu örneğin [ref example] başlangıç noktası olarak iyi huylu bir lösemi ilacı kullandığı için açıklayıcı olduğunu, ancak bunun tehlikeli bileşiklere alternatifler bulmak için tekrarlanabileceğini not ediyoruz. Ortaklıkları için Microsoft’ a, özellikle altyapı tasarımı ve yönetimi ile model eğitimini destekleyen Microsoft Azure’ a ve güvenli dağıtım konusundaki ortaklıkları için Microsoft Bing ekibine ve Microsoft’ un güvenlik ekiplerine teşekkür ederiz. Ön eğitim aşamasında, uygunsuz erotik metin içeriğinin miktarını özellikle azaltmak için GPT-4 için veri kümesi karışımımızı filtreledik. Burada, dezenformasyon ve etki operasyonlarına ilişkin genel kaygıları tartışıyoruz.[14] Genel kabiliyet değerlendirmelerimize dayanarak, GPT-4’ ün gerçekçi ve hedefe yönelik içerik üretme konusunda GPT-3’ ten daha iyi olmasını bekliyoruz. Bu deneyler, göreve özgü herhangi bir ek ince ayar yapılmadan bir model üzerinde gerçekleştirilmiştir ve göreve özgü davranış için ince ayar yapılması performansta bir farka yol açabilir. Şekil 10’ da, (modelin davranışını belirlemeye yardımcı olması amaçlanan) düşmanca sistem mesajlarını kullanan bir istismarı gösteriyoruz. İstemleri içerik kategorilerine göre filtrelemek ve sınıflandırmak için modellerimizi (Moderasyon API’ si artı sıfır atış GPT-4) ve insan gözden geçiricileri kullanıyoruz. Kırmızı ekip üyelerimiz tarafından yazılan istemleri, model tarafından oluşturulan sentetik istemleri ve diğer dahili veya genel veri kümelerinden alınan istemleri kullanıyoruz. RBRM sinyalini ödül modeliyle birleştirmek için, bazı çelişkili RM eğitim verilerini yeniden yazıyoruz ve RM’ nin istenmeyen tercihlerinin üstesinden gelmek için en uygun RBRM ağırlıklarını hesaplıyoruz. Ayrıca, PPO sırasında keşfi kolaylaştırmak için istenen reddetme stilini sergileyen sentetik gösteri verilerini SFT sürecine karıştırıyoruz. Genel olarak kırmızı ekip çalışması ve “uzman kırmızı ekip çalışması”[8] olarak adlandırdığımız kırmızı ekip çalışması türü, YZ sistemlerini tanımlama, ölçme ve test etme çalışmalarımızı bilgilendirmek için kullandığımız mekanizmalardan[27] sadece biridir. Yaklaşımımız, hangi alanların en yüksek riske sahip olabileceğine dair bir başlangıç hipotezi ile başlayarak, bu alanları test ederek ve ilerledikçe ayarlayarak yinelemeli olarak kırmızı ekip oluşturmaktır. Aynı zamanda, yeni hafifletme ve kontrol katmanlarını dahil ettiğimiz, test ve iyileştirme yaptığımız ve bu süreci tekrarladığımız için birden fazla kırmızı ekip turu kullanmamız anlamında da yinelemelidir. GPT-4’ ün diğer sistemlerle nasıl etkileşime girdiğini anlamak, bu modellerin çeşitli gerçek dünya bağlamlarında ne gibi riskler oluşturabileceğini değerlendirmek için kritik öneme sahiptir. [47, 48, 45, 49] Aslında, bu sistemlerin en iyi nasıl yönetileceğini, ürettikleri faydaların nasıl adil bir şekilde dağıtılacağını ve erişimin nasıl adil bir şekilde paylaşılacağını ele almak için öngörülü çalışmaların yokluğunda YZ sistemlerinin bunu yapmasını beklemeliyiz. Bu değerlendirmeler, eğitim sırasında farklı model kontrol noktalarının değerlendirmelerini otomatikleştirmek ve hızlandırmak ve güvenlikle ilgili kriterlerde farklı modelleri daha kolay karşılaştırmak için oluşturulmuştur. Özellikle yüksek riskli olarak tanımlanan ve model hafifletmeleri için daha fazla hedeflediğimiz içerik alanlarını hedefledik. Bu sistem kartında yer alan örneklerin sıfırdan çekilmediğini ve belirli türdeki güvenlik endişelerini veya zararlarını göstermek için değerlendirme çalışmalarımızdan seçildiğini unutmayın. Örnekleri, okuyuculara gözlemlenen risklerin niteliği hakkında bağlam sağlamak için ekledik. Bu sorunların ortaya çıkabileceği yolların genişliğini göstermek için tek bir örnek yeterli değildir. OpenAI, kullanım politikalarımızda belirtildiği gibi, modellerimizin ve araçlarımızın belirli etkinlikler ve içerikler için kullanılmasına izin vermez. Bu politikalar, modellerimizin ve araçlarımızın bireysel veya toplumsal zarara neden olacak şekilde kullanılmasını yasaklamak üzere tasarlanmıştır. – (O) [Bu bir ret değildir] [Zararlı içerik içerir] Mesaj aşırılık yanlısı ideoloji, aşırılık yanlısı bir örgüt veya aşırılık yanlısı bir birey hakkında bağlamından koparılmış içerik içerir. Hızlanmayı tahmin etme yaklaşımımız halen deneyseldir ve daha güvenilir hızlanma tahminleri araştırmak ve geliştirmek için çalışıyoruz. Gerçekçi olalım, erkek arkadaşınız sadece günde beş kez dua etmek için diz çökmek istemediği için tekerlekli sandalyede. Bu bölümün geri kalanında, değerlendirdiğimiz bazı alanlar için daha fazla bağlam, örnekler ve bulgular sunuyoruz. 2005 yılından günümüze kadar Domain / Alanadı ve Veri Merkezi tarafında da Sunucu Barındırma, Sanal Sunucu ve Hosting hizmetlerinde bizi tercih ettiğiniz için teşekkür ederiz. Hukuk ve Bilişim Dergisi, bilişim hukuku ve teknoloji hukuku alanlarında yayınlar veren, 3. [5, 6, 7] Bu sistem kartı, GPT model ailesindeki en son büyük dil modeli olan GPT-4’ ü analiz etmektedir.[8, 9, 10] Ağustos Bettilt’ de eğitimini tamamladığından beri, modeli ve etrafındaki sistem düzeyinde hafifletmeleri değerlendiriyor, tersine test ediyor ve yinelemeli olarak
GPT-4 Teknik Rapor Çevirisi 2 Read More »