Geniş dil modellerine dair - Salih Cenap Baydar

Geçtiğimiz haftaki yazımda, insanlık olarak bilincimiz ve lisanımız arasındaki karmaşık ilişkiyi çözme yolunda attığımız önemli adımlardan ve o adımların önemli ürünlerinden biri olan Geniş Dil Modellerinden (GDM) bahsetmiştim.

Bu hafta ise, GDM’lerin işleyişine dair daha teknik detaylara ve bu teknolojinin getirdiği bazı etik ve güvenlik meselelerine değinmek istiyorum.

Tabi, “bu son derece teknik bir konu, bize ne GDM dünyasının teknik terimlerinden” diye düşünen okurlarım olabilir.

Çoğu insanın adını ilk defa otuz sene önce işittiği internet, modem, çevirmeli ağ, ADSL, fiber, VPN gibi “son derece teknik” kavramlar bugün günlük hayatımızın bir parçası olmuş durumda. Yapay zeka devrimi, internet devriminden kat kat büyük bir hızla hayatımıza nüfuz ediyor. Olan biteni anlamakta zorlanmamak için GDM’lerle çalışırken sıkça karşımıza çıkan birkaç önemli teknik terimi şimdiden öğrenmekte herkes için fayda olduğunu düşünüyorum.

Bahsedeceğim ilk kavram “token sayısı”.

GDM’ler kendilerine verilen metinleri, “token” adı verilen küçük parçalara ayırır. Bu parçalar genellikle kelimeler veya kelime parçalarıdır. Token sayısı, bir GDM’nin işleyebileceği ve üretebileceği anlam birimlerinin sayısını ifade eder. Yani bu sayı GDM’nin işlem kapasitesi ile doğrudan ilişkilidir. Daha fazla token kapasitesine sahip modeller daha uzun ve karmaşık cümleler işleyebilir, daha geniş bir kelime hazinesine sahip olabilir. Öte yandan token sayısının artması eğitim süresini ve hesaplama için gereken kaynakları da artırır.

İkinci kavramımız temperature (ısı).

Isı, GDM’lerin yaratıcılık seviyesini kontrol eden bir parametredir. Düşük ısı değerleri verdiğimizde daha öngörülebilir, mantıklı ve tutarlı metinler üretilirken, yüksek değerler daha özgün ve beklenmedik sonuçlar verir.

Üçüncü kavramımız “Stop Sequence” (durdurma dizisi).

GDM’nin istenmeyen veya gereksiz içerik üretmesini önlemek amacıyla üretimini durdurmasını sağlayan özel bir karakter dizisidir. Durdurma dizileri sayesinde, GDM ile sohbet eden kullanıcının belli sözleri kullanması halinde (mesela küfretmesi, yasadışı bir şey istemesi vs. gibi durumlarda) cevap üretiminin durdurulması sağlanır.

Dördüncü kavramımız fonksiyon çağırma.

GDM’lerin çeviri yapmak veya metni özetlemek belirli görevleri yerine getirebilmesi için gibi fonksiyonlar tanımlanabilir. Fonksiyon çağırma, GDM’lerin bir insanla değil de internet üzerinden erişilebilen dış yazılım uygulamalarıyla konuşabilmesini sağlar. Böylece mecburen kısıtlı bir veri kümesi ile eğitilmiş olan GDM’ler anlık hava durumunu, trafik durumunu, döviz fiyatlarını, son haberleri öğrenip aktarabilir hale gelir.

GDM’lerin en dikkat çekici özelliklerinden biri de kod üretme yetenekleridir. Büyük miktarda kod verisiyle eğitilen GDM’ler, belirli programlama dillerinin sentaksını ve semantiğini öğrenebilir. Bu sayede, yazılımcılara kod tamamlama, hata ayıklama ve hatta yeni kod yazma gibi konularda yardımcı olabilirler. GDM’ler, programlama süreçlerini otomatikleştirerek yazılımcıların daha verimli çalışmalarını ve daha yaratıcı görevlere odaklanmalarını sağlar.

GDM’ler sahip oldukları muazzam potansiyelle beraber, bazı etik ve güvenlik endişelerini de beraberinde getiriyorlar. Özellikle GDM’lerin ürettiği metinlerin gerçekçi ve ikna edici olması, dezenformasyon ve manipülasyon gibi riskleri artırıyor. Bu nedenle, GDM’ler zararlı veya yanıltıcı içerik üretmesinler diye genellikle bir takım güvenlik kısıtlamalarıyla sunuluyorlar. Ancak, bu kısıtlamalar, GDM’leri üretenlerin önyargılarına göre bilginin sansür yahut manipüle edilmesi ve GDM’nin yaratıcılığının azalması sonucunu doğuracağı için eleştiriliyor.

GDM teknolojisi hızla gelişmeye devam ediyor. Bu teknolojinin gelecekte insan bilinci ve dil arasındaki ilişkiyi daha iyi anlamamıza ve hatta belki de bilincin kendisini taklit etmemize yardımcı olacağını umuyoruz. Ancak, bu gücü sorumlu bir şekilde kullanmak ve potansiyel riskleri en aza indirmek için etik ve güvenlik meselelerini de göz ardı etmemeliyiz.