Türkçe bir dil modeli yaratmak

Kıymetli okurlar, yazının başlığındaki “yaratmak” kelimesini görünce lütfen hemen öfkelenip, bu abdi acizi tekfir ederek sekmeyi kapatmayın. Yazının başlığını atarken Necip Fazıl Kısakürek’in “Bir Adam Yaratmak” isimli oyunundan esinlendim.

Bu oyunu ilk okuduğumda 15 yahut 16 yaşında olduğumu zannediyorum. Bugün dahi oyunu hatırladığımda kapkaranlık bir sahnede, sadece silüetler gözümde canlanıyor. Zira eser zaman ve tarih mefhumlarından azade, ziyadesiyle “soyut” bir oyundu. Ama tabii ki konumuz tiyatro eleştirmenliği ve dramaturji değil, yapay zeka’daki üretken dil modelleri. Bu yazının konusunun, yani Türkçe dil modeli geliştirme iddiasının, NFK’nın oyunu ile kesişmesi benim açımdan soyutluk düzleminde olabilir. Zira Türkçe dil modeli geliştirme iddialarının somut emarelerini maalesef henüz göremiyoruz.

Yerli ve milli teknoloji ürünlerimizi haklı olarak çok önemsiyoruz. Dünyadaki her yeni gelişmeyi takiben, bizim de bu adımları yakalayacak insan kaynağımızın, birikimimizin olduğu bilinciyle benzerlerini üretip, rekabet edebileceğimize dair sarsılmaz bir inancımız var.

İnanç elbette ki önemli, hele ki bu inanç gayret ile pekiştirilirse iddiamız pek tabii gerçek de olabilir. Fakat yerlilik ve millilik iddiası tribünleri dalgalandırmak için kullanılan sloganlardan ibaret ise kendimizi kandırmaktan öteye de maalesef gidemeyeceğiz.

Yapay zeka dünyasındaki gelişmeleri her hafta takip edip dilim döndüğünce bu köşede aktarmaya gayret ediyorum. Elbette her ayrıntıya yetişebilmemiz mümkün değil. Bu köşede yerli teknoloji girişimlerine, yapay zeka dünyasındaki atılımlara yer vermeyi de inanın en az sizler kadar istiyorum.

Ekseriyetle bu nevi gelişmeleri yabancı kaynaklardan takip ediyor olsam da, bu sahada Türkçe içerik üreten kimi duayenlerimizin çalışmalarını da nacizane takdirle takip ediyorum. Bu isimlerden biri de Youtube kanalını bir üniversiteye çeviren Profesör Murat Karakaya.

Murat Karakaya’nın üç gün önce Youtube kanalında canlı olarak gerçekleştirdiği “Türkçe Büyük Dil Modelini (LLM) sıfırdan eğitmek için kaç kitaplık metine ihtiyacımız var?” başlıklı yayın bugüne dek izlediğim en kaliteli içeriklerden biri idi. Murat Hoca, bilimsel bir ciddiyetle incelediği Türkçe dil modeli üretmek için gerekli metin ihtiyacı konusunda ilginç ayrıntılar sunuyor.

Türkçe dil modeli çalışmalarını sürdüren gerek kamu olsun, gerek özel sektörde olsun pek çok kuruluş, pek çok çalışma grubu var. Üzücü gerçek şu ki Çin gibi, Birleşik Arap Emirlikleri gibi pek çok ülkenin paylaşıma sunduğu türden bir çalışma ülkemizden Türkçe dili namına henüz yapılmadı.

Murat Hoca da son canlı yayınında bu iddiaların bilimsel bir ciddiyetle izini sürüp, Türkçe için 8 milyarlık küçük bir dil modeli üretmenin ne kadarlık bir metin tüketimine ihtiyaç duyduğunu gerçek verilerle ortaya koyuyor.

Küçük dil modelleri dünyayı kasıp kavuruyor. Bu modeller kişisel bilgisayarlarımızda hatta cep telefonlarımızda dahi kullanılabiliyor. Bırakın yüzlerce milyarlık dil modellerini, 8 milyar tokenlık (Token konusuna daha önce başlıklı yazımızda değinmiş idik. Ayrıntılar için meraklı okurlara bu yazımızı tavsiye ediyorum.) küçük bir model üretmemiz bile büyük bir emek istiyor.

Nasıl mı?

Murat Hoca canlı yayınında 8 milyarlık bir dil modeli üretmek için yaklaşık 6 trilyon token’a ihtiyacımız olduğunu belirtiyor. Bu da yaklaşık 10 milyon kitaplık bir veri seti demek. Her bir kitabın 600 sayfa civarında olduğunu varsayıyoruz bu hesabımızda.

Milli Kütüphanemizdeki toplam kitap sayımız 1.4 milyon. İnternetteki tüm Türkçe web sitelerinin içerikleri tokenize edilse, yani tokenlara dönüştürülse, yine kitap hesabıyla söyleyecek olursak 2.25 milyon kitap elde etmiş olacağız. Bu hesapla toplamda 3.65 milyon kitaba ulaştık. Diğer kaliteli metinleri nereden bulacağız?

Murat Hoca insaflı davranıp hedefi biraz daha küçültüyor. 8 milyarlık değil de, 5 milyar tokenlık sadece Türkçe dili ile eğitilmiş bir modelimiz olsun, diye varsaydığımızda dahi bu boyutta bir model için gerekli olacak 5 milyon kitaplık kaliteli veri setine ihtiyacımız olacağı aşikar. İlk hesabımıza göre elimizde 3.65 milyon kitaplık verimiz vardı, yani 5 milyon kitaba ulaşmak için hâlâ 1.35 milyon kitaba ihtiyacımız olacak.

Hesaplamanın başında ölçüt olarak kullanılan 8 milyar tokenlık modeller başarımları çok yüksek olmayan, küçük modeller. Lütfen dikkat buyurun bu kadarlık bir model için dahi elimizde kaliteli olarak addebileceğimiz kitaplarımız, internetteki içeriklerimiz yeterli olmuyor.

Bu verileri bulduk, diyelim. Bu verilerin bir de işlem maliyeti var. Birleşik Arap Emirlikleri Falcon ismindeki modeli 4 bin GPU’yu 4-5 ay çalıştırarak bu model eğittiklerini duyurmuştu. Murat Hoca bir arkadaşından naklettiği bilgide TÜBİTAK’da bu donanımlardan sadece 8 tane (A-100) olduğunu belirtiyor.

Çin gibi, BAE gibi Türkiye ile mukayese edildiğinde demokrasi kültürünün, şeffaflığın görece az olduğu ülkelerin çalışmaları dahi Hugging Face platformunda açık olarak paylaşılırken, Murat Hoca Türkçe dil modeli geliştirdiğini iddia eden firmaların ketumluğundan da haklı olarak yakınıyor.

Türkçe dil modeli ürettiğini söyleyen kuruluşların böyle büyük bir veri setinden istifade edip etmediğini de haklı olarak soruyor Murat Hoca. Bu anlamlı soruyu siz de muhataplarına sorabilirsiniz.

Daha önce de yine bu köşede yazmıştık, yine affınıza sığınarak belirtmek istiyorum: Dil modeli olan rol model olur.

Ama galiba önce kendimize, birbirimize karşı dürüst olmamız gerekiyor.

YORUMLAR (12)
YORUM YAZ
UYARI: Hakaret, küfür, rencide edici cümleler veya imalar, inançlara saldırı içeren, imla kuralları ile yazılmamış, Türkçe karakter kullanılmayan ve büyük harflerle yazılmış yorumlar onaylanmamaktadır. (!) işaretine tıklayarak yorumla ilgili şikayetinizi editöre bildirebilirsiniz.
12 Yorum