Türkçe bir dil modeli yaratmak

Kıymetli okurlar, yazının başlığındaki “yaratmak” kelimesini görünce lütfen hemen öfkelenip, bu abdi acizi tekfir ederek sekmeyi kapatmayın. Yazının başlığını atarken Necip Fazıl Kısakürek’in “Bir Adam Yaratmak” isimli oyunundan esinlendim.

Bu oyunu ilk okuduğumda 15 yahut 16 yaşında olduğumu zannediyorum. Bugün dahi oyunu hatırladığımda kapkaranlık bir sahnede, sadece silüetler gözümde canlanıyor. Zira eser zaman ve tarih mefhumlarından azade, ziyadesiyle “soyut” bir oyundu. Ama tabii ki konumuz tiyatro eleştirmenliği ve dramaturji değil, yapay zeka’daki üretken dil modelleri. Bu yazının konusunun, yani Türkçe dil modeli geliştirme iddiasının, NFK’nın oyunu ile kesişmesi benim açımdan soyutluk düzleminde olabilir. Zira Türkçe dil modeli geliştirme iddialarının somut emarelerini maalesef henüz göremiyoruz.

Yerli ve milli teknoloji ürünlerimizi haklı olarak çok önemsiyoruz. Dünyadaki her yeni gelişmeyi takiben, bizim de bu adımları yakalayacak insan kaynağımızın, birikimimizin olduğu bilinciyle benzerlerini üretip, rekabet edebileceğimize dair sarsılmaz bir inancımız var.

İnanç elbette ki önemli, hele ki bu inanç gayret ile pekiştirilirse iddiamız pek tabii gerçek de olabilir. Fakat yerlilik ve millilik iddiası tribünleri dalgalandırmak için kullanılan sloganlardan ibaret ise kendimizi kandırmaktan öteye de maalesef gidemeyeceğiz.

Yapay zeka dünyasındaki gelişmeleri her hafta takip edip dilim döndüğünce bu köşede aktarmaya gayret ediyorum. Elbette her ayrıntıya yetişebilmemiz mümkün değil. Bu köşede yerli teknoloji girişimlerine, yapay zeka dünyasındaki atılımlara yer vermeyi de inanın en az sizler kadar istiyorum.

Ekseriyetle bu nevi gelişmeleri yabancı kaynaklardan takip ediyor olsam da, bu sahada Türkçe içerik üreten kimi duayenlerimizin çalışmalarını da nacizane takdirle takip ediyorum. Bu isimlerden biri de Youtube kanalını bir üniversiteye çeviren Profesör Murat Karakaya.

Murat Karakaya’nın üç gün önce Youtube kanalında canlı olarak gerçekleştirdiği “Türkçe Büyük Dil Modelini (LLM) sıfırdan eğitmek için kaç kitaplık metine ihtiyacımız var?” başlıklı yayın bugüne dek izlediğim en kaliteli içeriklerden biri idi. Murat Hoca, bilimsel bir ciddiyetle incelediği Türkçe dil modeli üretmek için gerekli metin ihtiyacı konusunda ilginç ayrıntılar sunuyor.

Türkçe dil modeli çalışmalarını sürdüren gerek kamu olsun, gerek özel sektörde olsun pek çok kuruluş, pek çok çalışma grubu var. Üzücü gerçek şu ki Çin gibi, Birleşik Arap Emirlikleri gibi pek çok ülkenin paylaşıma sunduğu türden bir çalışma ülkemizden Türkçe dili namına henüz yapılmadı.

Murat Hoca da son canlı yayınında bu iddiaların bilimsel bir ciddiyetle izini sürüp, Türkçe için 8 milyarlık küçük bir dil modeli üretmenin ne kadarlık bir metin tüketimine ihtiyaç duyduğunu gerçek verilerle ortaya koyuyor.

Küçük dil modelleri dünyayı kasıp kavuruyor. Bu modeller kişisel bilgisayarlarımızda hatta cep telefonlarımızda dahi kullanılabiliyor. Bırakın yüzlerce milyarlık dil modellerini, 8 milyar tokenlık (Token konusuna daha önce başlıklı yazımızda değinmiş idik. Ayrıntılar için meraklı okurlara bu yazımızı tavsiye ediyorum.) küçük bir model üretmemiz bile büyük bir emek istiyor.

Nasıl mı?

Murat Hoca canlı yayınında 8 milyarlık bir dil modeli üretmek için yaklaşık 6 trilyon token’a ihtiyacımız olduğunu belirtiyor. Bu da yaklaşık 10 milyon kitaplık bir veri seti demek. Her bir kitabın 600 sayfa civarında olduğunu varsayıyoruz bu hesabımızda.

Milli Kütüphanemizdeki toplam kitap sayımız 1.4 milyon. İnternetteki tüm Türkçe web sitelerinin içerikleri tokenize edilse, yani tokenlara dönüştürülse, yine kitap hesabıyla söyleyecek olursak 2.25 milyon kitap elde etmiş olacağız. Bu hesapla toplamda 3.65 milyon kitaba ulaştık. Diğer kaliteli metinleri nereden bulacağız?

Murat Hoca insaflı davranıp hedefi biraz daha küçültüyor. 8 milyarlık değil de, 5 milyar tokenlık sadece Türkçe dili ile eğitilmiş bir modelimiz olsun, diye varsaydığımızda dahi bu boyutta bir model için gerekli olacak 5 milyon kitaplık kaliteli veri setine ihtiyacımız olacağı aşikar. İlk hesabımıza göre elimizde 3.65 milyon kitaplık verimiz vardı, yani 5 milyon kitaba ulaşmak için hâlâ 1.35 milyon kitaba ihtiyacımız olacak.

Hesaplamanın başında ölçüt olarak kullanılan 8 milyar tokenlık modeller başarımları çok yüksek olmayan, küçük modeller. Lütfen dikkat buyurun bu kadarlık bir model için dahi elimizde kaliteli olarak addebileceğimiz kitaplarımız, internetteki içeriklerimiz yeterli olmuyor.

Bu verileri bulduk, diyelim. Bu verilerin bir de işlem maliyeti var. Birleşik Arap Emirlikleri Falcon ismindeki modeli 4 bin GPU’yu 4-5 ay çalıştırarak bu model eğittiklerini duyurmuştu. Murat Hoca bir arkadaşından naklettiği bilgide TÜBİTAK’da bu donanımlardan sadece 8 tane (A-100) olduğunu belirtiyor.

Çin gibi, BAE gibi Türkiye ile mukayese edildiğinde demokrasi kültürünün, şeffaflığın görece az olduğu ülkelerin çalışmaları dahi Hugging Face platformunda açık olarak paylaşılırken, Murat Hoca Türkçe dil modeli geliştirdiğini iddia eden firmaların ketumluğundan da haklı olarak yakınıyor.

Türkçe dil modeli ürettiğini söyleyen kuruluşların böyle büyük bir veri setinden istifade edip etmediğini de haklı olarak soruyor Murat Hoca. Bu anlamlı soruyu siz de muhataplarına sorabilirsiniz.

Daha önce de yine bu köşede yazmıştık, yine affınıza sığınarak belirtmek istiyorum: Dil modeli olan rol model olur.

Ama galiba önce kendimize, birbirimize karşı dürüst olmamız gerekiyor.

YORUMLAR (12)
YORUM YAZ
İÇERİK VE ONAY KURALLARI: KARAR Gazetesi yorum sütunları ifade hürriyetinin kullanımı için vardır. Sayfalarımız, temel insan haklarına, hukuka, inanca ve farklı fikirlere saygı temelinde ve demokratik değerler çerçevesinde yazılan yorumlara açıktır. Yorumların içerik ve imla kalitesi gazete kadar okurların da sorumluluğundadır. Hakaret, küfür, rencide edici cümleler veya imalar, imla kuralları ile yazılmamış, Türkçe karakter kullanılmayan ve büyük harflerle yazılmış yorumlar içeriğine bakılmaksızın onaylanmamaktadır. Özensizce belirlenmiş kullanıcı adlarıyla gönderilen veya haber ve yazının bağlamının dışında yazılan yorumlar da içeriğine bakılmaksızın onaylanmamaktadır.
12 Yorum
  • Ş. Eker / 20 Ekim 2024 12:15

    TR'de bir kahve dükkanı açan adam bile dükkanın mülkünü satın alıp bunu 1 senede amorti etmeyi planlarken, bu kadar "kârlı" işler varken, kimse LLM işine girmeyi düşünmüyor sanırım, LLM'de 1 sene sonra paranı geri çıkartıp kâra geçemezsin çünkü.

    Yanıtla (0) (0)
  • Ş. Eker / 20 Ekim 2024 12:13

    Sayın hocamdan "Türkçe eğitilmiş LLM yok" lafını duyduğumda "neden yok ki" dedim ve araştırdım. Gördüm ki bunu yapması gerekenler, buna soyunanlar kaf dağında. Hiç ama hiç bilgi yok. "Ticari" diyorlar. Dünyada bu konudaki hiç bir kurum bu kadar ketum değilken bu ketumluk, aslında hiç bir şey yapmadıklarını kanıtlıyor benim gözümde. Bu yüzden hevesim kursağımda kaldı ve büyük(!) kurumların böyle bir şey yapabilme ihtimalini eledim.

    Yanıtla (0) (0)
  • Kazım / 15 Ekim 2024 13:50

    "Dil modeli olan rol model olur" demişsiniz haklı olarak. Umudumuzu, artık başka bir iktidara saklayacağız.

    Yanıtla (0) (0)
  • Maltali Mustafa / 15 Ekim 2024 11:46

    Kalemine saglik abi

    Yanıtla (0) (0)
  • Yorumsuz / 14 Ekim 2024 23:50

    Kuran'da bile Allah'ın yaratması ile insanın yaratması kullanılır. Allah'ın yaratması ibda', insanın yaratması inşa kelimeleriyle verilir. O zaman icat etmek, inşa etmek, var etmek gibi kelimeler de kullanılmamalı bu mantığa göre. İnşa manasında yaratmak fiili kullanılabilir, bunda mahsur yoktur.

    Yanıtla (0) (0)
  • Cabbar / 14 Ekim 2024 22:40

    Biz nal toplama uzmanı olduk. Bu gidişle, yapay zeka çağında fethedilen bir kültür, yani alt grup olabiliriz. Bu iktidarın, böyle şeylere ciddi bir yönelim göstermesini beklemek mümkün değil. Halen, hamaset şampiyonluğuna devam ediyorlar. Para bastırıp uzaya bir figüran gönderdik diye övünüyorlar.

    Yanıtla (0) (0)
  • Murat / 14 Ekim 2024 13:36

    Millli yerli bir kaygı ve sitem teşekkürler Ziya bey. Yaratmak yerine varetmeki öneririm ve kullanırım. Kitap token eksiğimizi tamamlamak yolunda 40 çeşit kelimeli muhteşem Risale Nırları hatırlatırım. Token üretmeye fazlasıyla yatkın ve yeterli bir külliyat. Murat bey bu gerçeğin farkında mı bilmem.

    Yanıtla (2) (1)
  • Murat / 14 Ekim 2024 14:51

    40 bin çeşit olacaktı.

    Yanıtla (1) (0)
  • Hüseyin Şenel / 14 Ekim 2024 13:43

    Türkçe dili ile eğitilmiş bir modelin İngilizceye göre daha az token’a ihtiyacı olduğunu düşünüyorum.
    .
    https://tv.haberturk.com/tv/programlar/video/4-example-show-13-ekim-2024-taner-cagli-atakan-celik/858240

    Yanıtla (0) (0)
  • Yersan taşgötüren / 14 Ekim 2024 11:34

    "Türkçe bir dil modeli" olmaz."Bir Türkçe dil modeli". Esin kaynağında da öyle yazar.

    Yanıtla (1) (1)
  • HAYRETI MUCIP / 14 Ekim 2024 10:41

    Dişe dokunur bir şey bulabilir miyim diye yazıyı sonuna kadar okumaya çalıştım, ne yalan söyleyeyim bir şey bulamadım.
    Zaten 77 yaşından sonra da pek bir şey bulmaya niyetimiz yok , hem bulsak ne olacak !
    ' He de geç ' !

    Yanıtla (2) (3)
  • yıldız / 14 Ekim 2024 09:32

    Demek ki, yaratmak kelimesinden bu kadar çok korkan okurlarınız var. Ben, yazınızı sonuna kadar okudum. Yaratmak kelimesinden korkmayan ve gocunmayan okurlarınızdanım. Demek NFK oyununu böyle adlandırmasaydı, sizde bunu yazıya böyle başlık atamıyacaktınız. Öyle mi

    Yanıtla (4) (0)