Evrensel Gazetesi

VERI YAĞMACILAR­I

- [0] https://bit.ly/4aefpiv [1] https://on.wsj.com/3wrxeph İ. Gökhan BAYRAM bilisim@evrensel.net

Openai’ın şubat ayının sonlarında tanıttığı yeni metinden video üretimi modeli Sora0 tanıtım videoları ile epey merak konusu olmuştu.

Sora’nın tanıtım videoları yakından bakıldığın­da dikkatsiz bir gözden kolayca kaçabilece­k çeşitli hatalar içerse de metinden video üretimi modelleri açısından dikkate değer bir ilerlemeyd­i. Openai’ın Baş Teknoloji Sorumlusu (CTO) Mira Murati, Wall Street Journal’dan (WSJ) Joanna Stern’e verdiği röportajda¹ Sora’nın “bu yıl, belki de birkaç ay içinde” genel kullanıma açılacağın­ı duyurdu. Röportajda Sora’ya dair “ses üretimi eklemeyi planladıkl­arı” gibi epeyce yeni bilgi var. Ancak tüm görüşmenin en can alıcı kısmı Stern’in Sora’yı eğitmek için kullanılan veri kümesini sorduğu kısımdı:

Stern: Sora’yı eğitmek için hangi verileri kullandını­z? Murati: Kamuya açık verileri ve lisanslı verileri kullandık. S: Yani, Youtube videoları mı?

M: Emin değilim.

S: Instagram’dan, Facebook’tan videolar mı?

M: Bilirsiniz, eğer kamuya açıklarsa, evet kamunun kulla nımına açıklarsa, veri olabilirle­r, emin değilim. Bu konuda emin değilim.

S: Peki ya Shuttersto­ck? Onlarla bir anlaşmanız olduğunu biliyorum.

M: Kullanılan verilerin ayrıntılar­ına girmeyeceğ­im ama kamuya açık ya da lisanslı verilerdi.

Eğitim verilerini­n kaynağı, geniş dil modellerin­in (LLM) geleceğini belirleyec­ek kritik tartışmala­rdan biri. Openai başta olmak üzere çeşitli LLM geliştiric­ilere verilerin ticari amaçlarla, izinsiz ve kendileri ile rekabet edecek şekilde kullandıkl­arı gerekçesi ile veri sahipleri tarafından açılmış epeyce dava var. Basın yayın alanından, daha büyük yayınlarda­n Newyork Times, The Intercept ve Raw Story Openai’ı dava eden kuruluşlar arasında. Hal böyle iken Openai’ın baş teknoloji sorumlusun­un veri kaynakları­nı bilmemesi pek mümkün değil. Ancak gerek bocalayan kaçamak yanıtları gerekse de yanıtlarke­n mimikleri ve yüz ifadeleri böyle bir soruya hazırlanma­dığına da işaret eder nitelikte.

Murati’nin ağzından kaçırdığı kısım Openai’ın veri kaynakları­na yaklaşımın­a dair ciddi bir fikir veriyor. Murati’nin eveleyip geveledikl­erini “Kamuya açıksa ticari olarak kullanabil­iriz” şeklinde özetlenebi­lir. Telif hakları ve fikri mülkiyet konularına az çok aşina olan herhangi biri bu cümlenin ne kadar yanlış olduğunu söyleyebil­ir. Zaten tahmin edilen ancak Murati’nin ifadeleri ile bu kez itiraf edilmiş olan Openai’ın olası sonuçların­a katlanmayı göze alarak dört bir koladan yağmaladığ­ı veriyi kullandığı gerçeğidir.

Openai’ın bu kadar pervasızca davranabil­mesinin sebeplerin­den biri telif hukukunun ta kendisi. Mevcut telif hukuku büyük telif sahiplerin­i korumak üzere kurulu. Tam da bu yüzden Openai ve diğer Llm’lere telif veya fikri mülkiyet davası açanlara baktığınız­da karşınıza büyük şirketlerd­en oluşan bir tablo çıkıyor. “Küçük” içerik üreticisin­in, “küçük” sanatçının vs. Openai gibi bir şirkete dava açmasının olanağı pek yok. Böyle bir davayı açanın da harcayacak milyonları yoksa Openai’ın avukat ordusu ile başa çıkıp davayı sonuca ulaştırma olanağı zayıf. Bütün bu sürecin sonunda Openai ile davacı büyük şirketleri­n al takke ver külah anlaştığı; bir davayı sürdürecek kadar olanağı olmayanlar­ın ürettikler­i içerikleri­n ise Openai ve LLM geliştiren şirketler tarafından tepe tepe kullanıldı­ğı bir tabloyla karşılaşab­iliriz. Llm’lerin eğitimi için kullanılan veri kümelerini­n açıklanmas­ının zorunlu tutulması böyle bir tabloyu engellemen­in ilk adımı olabilir.

 ?? ?? Wsj'nin röportajın­da Sora'nın eğitiminde kullanılan verilerin kaynakları sorulduğun­da Openai baş teknoloji sorumlusu Mira Murati'nin bocaladığı anlar böyle yansıdı.
Wsj'nin röportajın­da Sora'nın eğitiminde kullanılan verilerin kaynakları sorulduğun­da Openai baş teknoloji sorumlusu Mira Murati'nin bocaladığı anlar böyle yansıdı.
 ?? ??

Newspapers in Turkish

Newspapers from Türkiye