Önceden eğitilmiş üretken dönüştürücü

büyük dil modeli çeşidi

Önceden eğitilmiş üretken dönüştürücü ya da özgün İngilizce adının kısaltmasıyla GPT, bir tür geniş dil modeli[1][2][3] ve Üretken yapay zekâ için öne çıkan bir çerçevedir.[4][5] Doğal dil işleme görevlerinde kullanılan yapay sinir ağlarından oluşur.[6] GPT'ler dönüştürücü mimarisine dayanır, etiketlenmemiş metinlerden oluşan büyük veri setleri üzerinde önceden eğitilmiştir ve insan benzeri yeni içerikler üretebilir.[2][3] 2023 itibarıyla, çoğu LLM bu özelliklere sahiptir [7] ve bazen genel olarak GPT'ler olarak anılırlar.[8]

Orijinal GPT modeli

İlk GPT 2018 yılında OpenAI tarafından tanıtılmıştır.[9] OpenAI, "GPT-n" serisini oluşturmak üzere sıralı olarak numaralandırılmış çok etkili GPT temel modellerini piyasaya sürdü.[10] Bunların her biri artan boyut (eğitilebilir parametre sayısı) ve eğitim nedeniyle bir öncekinden önemli ölçüde daha yeteneklidir. Bunlardan en yenisi olan GPT-4 Mart 2023'te yayınlanmıştır.[11] Bu tür modeller, talimat takibi için ince ayarlı modeller de dahil olmak üzere daha göreve özgü GPT sistemlerinin temelini oluşturarak ChatGPT sohbet robotu hizmetini güçlendirmektedir.[1]

"GPT" terimi, başkaları tarafından geliştirilen bu tür modellerin adlarında ve tanımlamalarında da kullanılmaktadır. Örneğin, diğer GPT temel modelleri arasında EleutherAI [12] tarafından oluşturulan bir dizi model ve Cerebras tarafından 2023 yılında oluşturulan yedi model bulunmaktadır.[13] Ayrıca farklı sektörlerdeki şirketler, Salesforce'un "EinsteinGPT" (Müşteri ilişkileri yönetimi için) [14] ve Bloomberg'in "BloombergGPT" (finans için) gibi kendi alanlarında göreve özgü GPT'ler geliştirmiştir.[15]

İlk gelişmeler

değiştir

Üretken Ön İşleme (GP), makine öğrenimi uygulamalarında uzun süredir yerleşmiş bir kavramdır.[16][17][18] Model önce veri kümesinde veri noktaları oluşturmayı öğrenerek etiketsiz bir veri kümesi (ön işleme adımı) üzerinde eğitildiği ve daha sonra etiketli bir veri kümesini sınıflandırmak için eğitildiği için başlangıçta yarı denetimli öğrenmenin bir biçimi olarak kullanılmıştır.[19]

Normalleştirilmemiş doğrusal dönüştürücünün geçmişi 1992 yılına kadar uzanırken,[20][21][22] modern dönüştürücü mimarisi 2017 yılında Google'daki araştırmacılar tarafından " Attention Is All You Need " adlı bir makalede yayınlanana kadar mevcut değildi.[23] Bu gelişme, 2018'de ön işlemeli bir dönüştürücü (PT) olan ancak üretken olacak şekilde tasarlanmayan BERT [24] gibi büyük dil modellerinin ortaya çıkmasına yol açmıştır (BERT "yalnızca kodlayıcı" bir modeldi).[25] Ayrıca o sıralarda, 2018'de OpenAI, ilk önceden eğitilmiş üretken dönüştürücü sistemini ("GPT-1") tanıttığı "Improving Language Understanding by Generative Pre-Training" başlıklı makalesini yayınlamıştır.[26]

Transformatör tabanlı mimarilerden önce, en iyi performansa sahip nöral NLP (doğal dil işleme ) modelleri, büyük miktarlarda manuel olarak etiketlenmiş verilerden gözetimli öğrenmeyi yaygın olarak kullanmaktaydı. Denetimli öğrenmeye olan güven, iyi açıklanmamış veri kümelerinde kullanımlarını kısıtlamış ve ayrıca son derece büyük dil modellerini eğitmeyi engelleyici derecede pahalı ve zaman alıcı hale getirmiştir.[26]

OpenAI'nin büyük ölçekli bir üretken sistem oluşturmak için kullandığı yarı denetimli yaklaşım (ki bu ilk kez bir dönüştürücü modeli ile yapıldı) iki aşamadan oluşuyordu: bir dil modelleme hedefi kullanarak başlangıç parametrelerini ayarlamak için gözetimsiz bir üretken "ön eğitim" aşaması ve bu parametreleri bir hedef göreve uyarlamak için denetimli bir ayrımcı "ince ayar" aşamasından oluşuyordu.[26]

Daha sonraki gelişmeler

değiştir

Daha yeni GPT temel modelleriyle ilgili olarak OpenAI, GPT-3'ün ilk sürümlerini Temmuz 2020'de yayınlamıştır. Sırasıyla babbage, curie ve davinci (B, C ve D baş harflerini veren) olarak adlandırılan, 1B, 6.7B, 175B parametrelerine sahip üç model bulunmaktaydı.

Temmuz 2021'de OpenAI, programlama uygulamaları için hedeflenen göreve özgü bir GPT modeli olan Codex'i yayınladı. Bu, GitHub'daki kod kullanılarak GPT-3'ün (önceki GPT-3 modellerinden farklı) 12B parametreli bir sürümüne ince ayar yapılarak geliştirilmiştir.[27]

Mart 2022'de OpenAI, davinci-instruct-beta (175B) ve text-davinci-001 [28] olarak adlandırılan, talimat takibi için ince ayarlanmış (talimat ayarlı) GPT-3'ün iki sürümünü yayınladı ve code-davinci-002 ardından beta kısmını teste başladı.[29] text-davinci-002, code-davinci-002'den talimatlarla ayarlandı. Hem text-davinci-003 hem de ChatGPT, insan geri bildiriminden (RLHF) takviyeli öğrenme yoluyla text-davinci-002'yi temel alarak Kasım 2022'de yayınlandı. text-davinci-003 talimatları takip etmek için eğitilmiş ChatGPT ise bir insan ile konuşma üzerine daha ileri düzeyde eğitilmiştir.[30][31]

OpenAI'nin en yeni GPT temel modeli olan GPT-4, 14 Mart 2023'te yayınlandı. Kullanıcılar tarafından doğrudan ChatGPT'nin premium sürümü aracılığıyla erişilebilererk ve OpenAI'nin Uygulama programlama arayüzü aracılığıyla diğer ürün ve hizmetlere dahil edilmek üzere geliştiricilerin kullanımına açılmıştır. GPT temel modellerinin diğer üreticileri arasında EleutherAI (Mart 2021'de başlayan bir dizi modelle ) [12] ve Cerebras (Mart 2023'te piyasaya sürülen yedi modelle) yer almaktadır.[13]

Temel modeller

değiştir

Temel model, çok çeşitli aşağı akış görevlerine uyarlanabilecek ölçekte geniş veriler üzerinde eğitilmiş bir yapay zeka modelidir.[32]

Şimdiye kadar en kayda değer GPT temel modelleri OpenAI'ın GPT-n serisinden olmuştur. Bunlardan en yenisi, OpenAI'nin boyutunu veya eğitim ayrıntılarını yayınlamayı reddettiği GPT-4'tür ("rekabet ortamı ve büyük ölçekli modellerin güvenlik etkileri" gerekçe gösterilerek).[33]

OpenAI'nin "GPT-n" serisi
Modeli Mimari Parametre sayısı Eğitim verileri Yayın tarihi Eğitim maliyeti
GPT-1 12 seviyeli, 12 başlı Transformer kod çözücü (kodlayıcı yok), ardından doğrusal softmax gelir. 117 milyon BookCorpus :[34] Çeşitli türlerde 7000 yayınlanmamış kitaptan 4,5 GB metin. 11 Haziran 2018 [9] 8 P600 GPU'da 30 gün veya 1 peta FLOP /s-gün.[9]
GPT-2 GPT-1, ancak normalleştirme değiştirilmiş 1.5 milyar WebText: Reddit'te olumlu oylanan 45 milyon web sayfasından 40 GB metin, 8 milyon belge. 14 Şubat 2019 (ilk/sınırlı sürüm) ve 5 Kasım 2019 (tam sürüm) [35] "onlarca petaflop/s-gün",[36] veya 1.5e21 FLOP.[37]
GPT-3 GPT-2, ancak daha büyük ölçeklendirmeye izin verecek şekilde değişiklik yapıldı 175 milyar [38] CommonCrawl (570 GB), WebText, İngilizce Wikipedia ve iki kitap külliyatından (Kitaplar1 ve Kitaplar2) oluşan 499 milyar jeton. 28 May 2020 [36] 3640 petaflop/s-gün (Tablo D.1 [36] ) veya 3.1e23 FLOP.[37]
GPT-3.5 Açıklanmadı 175 milyar [38] Açıklanmadı 15 Mart 2022 Açıklanmadı
GPT-4 Ayrıca hem metin tahmini hem de RLHF konusunda eğitilmiştir; hem metni hem de görüntüleri girdi olarak kabul eder. Daha fazla ayrıntı halka açık değildir.[33] Açıklanmadı. Tahmini 1,7 trilyon [39] Açıklanmadı 14 Mart 2023 Açıklanmadı. Tahmini 2.1e25 FLOP.[37]

Bu tür diğer modeller arasında, GPT-3 ile karşılaştırılmış ve yakın zamanda bir Uygulama programlama arayüzü aracılığıyla geliştiricilerin kullanımına sunulan geniş bir temel modeli olan Google'ın PaLM'i,[40][41] ve Together'ın şu şekilde rapor edilen GPT-JT'si bulunmaktadır: GPT-3'e en yakın performansa sahip açık kaynak alternatifidir.[42] Meta AI (eski adıyla Facebook ) ayrıca LLaMA olarak bilinen üretken dönüştürücü tabanlı temel büyük dil modeline sahiptir.[43]

Temel GPT'ler girdi ve/veya çıktı için metin dışındaki yöntemleri de kullanabilir. GPT-4, metin ve görüntü girdisini işleyebilen çok modlu bir LLM'dir.[44] Çok modlu çıktıyla ilgili olarak, difüzyon [45] ve paralel kod çözme gibi metinden resme model teknolojileri için bazı üretken transformatör tabanlı modeller kullanılır.[46] Bu tür modeller, görüntülerle çalışabilen alt sistemler geliştirmek için görsel temel modelleri (VFM'ler) görevi görebilir.[47]

Göreve özel modeller

değiştir

Temel bir GPT modeli, belirli görevlere ve/veya konu alanlarına yönelik daha hedefli sistemler üretmek için daha da uyarlanabilir. Bu tür uyarlama yöntemleri, ek ince ayar (temel model için yapılanın ötesinde) ve belirli sufle mühendisliği biçimlerini kapsayabilmektedir.[48]

Bunun önemli bir örneği , modellerin talimatları takip edecek şekilde ince ayarlanmasıdır ; bu elbette oldukça geniş bir görevdir ancak temel modelden daha hedefe yöneliktir. Ocak 2022'de OpenAI, temel GPT-3 dil modelleri üzerinde gözetimli eğitim ve insan geri bildiriminden (RLHF) pekiştirmeli öğrenim kombinasyonu ile talimatları takip edecek şekilde ince ayar yapılan bir dizi model olan "InstructGPT"yi tanıttı. Bunun çıplak temel modellere göre avantajları arasında daha yüksek doğruluk, daha az olumsuz/toksik duyarlılık ve genel olarak kullanıcı ihtiyaçlarıyla daha iyi uyum bulunuyordu. Dolayısıyla, OpenAI bunu hizmet teklifleri için temel olarak kullanmaya başladı.[49] Tamamen açık bir versiyon da dahil olmak üzere diğer talimat ayarlı modeller başkaları tarafından piyasaya sürülmüştür.[50][51]

Bir başka göreve özgü model ise insan benzeri konuşmalar yapan sohbet botlarıdır. Kasım 2022'de OpenAI, InstructGPT'ye benzer şekilde eğitilmiş, talimat ayarlı bir dil modeliyle desteklenen çevrimiçi sohbet botu olan ChatGPT'yi başlattı. Bu modeli RLHF kullanarak eğiten araştırmacılar, insan yapay zeka eğitmenlerinin hem kullanıcıyı hem de yapay zekayı oynadıkları konuşmalar sağladılar ve bu yeni diyalog veri setini InstructGPT veri seti ile karıştırarak bir sohbet botuna uygun bir konuşma biçimi elde etmeyi başardılar. Diğer önemli sohbet botları arasında şu anda OpenAI'nin GPT-4'ünü kullanan Microsoft'un Bing Chat'i (OpenAI ve Microsoft arasındaki daha geniş yakın işbirliğinin bir parçası olarak) [52] ve Google'ın rakip sohbet robotu Gemini (başlangıçta LaMDA konuşma ailesine dayalı PaLM'ye geçme planları olan eğitimli dil modelleri) yer almaktadır.[53]

Bir GPT'nin kullanılabileceği bir başka görev türü de, bir insan kullanıcı tarafından verilen daha genel bir hedefi gerçekleştirebilmek için 'kendisi' için bir dizi istem geliştirmek gibi kendi talimatlarını üretme şeklindeki meta görevdir.[54] Bu bir yapay zeka aracı olarak bilinir ve daha spesifik olarak özyinelemeli bir aracıdır, çünkü sonraki istemlerini oluşturmasına yardımcı olmak için önceki kendi talimatlarından elde ettiği sonuçları kullanır; bunun ilk büyük örneği Auto-GPT'dir (OpenAI'nin GPT modellerini kullanır) ve o zamandan beri diğerleri de geliştirilmiştir.[55]

Çok modluluk

değiştir

Üretici dönüştürücü tabanlı sistemler, metnin ötesindeki modaliteleri içeren görevleri de hedefleyebilir.

Örneğin, Microsoft'un "Visual ChatGPT "si ChatGPT'yi görsel temel modellerle (VFM'ler) birleştirerek metinlerin yanı sıra görüntülerden oluşan girdi veya çıktıları da mümkün kılmaktadır.[56] Ayrıca, metinden konuşmaya teknolojisindeki gelişmeler, temel GPT dil modelleriyle birlikte kullanıldığında sesli içerik oluşturma için güçlü araçlar sunmaktadır.[57]

Domain özgülük

değiştir

GPT sistemlerinin belirli alanlara ya da etki alanlarına yönelik olması mümkündür. Bu tür model ve uygulamaların rapor edilen bazı örnekleri aşağıdaki gibidir:

  • EinsteinGPT – satış ve pazarlama alanları için, müşteri ilişkileri yönetimine yardımcı olmak üzere ( GPT-3.5 kullanır) [58][59]
  • BloombergGPT - finansal alan için, finansal haberlere ve bilgilere yardımcı olmak için ("ücretsiz olarak kullanılabilen" yapay zeka yöntemlerini kendi özel verileriyle birlikte kullanır) [60]
  • Khanmigo - eğitim alanında özel ders vermeye yönelik bir GPT sürümü olarak tanımlanır, öğrencilere doğrudan yanıtlar vermeden çalışmaları boyunca rehberlik ederek Khan Academy'yi kullanmalarına yardımcı olur (GPT-4 tarafından desteklenmektedir) [61][62]
  • SlackGPT - Slack anlık mesajlaşma hizmeti için, bu hizmetteki tartışmalarda gezinmeye ve özetlemeye yardımcı olmak için (OpenAI'nin arayüzünü kullanır) [63]
  • BioGPT – biyomedikal alan için, biyomedikal literatürde metin oluşturma ve madenciliğe yardımcı olmak için (GPT-2'yi kullanır) [64]

Bazen etki alanına özgülük, yazılım eklentileri veya eklentiler aracılığıyla gerçekleştirilir. OpenAI'nin ChatGPT arayüzüyle doğrudan etkileşim kuran belirli eklentiler geliştirmiştir [65][66] ve Google Workspace'te e-tablo kullanımına yardımcı olduğu bildirilen "Tablolar ve Dokümanlar için GPT" eklentileri bulunmaktadır.[67][68]

Kasım 2023'te OpenAI, ChatGPT Plus abonelerinin ChatGPT'nin özel sürümlerini oluşturmalarına olanak sağladığını duyurmuştur.[69] Bunlar, hızlı mühendislik, seçilmiş veri setleri ve/veya harici araçlarla hedeflenen etkileşim yoluyla belirli etki alanları için uyarlanabilir. Doğrulanmış oluşturucular olarak kaydolan kullanıcılar, özel GPT'lerini para kazanma potansiyeline sahip diğer kullanıcılar için yayınlayabilirler.

Marka sorunları

değiştir

2018'de ilk GPT'yi yaratan OpenAI, kısa süre önce "GPT "nin OpenAI'nin bir markası olarak görülmesi gerektiğini ileri sürmüştür.[70] Nisan 2023'te OpenAI, yapay zeka (AI) hizmetlerini yürütmek için Uygulama programlama arayüzünü kullanan diğer işletmelerin artık bu tür adlara veya markalamalara "GPT"yi dahil edemeyeceğini belirtmek için hizmet şartlarındaki marka yönergelerini revize etmiştir.[71] Mayıs 2023'te OpenAI, API müşterilerini bu politikadan haberdar etmek için bir marka yönetim hizmetiyle anlaştı, ancak bu bildirimler açık yasal iddialarda bulunmaktan uzak kalmıştır.[70] Kasım 2023 itibarıyla OpenAI, API lisans sahiplerinin kendi ürünlerini "GPT" [72] ile adlandırmalarını hâlâ yasaklamaktadır, ancak ChatGPT Plus abonelerinin OpenAI sitesinde GPT olarak adlandırılan "ChatGPT'nin özel sürümlerini" oluşturmasına olanak sağlamaya başlamıştır.[73] OpenAI'nin hizmet koşulları, abonelerinin "tavsiye edilmemekle birlikte" bunların adlarında "GPT" kullanabileceğini belirtmektedir.[72]

Bununla bağlantılı olarak OpenAI, yapay zeka alanında "GPT" terimi için yerel marka tescili almak üzere Amerika Birleşik Devletleri Patent ve Ticari Marka Ofisi'ne (USPTO) başvuruda bulunmuştur.[70] OpenAI, başvurusunun ele alınmasını hızlandırmak istedi, ancak USPTO bu talebi Nisan 2023'te reddetti [74] Mayıs 2023'te USPTO, başvuruya "GPT"nin hem açıklayıcı hem de genel olduğu kararıyla yanıt verdi.[75] Kasım 2023, OpenAI mevcut süreçlerde argümanını sürdürmeye devam etmektedir. Ne olursa olsun, tescilli bir ABD ticari markasının elde edilememesinden dolayı, ABD'deki belirli düzeydeki ortak hukuk ticari marka haklarında [76] veya diğer ülkelerdeki ticari marka haklarını engellememektedir.[77]

ABD'de herhangi bir ticari marka koruması türü veya kapsamı için OpenAI'nin, terimin teknoloji türü için daha geniş bir teknik terim olmasının yanı sıra kendi özel teklifleri için gerçekten "ayırt edici" olduğunu kanıtlaması gerekmektedir. Bazı basında çıkan haberler, OpenAI'nin ayrıca koruma talep ettiği GPT tabanlı Sohbet botu ürünü ChatGPT'nin [74][78] şöhretine dayanarak dolaylı olarak ticari marka tescili alabileceğini öne sürdü.[79] Diğer raporlar, yalnızca "GPT" terimi için kaydın verilmesinin pek mümkün olmadığını belirtmiştir;[70][80] çünkü bu terim, önceden eğitilmiş üretken dönüştürücüleri içeren yapay zeka sistemlerine atıfta bulunmak için sıklıkla ortak bir terim olarak kullanılmaktadır.[3][81][82][83] Her halükarda, terim üzerindeki münhasır haklar ABD'de ne ölçüde ortaya çıkarsa çıksın, diğerlerinin benzer ürün veya hizmetler için karışıklığa neden olabilecek şekilde kullanmaktan kaçınması gerekmektedir.[80][84] Bu tür haklar, bu alandaki diğer köklü kullanımları da kapsayacak şekilde genişlerse, tanımlayıcı adil kullanımın ticari marka doktrini, markayla ilgili olmayan kullanımın devam etmesi için hala bir miktar alan sağlayabilir.[85]

Seçilmiş kaynakça

değiştir

Bu bölümde OpenAI ve Microsoft'un GPT modellerine ilişkin ana resmi yayınları listelenmektedir.

  • GPT-1: rapor,[9] GitHub sürümü.[86]
  • GPT-2: blog duyurusu,[87] "aşamalı sürüm" kararına ilişkin rapor,[88] GitHub sürümü.[89]
  • GPT-3: rapor.[36] Bundan sonra GitHub veya başka herhangi bir kod sürümü yayınlanmayacak.
  • webGPT: blog duyurusu,[90] rapor,[91]
  • InstructGPT: blog duyurusu, rapor.
  • ChatGPT: blog duyurusu (rapor yok).
  • GPT-4: blog duyurusu,[92] raporlar,[93][94] model kartı.[95]

Ayrıca bakınız

değiştir

Kaynakça

değiştir
  1. ^ a b Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com. 5 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  2. ^ a b "Generative AI: a game-changer society needs to be ready for". World Economic Forum. 9 Ocak 2023. 25 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  3. ^ a b c "The A to Z of Artificial Intelligence". Time. 13 Nisan 2023. 16 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  4. ^ Hu, Luhui (15 Kasım 2022). "Generative AI and Future". Medium. 5 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  5. ^ "CSDL | IEEE Computer Society". www.computer.org. 28 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  6. ^ "LibGuides: Using AI Language Models : ChatGPT". 8 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  7. ^ Toews, Rob. "The Next Generation Of Large Language Models". Forbes. 14 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  8. ^ Mckendrick, Joe (13 Mart 2023). "Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests". Forbes. 16 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  9. ^ a b c d "Improving language understanding with unsupervised learning". openai.com (İngilizce). 11 Haziran 2018. 18 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Mart 2023. 
  10. ^ "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". MUO. 11 Nisan 2023. 15 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  11. ^ "GPT-4". openai.com (İngilizce). 14 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 8 Aralık 2023. 
  12. ^ a b Alford, Anthony (13 Temmuz 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ. 10 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  13. ^ a b "News" (Basın açıklaması). 5 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  14. ^ Morrison, Ryan (7 Mart 2023). "Salesforce launches EinsteinGPT built with OpenAI technology". Tech Monitor. 15 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  15. ^ "The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech". Forbes. 6 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  16. ^ Schmidhuber, Jürgen (1992). "Learning complex, extended sequences using the principle of history compression" (PDF). Neural Computation. 4 (2): 234-242. doi:10.1162/neco.1992.4.2.234. [ölü/kırık bağlantı]
  17. ^ Hinton (et-al), Geoffrey (15 Ekim 2012). "Deep neural networks for acoustic modeling in speech recognition" (PDF). IEEE Signal Processing Magazine. Digital Object Identifier 10.1109/MSP.2012.2205597. doi:10.1109/MSP.2012.2205597. 18 Mart 2023 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 25 Mart 2024. 
  18. ^ Deng, Li (22 Ocak 2014). "A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core". Apsipa Transactions on Signal and Information Processing. Cambridge.org. 3: e2. doi:10.1017/atsip.2013.9. 
  19. ^ Erhan, Dumitru; Courville, Aaron; Bengio, Yoshua; Vincent, Pascal (31 Mart 2010). "Why Does Unsupervised Pre-training Help Deep Learning?". Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (İngilizce). JMLR Workshop and Conference Proceedings: 201-208. 24 Ocak 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  20. ^ Schmidhuber, Jürgen (1992). "Learning to control fast-weight memories: an alternative to recurrent nets". Neural Computation. 4 (1): 131-139. doi:10.1162/neco.1992.4.1.131. 
  21. ^ Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). "Linear Transformers Are Secretly Fast Weight Programmers". ICML 2021. Springer. ss. 9355-9366. 
  22. ^ Katharopoulos, Angelos; Vyas, Apoorv; Pappas, Nikolaos; Fleuret, François (2020). "Transformers are RNNs: Fast autoregressive Transformers with linear attention". ICML 2020. PMLR. ss. 5156-5165. 11 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  23. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. 21 Şubat 2024 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 25 Mart 2024. 
  24. ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (24 Mayıs 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". Association for Computational Linguistics. arXiv:1810.04805v2 $2. 
  25. ^ Naik, Amit Raja (23 Eylül 2021). "Google Introduces New Architecture To Reduce Cost Of Transformers". Analytics India Magazine. 10 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  26. ^ a b c Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 Haziran 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. s. 12. 26 Ocak 2021 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 23 Ocak 2021. 
  27. ^ Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Ponde de Oliveira Pinto, Henrique; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas; Brockman, Greg; Ray (1 Temmuz 2021). "Evaluating Large Language Models Trained on Code". Association for Computational Linguistics. arXiv:2107.03374 $2. 24 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  28. ^ Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman (6 Aralık 2022). "Training language models to follow instructions with human feedback". Advances in Neural Information Processing Systems (İngilizce). 35: 27730-27744. arXiv:2203.02155 $2. 28 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  29. ^ "New GPT-3 capabilities: Edit & insert". openai.com (İngilizce). 29 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Haziran 2023. 
  30. ^ Fu, Yao; Peng, Hao; Khot, Tushar (2022). "How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources". Yao Fu's Notion. 19 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  31. ^ "Model index for researchers". OpenAI API (İngilizce). 23 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Haziran 2023. 
  32. ^ "Introducing the Center for Research on Foundation Models (CRFM)". Stanford HAI. 18 Ağustos 2021. 4 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  33. ^ a b OpenAI (2023). "GPT-4 Technical Report" (PDF). 14 Mart 2023 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 16 Mart 2023. 
  34. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. ss. 19-27. 5 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 7 Şubat 2023. 
  35. ^ Vincent, James (7 Kasım 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge. 11 Haziran 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  36. ^ a b c d Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal (28 Mayıs 2020). "Language Models are Few-Shot Learners". NeurIPS. arXiv:2005.14165v4 $2. 
  37. ^ a b c "ML input trends visualization". Epoch (İngilizce). 16 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Mayıs 2023. 
  38. ^ a b Ver Meer, Dave (1 Haziran 2023). "ChatGPT Statistics". NamePepper (İngilizce). 5 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Haziran 2023. 
  39. ^ "GPT-4 has more than a trillion parameters – Report". 25 Mart 2023. 4 Mart 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  40. ^ Vincent, James (14 Mart 2023). "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge. 14 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  41. ^ "Google Opens Access to PaLM Language Model". 31 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  42. ^ Iyer, Aparna (30 Kasım 2022). "Meet GPT-JT, the Closest Open Source Alternative to GPT-3". Analytics India Magazine. 2 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  43. ^ "Meta Debuts AI Language Model, But It's Only for Researchers". PCMAG. 19 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  44. ^ Islam, Arham (27 Mart 2023). "Multimodal Language Models: The Future of Artificial Intelligence (AI)". 15 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  45. ^ Islam, Arham (14 Kasım 2022). "How Do DALL·E 2, Stable Diffusion, and Midjourney Work?". 18 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  46. ^ Saha, Shritama (4 Ocak 2023). "Google Launches Muse, A New Text-to-Image Transformer Model". Analytics India Magazine. 15 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  47. ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[1].
  48. ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[2].
  49. ^ Ramnani, Meeta (28 Ocak 2022). "OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason". Analytics India Magazine. 4 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  50. ^ "Stanford CRFM". crfm.stanford.edu. 6 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  51. ^ "Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM". Databricks. 12 Nisan 2023. 14 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  52. ^ Wiggers, Kyle (4 Mayıs 2023). "Microsoft doubles down on AI with new Bing features". 7 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  53. ^ "ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful?". CNET. 24 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  54. ^ "Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents". Mashable. 19 Nisan 2023. 22 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  55. ^ Marr, Bernard. "Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT". Forbes. 21 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  56. ^ "Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT". InfoQ. 3 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  57. ^ Edwards, Benj (9 Ocak 2023). "Microsoft's new AI can simulate anyone's voice with 3 seconds of audio". Ars Technica. 18 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  58. ^ Morrison, Ryan (7 Mart 2023). "Salesforce launches EinsteinGPT built with OpenAI technology". 15 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  59. ^ Sharma, Animesh K.; Sharma, Rahul (2023). "The role of generative pretrained transformers (GPTs) in revolutionising digital marketing: A conceptual model". Journal of Cultural Marketing Strategy. 8 (1): 80-90. 
  60. ^ Leswing, Kif (13 Nisan 2023). "Bloomberg plans to integrate GPT-style A.I. into its terminal". CNBC. 19 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  61. ^ "Learning nonprofit Khan Academy is piloting a version of GPT called Khanmigo". Fast Company. 4 Mayıs 2023. 11 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 22 Mayıs 2023. 
  62. ^ "Khan Academy Pilots GPT-4 Powered Tool Khanmigo for Teachers -". THE Journal. 7 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  63. ^ Hachman, Mark (4 Mayıs 2023). "Slack GPT will bring AI chatbots to your conversations". PCWorld. 9 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  64. ^ Luo (et-al), Renqian (3 Nisan 2023). "BioGPT: Generative pre-trained transformer for biomedical text generation and mining". Briefings in Bioinformatics. 23 (6). arXiv:2210.10341 $2. doi:10.1093/bib/bbac409. PMID 36156661. 
  65. ^ "Know about ChatGPT's 13 best plugins, designed to improve your overall user experience – Latest Digital Transformation Trends | Cloud News | Wire19". 5 Mayıs 2023. 9 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  66. ^ "ChatGPT plugins". openai.com. 23 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  67. ^ "How to Use ChatGPT on Google Sheets With GPT for Sheets and Docs". MUO. 12 Mart 2023. 19 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  68. ^ Asay, Matt (27 Şubat 2023). "Embrace and extend Excel for AI data prep". InfoWorld. 2 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  69. ^ "What Are OpenAI GPTs? Uses of the New Version of ChatGPT". 29 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  70. ^ a b c d Hicks, William (10 Mayıs 2023). "ChatGPT creator OpenAI is asking startups to remove 'GPT' from their names". The Business Journal. 28 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Mayıs 2023. 
  71. ^ OpenAI (24 Nisan 2023). "Brand Guidelines". 18 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Mayıs 2023. 
  72. ^ a b "Brand guidelines". 18 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  73. ^ "Introducing GPTS". 20 Mart 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  74. ^ a b Heah, Alexa (26 Nisan 2023). "OpenAI Unsuccessful At Speeding Up Its Attempt To Trademark 'GPT'". DesignTAXI. 26 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Mayıs 2023. 
  75. ^ "Nonfinal Office Action". USPTO. 25 Mayıs 2023. 3 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  76. ^ "U.S. Trademark Law". December 2015. 17 Ocak 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  77. ^ "International Trademark Rights". 11 Mart 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  78. ^ 25 April 2023, 08:04 am (25 Nisan 2023). "OpenAI Wants to Trademark 'GPT' Amid Rise of AI Chatbots". Tech Times. 25 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Mayıs 2023. 
  79. ^ Louise, Nickie (3 Nisan 2023). "OpenAI files a UDRP case against the current owner of ChatGPT.com" (İngilizce). 5 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Mayıs 2023. 
  80. ^ a b Demcak, Tramatm-Igor (26 Nisan 2023). "OpenAI's Battle for Brand Protection: Can GPT be trademarked?". Lexology (İngilizce). 5 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 22 Mayıs 2023. 
  81. ^ Lawton, George (20 Nisan 2023). "ChatGPT vs. GPT: How are they different? | TechTarget". Enterprise AI (İngilizce). 9 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Mayıs 2023. 
  82. ^ Robb, Drew (12 Nisan 2023). "GPT-4 vs. ChatGPT: AI Chatbot Comparison". eWEEK (İngilizce). 27 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Mayıs 2023. 
  83. ^ Russo, Philip (22 Ağustos 2023). "The Genesis of Generative AI for Everything Everywhere All at Once in CRE". Commercial Observer. 24 Ağustos 2023 tarihinde kaynağından arşivlendi. 
  84. ^ "Trademark infringement". 30 Kasım 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  85. ^ Rheintgen, Husch Blackwell LLP-Kathleen A. (16 Ağustos 2013). "Branding 101: trademark descriptive fair use". Lexology (İngilizce). 21 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Mayıs 2023. 
  86. ^ finetune-transformer-lm, OpenAI, 11 Haziran 2018, 19 Mayıs 2023 tarihinde kaynağından arşivlendi, erişim tarihi: 1 Mayıs 2023 
  87. ^ "GPT-2: 1.5B release". openai.com (İngilizce). 31 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Mayıs 2023. 
  88. ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[3].
  89. ^ gpt-2, OpenAI, 1 Mayıs 2023, 11 Mart 2023 tarihinde kaynağından arşivlendi, erişim tarihi: 1 Mayıs 2023 
  90. ^ "WebGPT: Improving the factual accuracy of language models through web browsing". openai.com (İngilizce). 21 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Temmuz 2023. 
  91. ^ Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang (1 Aralık 2021). "WebGPT: Browser-assisted question-answering with human feedback". CoRR. arXiv:2112.09332 $2. 2 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024. 
  92. ^ "GPT-4". openai.com (İngilizce). 14 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Mayıs 2023. 
  93. ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[4].
  94. ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[5].
  95. ^ GPT-4 System Card 7 Nisan 2023 tarihinde Wayback Machine sitesinde arşivlendi., OpenAI, March 23 2023 (Accessed May 22 2023).