GPT-J
Tipus | Model de llenguatge per a aprenentatge profund |
---|---|
Llicència | Llicència Apache, versió 2.0 |
Epònim | transformadors generatius pre-entrenats |
Equip | |
Editor | EleutherAI |
GPT-Jés unmodel de llenguatged'intel·ligència artificialde codi obert desenvolupat perEleutherAI.[1]Generalment segueix l'arquitecturaGPT-2amb l'única diferència important dels anomenats descodificadors paral·lels: en comptes de col·locar elperceptró multicapad'avanç després de l'atenció multicapçal emmascarada, es calculen en paral·lel per tal d'aconseguir un rendiment més elevat amb distribució. formació.
GPT-J funciona de manera molt semblant a les versionsGPT-3d'OpenAIde mida similar en diverses tasques de baixada de tir zero i fins i tot pot superar-lo en tasques de generació de codi.[2]La versió més recent, GPT-J-6B és un model d'idioma basat en un conjunt de dades anomenatThe Pile.The Pile és un conjunt de dades de modelatge de llenguatge de codi obert de 825gigabytesque es divideix en 22 conjunts de dades més petits.[3]
GPT-J originalment no funciona com a bot de xat a diferència deChatGPT,només com a predictor de text.[4]El març de 2023,Databricksva llançar Dolly, un model de seguiment d'instruccions ambllicència d'Apachebasat en GPT-J ambun ajustamentdel conjunt de dadesStanford Alpaca.[5]
Referències
[modifica]- ↑Demo,GPT-3. «GPT-J | Discover AI use cases» (en anglès).gpt3demo.https://gpt3demo.+[Consulta: 28 febrer 2023].
- ↑«GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront» (en anglès).forefront.ai.https:// forefront.ai.Arxivat de l'originalel 2023-03-09. [Consulta: 28 febrer 2023].
- ↑«The Pile» (en anglès).pile.eleuther.ai.pile.eleuther.ai. [Consulta: 28 febrer 2023].
- ↑Mueller,Vincent. «How you can use GPT-J» (en anglès).Medium.https://towardsdatascience,+25-01-2022.+[Consulta: 28 febrer 2023].
- ↑Conover,Mike. «Hello Dolly: Democratizing the magic of ChatGPT with open models» (en anglès).https:// databricks,+24-03-2023.+[Consulta: 5 abril 2023].