Escola de Humanidades da PUCRS cria o primeiro modelo de linguagem para geração de texto treinado nativamente em língua portuguesa

A criação é inédita no Brasil, onde até então nenhum modelo de linguagem teria conseguido alcançar tal resultado

15/02/2024 - 19h31

A Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS), por meio da Escola de Humanidades, conseguiu um feito histórico a nível nacional. Foi criado o primeiro modelo de linguagem para geração de texto treinado nativamente em língua portuguesa. O que torna o feito histórico é que até então nenhum modelo de linguagem teria conseguido alcançar tal resultado.

Os grandes modelos de linguagem, ou se preferir o termo em inglês Large Laguage Models (LLMs), avançaram significativamente o processamento natural da linguagem (i.e., ChatGPT), mas o seu progresso ainda não é igualmente distribuído por todas as línguas. Embora a maioria dos LLMs sejam treinados em idiomas de muitos recursos, como o inglês, os modelos multilíngues geralmente apresentam desempenho inferior aos monolíngues. Além disso, aspectos da sua base multilíngue por vezes restringem os subprodutos que produzem, como exigências computacionais e regimes de licenciamento.

Com isso, foi desenvolvido um projeto chamado TeenyTinyLlama, que contou com a participação do coordenador do curso de Pós-Graduação em Filosofia da Escola de Humanidades da PUCRS e pesquisador do Centro de Estudos Europeus e Alemães (CDEA), Prof. Nythamar de Oliveira. No projeto, foram documentados dois modelos compactos para geração de textos em português brasileiro – lançados sob a licença permissiva Apache 2.0 no GitHub e no Hugging Face, possibilitando o uso da comunidade e desenvolvimento adicional.

Quer saber mais sobre? Clique aqui e confira um preprint que descreve todo o processo e motivação do par TeenyTinyLLama, além do repositório de código e modelos.

Compartilhe

Outras notícias Veja todas as notícias

  • Últimas publicadas
  • Mais lidas