Sobre o Evento
Na primeira parte do seminário, apresentarei o PromptEval, um método baseado na Teoria de Resposta ao Item (TRI) que ajuda nas limitações do uso de prompts únicos durante a avaliação de LLMs. O método estima as distribuições de desempenho de LLMs em vários prompts, fornecendo avaliações mais abrangentes com orçamentos práticos. Este método se mostra eficaz em benchmarks como MMLU, BIG-bench Hard e LMentry, oferecendo métricas de desempenho robustas por meio de quantis de desempenho.
Na segunda parte do seminário, apresentarei uma nova lei de escala ("scaling law") para habilidades de LLM que pode ser usada para prever com precisão o desempenho de modelos de linguagem maiores, dado o desempenho de suas contrapartes menores, em benchmarks e outras tarefas ("downstream tasks"). Nosso método combina análise fatorial com um modelo de regressão e mostra uma melhoria significativa no poder de previsão em comparação com trabalhos anteriores. Além disso, o método também pode fornecer insights interpretáveis de como os LLMs melhoram com a escala dos inputs usados para a construção desses models.
Texto informado pelo autor.
* Os participantes dos seminários não poderão acessar às dependências da FGV usando bermuda, chinelos, blusa modelo top ou cropped, minissaia ou camiseta regata. O uso da máscara é facultativo, porém é obrigatória a apresentação do comprovante de vacinação (físico ou digital).
Apoiadores / Parceiros / Patrocinadores
Palestrantes
Felipe Maia Polo
Felipe Maia Polo é um aluno do quarto ano de doutorado em Estatística na Universidade de Michigan, sendo orientado por Yuekai Sun e Moulinath Banerjee. Atualmente, ele está mais interessado em avaliar adequadamente e eficientemente LLMs, mas também trabalhou em aprendizagem de transferência ("transfer learning") e testes de independência condicional no passado.
Local
Endereço
Praia de Botafogo, 190
5o andar, Auditório 537
Informações adicionais:
Tel: 55 21 3799-5917