Meta lança modelo de código aberto Llama 3 e nova versão do Meta AI Assistant

Modelo Llama 3

A Meta lançou o modelo de código aberto Llama 3, incluindo modelos pré-treinados e ajustados por comando com parâmetros 8B e 70B, bem como uma nova versão do seu assistente de IA.

Prevê-se que a versão completa do Llama3 esteja disponível em julho, com capacidades multimodais. A Meta incorporou novas capacidades de codificação informática no Llama3, produzindo texto e imagens, que planeia aplicar aos óculos inteligentes Ray-Ban Meta. A Meta estabeleceu uma parceria com a Google para incluir resultados de pesquisa em tempo real nas respostas do assistente de IA.

A Llama 3 dá um grande salto em relação à Llama 2 e demonstra um desempenho SOTA numa vasta gama de referências da indústria. Para além da inferência melhorada, da geração de código e do seguimento de instruções, estes modelos reduzem significativamente as taxas de falsas rejeições, melhoram o alinhamento e aumentam a diversidade das respostas do modelo. A Meta criou dois clusters de 24.000 GPUs para este efeito e treinou os modelos Llama 3 em 16.000 destas GPUs em simultâneo!

A Meta afirma que os modelos Llama 3 8B e 70B são apenas o início do esforço para o lançamento oficial da Llama 3. A O maior modelo em que estão atualmente a trabalhar é o parâmetro 400B+e, embora ainda estejam em desenvolvimento ativo, estão muito entusiasmados com o rumo que este trabalho está a tomar.

438037375 405784438908376 6082258861354187544 n

Caraterísticas pormenorizadas dos principais desempenhos da Meta Llama 3:

  1. Tamanhos e tipos de modelos:
    • Tamanho do parâmetro: O Meta Llama 3 fornece modelos de 8B (8 mil milhões) e 70B (70 mil milhões).
    • Tipo de modelo: estes modelos são modelos de texto generativos pré-treinados e ajustados por instruções, optimizados para utilização em conversações e outras tarefas de processamento de linguagem.
  2. Arquitetura de modelos:
    • Modelo linguístico autoregressivo: O Llama 3 utiliza uma abordagem autoregressiva para gerar texto, com base numa arquitetura optimizada do Transformer.
    • Atenção de consulta agrupada (GQA): O mecanismo de atenção por consulta agrupada é utilizado no modelo para melhorar a escalabilidade da inferência com parâmetros de grande escala.
  3. Formação e tratamento de dados:
    • Volume de dados de treino: Llama 3 utiliza mais de 15 biliões fichas para pré-treino, com um conjunto de treino sete vezes maior do que o Llama 2, incluindo quatro vezes a quantidade de código.
    • Sintonia finaO modelo é ajustado para instruções através de um ajuste fino supervisionado (SFT) e de uma aprendizagem por reforço que incorpora o feedback humano (RLHF) para melhor corresponder às preferências humanas em termos de utilidade e segurança.
    • O conjunto de dados de pré-treino tem 5% conjunto de dados não inglês, com um total de até 30 apoiado línguas
  4. Desempenho e avaliação comparativa:
    • Melhoria do desempenho global: O Llama 3 tem um bom desempenho em vários testes de referência automatizados numa vasta gama de tarefas, incluindo diálogo, perguntas e respostas e raciocínio.
    • Comparação de Benchmark: Em comparação com os modelos anteriores (por exemplo, Llama 2), Llama 3 apresenta ganhos de desempenho significativos em várias tarefas.

 

Partilhar

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *