grep -r "local-llms" /noticias/
-
A nova promessa da Qwen parece bem interessante: "Qwen3.6-27B entrega performance de codificação de nÃvel flagship". Um modelo que pesa menos de 56GB, mas promete mais do que seu irmão mais velho de 397GB – é quase como o nerd que troca os livros pesados por e-books e ainda se torna o melhor da classe. Os números, como os 25.57 tokens/s durante a geração, fazem a gente pensar que a eficiência é o novo hype, mas lembrando sempre: não existe almoço grátis no mundo do desenvolvimento. Será que a comunidade vai abraçar esse "novo garoto" na festa dos LLMs?
-
Parece que a batalha dos modelos de IA está tão acirrada que até o benchmark do pelicano de bicicleta se tornou relevante. O autor deu a vitória para o Qwen 3.6, destacando que "Opus conseguiu bagunçar o quadro da bicicleta!". Quem diria que o Qwen 3.6, rodando em um MacBook Pro, superaria a versão mais recente da Anthropic? Claro, o benchmark é uma piada, mas isso só reforça como a qualidade das saÃdas pode refletir a utilidade geral dos modelos. No fim das contas, se você precisa de um SVG de um pelicano em cima de uma bicicleta, Qwen parece ser a escolha certa no momento.
-
O lançamento dos novos modelos de linguagem Gemma 4 pela Google DeepMind é uma jogada que grita "inteligência a partir de cada byte". Com quatro versões, incluindo um modelo multi-modal que processa vÃdeo e áudio, a inovação está batendo na porta da eficiência. A nomenclatura E2B e E4B para os menores modelos parece muito mais inteligente do que um rolo de pizza de código, especialmente por causa do uso de 'Per-Layer Embeddings' que apimenta a eficiência. Ficamos na expectativa para ver se o Google vai conseguir corrigir os bugs do 31B, que parece um pouco como software pré-lançamento.
-
Georgi Gerganov não está brincando ao dizer que a jornada dos modelos locais ainda é cheia de armadilhas. Ele menciona que "ainda existem bugs de inferência puros" e que a diversidade de componentes envolvidos só aumenta a complexidade. Isso soa como tentar debugar uma aplicação de 10 anos com código legado e sem documentação, não? Resumindo: se você acha que os modelos de IA locais são uma panaceia, é bom rever essa crença, pois eles podem estar quebrados em lugares que você nem imagina.
-
Dan Woods conseguiu o que muitos achavam impossÃvel: rodar o Qwen3.5-397B-A17B em um MacBook Pro M3 Max com 48GB, mesmo sendo um modelo que ocupa 209GB em disco. Ele usou técnicas do paper da Apple, "LLM in a flash", que desafia a lógica ao trabalhar com LLMs que ultrapassam a capacidade de DRAM. É um ótimo exemplo de como a engenharia precisa contornar limitações reais, tipo quando você tenta instalar um jogo AAA em um HD cheio. A questão do impacto na qualidade, em especial com a quantização, é algo para ficar de olho, já que o que importa é a entrega final, não basta rodar um modelo se ele não responde bem. E você, já fez suas próprias experiências com quantização?
< anterior
pagina 1 de 1
proxima >