#local-llms - RetroNews

Qwen3.6-27B: Performance de Codificação de Nível Flagship em um Modelo Denso de 27B

Simon Willison 22/04/2026 16:45

A nova promessa da Qwen parece bem interessante: "Qwen3.6-27B entrega performance de codificação de nível flagship". Um modelo que pesa menos de 56GB, mas promete mais do que seu irmão mais velho de 397GB – é quase como o nerd que troca os livros pesados por e-books e ainda se torna o melhor da classe. Os números, como os 25.57 tokens/s durante a geração, fazem a gente pensar que a eficiência é o novo hype, mas lembrando sempre: não existe almoço grátis no mundo do desenvolvimento. Será que a comunidade vai abraçar esse "novo garoto" na festa dos LLMs?

#ia #generative-ai #cloud #local-llms #llm-release

https://simonwillison.net/2026/Apr/22/qwen36-27b/#atom-everything

Qwen3.6-35B-A3B no meu laptop desenhou um pelicano melhor que Claude Opus 4.7

Simon Willison 16/04/2026 17:16

Parece que a batalha dos modelos de IA está tão acirrada que até o benchmark do pelicano de bicicleta se tornou relevante. O autor deu a vitória para o Qwen 3.6, destacando que "Opus conseguiu bagunçar o quadro da bicicleta!". Quem diria que o Qwen 3.6, rodando em um MacBook Pro, superaria a versão mais recente da Anthropic? Claro, o benchmark é uma piada, mas isso só reforça como a qualidade das saídas pode refletir a utilidade geral dos modelos. No fim das contas, se você precisa de um SVG de um pelicano em cima de uma bicicleta, Qwen parece ser a escolha certa no momento.

#ia #generative-ai #local-llms #llm-release

https://simonwillison.net/2026/Apr/16/qwen-beats-opus/#at...

Gemma 4: Byte por byte, os modelos abertos mais capazes

Simon Willison 02/04/2026 18:28

O lançamento dos novos modelos de linguagem Gemma 4 pela Google DeepMind é uma jogada que grita "inteligência a partir de cada byte". Com quatro versões, incluindo um modelo multi-modal que processa vídeo e áudio, a inovação está batendo na porta da eficiência. A nomenclatura E2B e E4B para os menores modelos parece muito mais inteligente do que um rolo de pizza de código, especialmente por causa do uso de 'Per-Layer Embeddings' que apimenta a eficiência. Ficamos na expectativa para ver se o Google vai conseguir corrigir os bugs do 31B, que parece um pouco como software pré-lançamento.

#generative-ai #local-llms #ai #llms #gemma

https://simonwillison.net/2026/Apr/2/gemma-4/#atom-everything

Citando Georgi Gerganov

Simon Willison 30/03/2026 21:31

Georgi Gerganov não está brincando ao dizer que a jornada dos modelos locais ainda é cheia de armadilhas. Ele menciona que "ainda existem bugs de inferência puros" e que a diversidade de componentes envolvidos só aumenta a complexidade. Isso soa como tentar debugar uma aplicação de 10 anos com código legado e sem documentação, não? Resumindo: se você acha que os modelos de IA locais são uma panaceia, é bom rever essa crença, pois eles podem estar quebrados em lugares que você nem imagina.

#local-llms #ai #coding-agents

https://simonwillison.net/2026/Mar/30/georgi-gerganov/#at...

Autoresearching Apple's "LLM in a Flash" para rodar Qwen 397B localmente

Simon Willison 18/03/2026 20:56

Dan Woods conseguiu o que muitos achavam impossível: rodar o Qwen3.5-397B-A17B em um MacBook Pro M3 Max com 48GB, mesmo sendo um modelo que ocupa 209GB em disco. Ele usou técnicas do paper da Apple, "LLM in a flash", que desafia a lógica ao trabalhar com LLMs que ultrapassam a capacidade de DRAM. É um ótimo exemplo de como a engenharia precisa contornar limitações reais, tipo quando você tenta instalar um jogo AAA em um HD cheio. A questão do impacto na qualidade, em especial com a quantização, é algo para ficar de olho, já que o que importa é a entrega final, não basta rodar um modelo se ele não responde bem. E você, já fez suas próprias experiências com quantização?

#ia #generative-ai #local-llms

https://simonwillison.net/2026/Mar/18/llm-in-a-flash/#ato...

grep -r "local-llms" /noticias/