"Lixo eletrônico" dá a volta por cima: PC antigo sem GPU de US$ 150 roda com fluidez o mais novo modelo grande Gemma 4 do Google
O contra-ataque do “lixo eletrónico”: um PC antigo de 150 dólares sem GPU roda com fluidez o mais recente modelo de linguagem da Google, o Gemma 4
Adeus à ansiedade da GPU: o veterano i5-8500 protagoniza um milagre de velocidade
Um Core i5-8500 lançado em 2018, 32 GB de RAM DDR4, sem placa gráfica dedicada e um custo total de apenas cerca de 150 dólares — um “computador batata” que, aos olhos da narrativa tecnológica dominante, parece quase esquecido — está a desafiar a regra de ferro que diz que os grandes modelos de linguagem dependem de GPUs caras. Um utilizador do Reddit, na sua máquina Linux, através do motor de inferência leve Koboldcpp, conseguiu executar com sucesso o recém-lançado Gemma-4-26B-A4B da Google, atingindo uma impressionante saída fluida de 7 tokens por segundo. Sem a angústia da memória de vídeo, sem a explosão do consumo energético, um velho computador de secretária montado com peças do mercado de segunda mão pôs a correr, assim, o mais avançado modelo de mistura de especialistas esparsos.
Decifrando o Gemma 4: a arquitetura de mistura de especialistas que transforma o “computador batata”
O verdadeiro herói por detrás disto é o design de mistura de especialistas (MoE) adotado pelo Gemma 4. É certo que o número total de parâmetros do modelo ascende a 26 mil milhões, mas, em cada inferência, apenas cerca de 4 mil milhões de parâmetros ativos são ativados. Esta estrutura de “muitos parâmetros totais, poucos parâmetros ativos” é naturalmente mais amigável para a largura de banda de memória e para a intensidade computacional. Usando uma metáfora simples, é como um conselho de 26 especialistas, onde em cada resposta só os 4 especialistas mais adequados tomam a palavra, enquanto os restantes permanecem em silêncio. Assim, mesmo em plataformas CPU desprovidas de grandes quantidades de memória de vídeo de alta velocidade, o modelo pode residir apenas na memória comum e, graças a técnicas otimizadas de quantização e à estrutura de inferência da família llama.cpp, distribuir uniformemente a carga computacional pelos vários núcleos do CPU, alcançando velocidades de resposta muito superiores às dos modelos densos das gerações anteriores.
O que significam 7 tokens/segundo? Da quase usabilidade à fluidez de conversa, uma mudança qualitativa
Para os veteranos da execução de grandes modelos de linguagem em CPU, os anteriores modelos densos de cerca de 12 mil milhões de parâmetros, mesmo quando funcionavam, apresentavam frequentemente uma velocidade de produção de texto tão lenta que se tornava exasperante, sendo melhor que nada. Já a eficiência de geração de 7 tokens por segundo ultrapassou com segurança o limiar de experiência de uma conversação interativa em tempo real: é suficientemente boa para se sentir como se estivesse a conversar com uma pessoa, quase sem se notar qualquer espera. Isto marca a primeira vez que a inferência sem GPU deixa de ser um “brinquedo de geek” para se tornar uma ferramenta fiável capaz de assumir tarefas ligeiras de produtividade, como perguntas e respostas quotidianas, sumarização de textos e assistência à escrita de código. Mais importante ainda: esta velocidade é alcançada sem qualquer hardware dedicado à aceleração de IA, comprimindo toda a capacidade outrora inacessível de modelos de linguagem de ponta numa discreta e envelhecida caixa de computador.
A declaração silenciosa da democratização da IA: inteligência de ponta ao alcance de todos
“Tu podes exibir o teu equipamento super caro, mais caro do que um carro usado, mas eu vou exibir o meu velho e decadente computador de secretária.” Esta provocação do utilizador atinge exatamente um sentimento popular, de certa forma ignorado, no panorama atual da IA. Enquanto a guerra dos chips, os milhares de milhões de parâmetros e os clusters de milhares de aceleradores dominam as manchetes, a dança ligeira do Gemma-4-26B-A4B sobre sucata eletrónica de 150 dólares prova, em silêncio, um outro caminho: a revolução da eficiência é a verdadeira democratização. Ela permite que programadores independentes, estudantes e geeks com orçamentos limitados possam aceder à capacidade de raciocínio de modelos de topo com um custo de hardware praticamente nulo, em ambientes privados completamente offline. Isto não é apenas uma exibição de virtuosismo técnico; é um movimento pela igualdade de direitos no que toca à posse e ao uso da IA. Quando o modelo de linguagem mais avançado começa a correr serenamente num processador esquecido, as barreiras começam a ruir a partir dos alicerces.