Celular no bolso e controle total pela voz: CEO da ElevenLabs prevê futuro sem telas com IA

A voz como a próxima interface principal

A maneira como interagimos com a tecnologia está prestes a mudar drasticamente. De acordo com Mati Staniszewski, cofundador e CEO da ElevenLabs, a voz se tornará a principal interface para a inteligência artificial (IA), permitindo que dispositivos realizem tarefas complexas sem a necessidade de interação visual. Essa evolução, impulsionada pela fusão de modelos de voz avançados com grandes modelos de linguagem (LLMs), promete liberar os usuários das telas.

"Espero que todos os nossos telefones voltem para os nossos bolsos e possamos nos imergir no mundo real ao nosso redor, com a voz como o mecanismo que controla a tecnologia", afirmou Staniszewski em entrevista ao portal TechCrunch. A ElevenLabs está desenvolvendo uma abordagem híbrida, combinando processamento em nuvem com execução no dispositivo (on-device), para viabilizar essa visão em hardwares como fones de ouvido e óculos inteligentes, com latência reduzida.

ElevenLabs atinge valuation bilionário e investe em agentes autônomos

A aposta no futuro da interação por voz rendeu à ElevenLabs um aporte significativo de US$ 500 milhões em uma rodada de financiamento Série D, elevando o valuation da empresa para US$ 11 bilhões. Liderada pela Sequoia Capital, com participação da Andreessen Horowitz (a16z) e ICONIQ Capital, a nova capital será direcionada para o desenvolvimento da plataforma "ElevenAgents", focada em agentes conversacionais para aprimorar a experiência do cliente e otimizar operações internas. Um novo modelo conversacional, prometendo maior velocidade, compreensão e expressão de emoções, será lançado em breve.

Big Techs também apostam em agentes de IA mais ativos

A visão da ElevenLabs se alinha com o movimento das gigantes de tecnologia em transformar assistentes de IA passivos em agentes autônomos. A Apple, por exemplo, adquiriu a startup israelense Q.ai, especializada em reconhecimento de fala e áudio, por até US$ 2 bilhões. A tecnologia da Q.ai utiliza "micromovimentos da pele facial" para detectar comandos de voz, mesmo sussurrados ou não audíveis, o que aprimora a interação em ambientes ruidosos ou que exigem discrição. Essa aquisição reforça a estratégia da Apple de integrar IA diretamente ao hardware, visando melhorar produtos como os AirPods e o Vision Pro.

Google Gemini prepara controle de aplicativos no Android

O Google também está avançando nesse campo, com o desenvolvimento de recursos para o Gemini controlar aplicativos diretamente no sistema Android. Anunciada no Google I/O 2024 como parte do Projeto Astra, a funcionalidade, que deve chegar como "Automação de tela", permitirá que a IA realize ações como reservar corridas ou fazer pedidos online, sem que o usuário precise interagir manualmente com a tela repetidamente.

Fonte: canaltech.com.br

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *