Leer en Línea | Registrarse | Anunciar
Buenos días, entusiastas de la IA. La esperada renovación de IA de Alexaaa está aquí — y puede ser el movimiento de IA más grande de Amazon.
Con una actualización masiva de inteligencia y un nuevo poder agentic establecido para aterrizar en manos de más de 100M miembros Prime, ¿es este el momento ‘ChatGPT para asistentes de voz?
En el resumen de AI de hoy:
- Amazons gen AI-powered Alexa+
- ElevenLabsics es la nueva IA de discurso a texto
- Personalice sus asistentes de codificación de IA
- Inception Labs’ modelo de difusión ultrarrápida
- 4 nuevas herramientas de IA y 4 oportunidades de trabajo
ÚLTIMOS DESARROLLOS
Ellos son
Amazons gen AI-powered Alexa+
Fuente de la imagen: Amazon
El Rundown: Amazon solo presentado Alexa+, su muy esperado asistente digital de próxima generación completamente reconstruido con AI — prometiendo más interacciones conversacionales, personalización y capacidades agentic para las tareas cotidianas.
Los detalles:
- Alexa+ puede conectar y aprovechar múltiples LLM, incluidos Nova de Amazon y Claude de Anthropic, eligiendo el mejor modelo para cada tarea en cuestión.
- El asistente renovado puede realizar tareas agentic complejas como reservar reservas, pedir comestibles, comprar entradas para conciertos y más.
- Otras características incluyen análisis de documentos, recordar las preferencias del usuario, mantener el contexto de conversación e integración con cientos de servicios.
- Costará $19.99 mensuales, pero es gratis con la membresía de Amazon Prime, con acceso anticipado en los Estados Unidos el próximo mes.
Por qué importa: Los asistentes de voz heredados como Alexa y Siri se han quedado muy por detrás del auge de la IA, pero este lanzamiento finalmente pondrá a los agentes de voz avanzados en los hogares de los miembros de 100M+ Prime —, lo que podría desencadenar otro momento de ‘ChatGPT para los consumidores fuera de la burbuja tecnológica (suponiendo que vaya mejor que Apple Intelligence).
JUNTO CON WORKOS
Proteja sus aplicaciones de IA de los malos actores
El Rundown: WorkOS Radar es una solución de seguridad que protege su plataforma de IA de registros falsos, correos electrónicos desechables e intentos de fuerza bruta — todo impulsado por huellas digitales avanzadas del dispositivo y detección en tiempo real.
Con WorkOS Radar, puedes:
- Detecte y desafíe rápidamente dispositivos desconocidos y sospechosos en tiempo real
- Detenga el abuso de nivel libre y el comportamiento fraudulento con detección avanzada
- Personalice las respuestas a amenazas para que se ajusten a las necesidades de seguridad exactas de su aplicación
Comience a integrar Radar hoy.
ELENLABS
ElevenLabsics es la nueva IA de discurso a texto
Fuente de la imagen: ElevenLabs
El Rundown: ElevenLabs liberado Scribe, un nuevo modelo de voz a texto que afirma ser el más preciso del mundo, superando a líderes de la industria como Gemini 2.0 Flash de Google y Whisper v3 de OpenAI en docenas de idiomas.
Los detalles:
- Scribe admite 99 idiomas, con tasas de precisión reclamadas que superan el 95% para más de 25 idiomas, incluidos Inglés, Italiano y Español.
- El modelo eleva el listón en una variedad de idiomas que tradicionalmente carecen de reconocimiento de voz y opciones de transcripción, como Serbio, Cantonés y Malayalam.
- Sus otras características incluyen etiquetado de múltiples altavoces, marcas de tiempo de nivel de palabra y la capacidad de detectar marcadores de audio no verbales como risas o música.
- Scribe tiene un precio de $0.40 por hora de audio transcrito para audio pregrabado, con una versión de baja latencia para aplicaciones en tiempo real próximamente.
Por qué importa: Con la precisión de los escribanos y el enfoque en la imprevisibilidad del audio del mundo real, las personas pueden esperar subtítulos impecables, archivos de podcast de búsqueda y más. También abre transcripciones de alto nivel a una audiencia más global — particularmente para lenguajes de bajos recursos que anteriormente habían sido descuidados por otros modelos.
ENTRENAMIENTO DE IA
Personalice sus asistentes de codificación de IA
El Rundown: En este tutorial, aprenderá cómo agregar instrucciones personalizadas a las herramientas de codificación de IA de Cursor y Windsurf para personalizar y mejorar su flujo de trabajo de desarrollo de codificación de IA.
Aquí está su guía paso a paso:
- Descargue Cursor o Windsurf en su dispositivo desde sus sitios web oficiales.
- Para configurar las reglas de Windsurf, cree un .windsurf archiva en la raíz de tu proyecto o elige entre reglas globales o reglas de proyecto a través de “Editar Reglas” en Configuración.
- Del mismo modo, para configurar reglas en Cursor, diríjase a su Configuración y configure reglas globales de IA o reglas específicas del proyecto.
Consejo profesional: Las reglas globales establecen preferencias universales, mientras que las reglas del proyecto definen instrucciones para requisitos específicos del proyecto. También puedes navegar por esto GitHub repo para plantillas listas para usar de reglas de Cursor.
PRESENTADO POR INNOVATING WITH AI
Comience su carrera como Consultor de IA
El Rundown: Innovando con el nuevo programa de AIir, AI Consultancy Project, equipa a los entusiastas de AI con todos los recursos que necesitan para capitalizar el floreciente mercado de consultoría de AI — que crecerá de 8x a $54.7B para 2032.
El programa ofrece:
- Herramientas y framework para encontrar clientes y ofrecer servicios de primer nivel
- Una hoja de ruta de 6 meses para construir un negocio de consultoría de IA de 6 cifras
- Estudiante aterrizando su primer cliente de IA en tan solo 3 días
Solicite acceso temprano al Proyecto de Consultoría de IA.
LABORATORIOS DE INICIO
Inception Labs’ modelo de difusión ultrarrápida
Fuente de la imagen: Inception Labs / Artificial Analysis
El Rundown: Inception Labs solo emergió desde el sigilo con Mercury, un nuevo ‘diffusion’ LLM que genera texto hasta 10 veces más rápido que los LLM tradicionales, al tiempo que combina su calidad — con velocidades de más de 1000 tokens/seg en chips H100 estándar.
Los detalles:
- Los LLM generan texto de un token a la vez, pero el enfoque de difusión de Mercurynaks genera bloques enteros en paralelo para aumentar la velocidad, la eficiencia y el control.
- Su primer modelo, Codificador Mercury, coincide o supera el rendimiento de codificación de modelos como GPT-4o Mini y Claude 3.5 Haiku a 5-10 veces la velocidad.
- Inception fue fundada por el profesor de Stanford Stefano Ermon, quien investigó cómo aplicar la difusión (comúnmente utilizada para la generación de imágenes y videos) al texto.
- Los modelos Mercury pueden servir como reemplazos directos para los modelos tradicionales en áreas como generación de código, atención al cliente y automatización empresarial.
Por qué importa: Al llevar la difusión “Sora-like” al texto, Inception va en contra de las suposiciones fundamentales sobre cómo la IA debería generar lenguaje. Su técnica podría permitir agentes más poderosos, un razonamiento mejor y más eficiente, y experiencias de IA que se sientan verdaderamente instantáneas.
HITS RÁPIDOS
Herramientas de IA de Tendencias
Wan 2.1 – Nueva suite de vídeo SOTA AI de código abierto de Alibabaa
Voz Avanzada – función de voz conversacional de ChatGPTps para usuarios gratuitos
Asistencia de Código Gemini – Codificador de IA gratuito con terminaciones de código de 180K por mes
Proyecto Starlight de Topaz Labs – Dale vida a los videos antiguos con IA
Oportunidades de Trabajo de IA
UiPath – Ejecutivo de Ventas Empresariales, Sector Público
Cresta – Ingeniero de Análisis
AI Luma – Comercializador Comunitario
Curai – Líder de Privacidad
Todo lo demás en IA hoy
AI Humeliberado Octave, un LLM de texto a voz que comprende el contexto emocional, lo que permite a los creadores diseñar voces personalizadas con control sobre la emoción y la entrega.
Perplejidadintroducido un modo de voz rediseñado en su última actualización de iOS, con seis opciones de voz diferentes, navegación directa de resultados de búsqueda y más.
Poelanzado Poe Apps, que permite a los usuarios crear aplicaciones e interfaces de interfaz de usuario visual utilizando una combinación de modelos de razonamiento, multimodales, de imagen, video y audio en la plataforma.
Vevo Terapéuticalanzado el Arc Virtual Cell Atlas con Tahoe-100M, un conjunto de datos de código abierto que mapea 60,000 interacciones de células farmacológicas en células 100M.
Exalanzado Websets, un producto de búsqueda que implementa agentes para obtener mejores resultados, superando a Google por más de 20x y OpenAI Deep Research por 10x en consultas complejas.
IBM presentado su nueva familia de modelos Granite 3.2, con razonamiento compacto, lenguaje de visión y modelos especializados de series de tiempo para uso empresarial.
Microsoftlanzado Phi-4 multimodal y Phi-4 mini SLM, igualando o superando el rendimiento de los modelos el doble de su tamaño en ciertas tareas.