Le domaine de la génération de médias à travers l'intelligence artificielle (IA) évolue à un rythme vertigineux, et la génération vidéo est devenue l'une des frontières les plus actives et les plus compétitives. Dans ce contexte, Google a présenté que je vois 2, l'évolution de son modèle que je vois 1 et sa proposition phare de rivaliser dans cet espace émergent. Développé par Google Deepmind, I See 2 est positionné comme un modèle de dernière génération conçu pour produire des vidéos de haute qualité et de réalisme, dans le but d'offrir un "contrôle créatif sans précédent".

L'arrivée de Vie 2 se produit dans un moment de concurrence intense, avec des acteurs clés tels que Openai Sora, Runway, Kling et d'autres faisant la promotion de l'innovation à une vitesse remarquable. Google déclare que je vois 2 redéfinir la qualité et le contrôle dans la génération de vidéos par IA, avec le potentiel de transformer considérablement les flux de travail créatifs en diverses industries.

Cet article vous entre dans une analyse détaillée de Google que je vois 2. Nous examinons sa disponibilité via les différentes plateformes Google, ses spécifications techniques et les principales améliorations en ce qui concerne son prédécesseur, je vois 1. Nous abordons également les limites actuelles du modèle, effectuant une analyse comparative avec I VOIR 1 et les concurrents concernés, avec les opinions des experts initiaux et des utilisateurs, en évaluant l'approche Google du développement de Google son développement et son déploiement. 

Accéder à I Voir 2: plates-formes, prix et disponibilité

La stratégie de lancement de Google pour voir 2 est caractérisée par un déploiement progressif et fragmenté. Il a commencé avec des prédictions privées pour les créateurs et les cinéastes sélectionnés et s'est progressivement élargi grâce à divers produits et plateformes Google. La date clé a été l'annonce de sa disponibilité le 15 avril 2025 pour les utilisateurs avancés de Gemini.

Actuellement, il y a plusieurs itinéraires pour accéder à I VOIR 2, chacun avec ses propres caractéristiques et limitations:

  • Gemini API / Vertex AI: Il s'agit de la principale voie pour les développeurs et les clients commerciaux qui cherchent à intégrer I VOIR 2 dans leurs propres applications. Il est considéré comme prêt pour la production. L'accès nécessite des touches API et, pour certaines fonctions avancées telles que l'édition ou les contrôles de chambre spécifiques, il peut être nécessaire d'être dans une liste d'utilisateurs autorisés. Des entreprises telles que WPP, Agoda, Mondelez et Poe utilisent déjà ou testent que je vois 2 via Vertex AI.
  • Google AI Studio: offre un environnement expérimental pour les développeurs pour tester les capacités de I Voir 2. L'accès initial est généralement gratuit, mais est soumis à des quotas d'utilisation très stricts.
  • VideoFX (Google Labs): Il s'agit d'un outil expérimental destiné aux créateurs, accessibles via Google Labs. Il faut s'inscrire dans une liste d'attente. Initialement, l'accès anticipé a été limité aux utilisateurs de plus de 18 ans aux États-Unis, bien que Google prévoit d'étendre l'accès.
  • Gemini Advanced: Je vois que 2 est intégré en fonction des abonnés du plan Premium Google One AI. Il permet de générer 8 secondes vidéos à une résolution 720p, avec des limites d'utilisation mensuelles non définies explicitement (il est indiqué que nous serons informés lorsque nous atteindrons la limite). Il est disponible à l'échelle mondiale dans les pays et les langues où les applications Gemini sont prises en charge.
  • Fouetter Animate (Google Labs): Cette fonction expérimentale, également dans Google Labs, utilise I voie 2 pour convertir des images statiques en clips vidéo animés de 8 secondes. Il est disponible pour les abonnés de Google One AI Premium dans plus de 60 pays.
  • Shorts YouTube (écran de rêve): L'intégration de VAS 2 sur YouTube Shorts est en cours d'implémentation via la fonction d'écran de rêve. Cela permettra aux créateurs de générer des fonds vidéo uniques via l'IA ou même de créer des clips vidéo indépendants à partir d'invites de texte. Le déploiement initial sera effectué aux États-Unis, au Canada, en Australie et en Nouvelle-Zélande.

Quant aux différents prix, ils varient considérablement entre ces plateformes:

  • API / VERTEX AI: Le coût est basé sur le temps vidéo généré. Les sources indiquent des prix entre 0,35 $ et 0,50 $ par seconde. Cela équivaut à 21 $ à 30 $ par minute ou 1260 $ - 1800 $ par heure de vidéo générée. Le mode de lancement Google a offert des crédits gratuits (300 $) et il pourrait y avoir des périodes initiales d'utilisation inutile dans Vertex AI.
  • Abonnement: l'accès via Gemini Advanced et Whisk Animate est inclus dans l'abonnement à Google One AI Premium (20 $ / mois, 21,99 € en Espagne). En comparaison, Sora de Openai est proposée dans le cadre des abonnements à ChatGpt Plus (20 $ / mois) et Pro (200 $ / mois).
  • GRATUIT / EXPÉRIMENTAL: Des plates-formes telles que Google AI Studio et VideoFX (avec liste d'attente) offrent un accès gratuit, mais avec de grandes limites en termes de quotas et de fonctionnalités disponibles.

Le tableau suivant résume les routes d'accès à I voie 2:

Tableau 1: Résumé d'accès Google Je vois 2

Plate-forme

Méthode d'accès

Utilisateur typique

Spécifications clés (accès actuel)

Modèle de coût

État de disponibilité

API GEMINI / VERTEX AI

Clé API, ALLANTLIST (une fonction.)

Développeur, entreprise

Potentiel 4K / Minutes, API: 720p / 8s

Par seconde (0,35 $ à 0,50 $)

GA, aperçu (modifier)

Google AI Studio

Se connecter

Promoteur

720p / 8s

GRATUIT (quotas bas)

Expérimental

Videofx (laboratifs)

Connexion + attendre

Créateur

720p / 8s

GRATUIT (quotas bas)

Liste d'attente (Reg.)

Gemini avancé

Google One AI Precription.

Consommateur

720p / 8s (16: 9)

Abonnement (20 $ / mois)

GA (global)

Fouetter l'animation (laboratoires)

Google One AI Precription.

Consommateur, créateur

Image vidéo (8s)

Abonnement (20 $ / mois)

GA (60+ pays)

Shorts YouTube

Intégré dans l'application

Créateur de contenu

Fonds / clips (8s?)

GRATUIT (intégré)

Déploiement (Reg.)

 

Cette diversité de points d'accès et de modèles de prix révèle une stratégie d'accès échelonnée de Google. Les capacités les plus élevées (potentiellement 4K, vidéos plus longues, contrôles avancés) et les prix les plus élevés sont réservés aux utilisateurs professionnels et aux développeurs via l'API, où la valeur perçue et la volonté de payer sont plus importantes. Dans le même temps, des versions plus limitées sont offertes (720p, 8 secondes) mais plus accessibles économiquement aux consommateurs et aux créateurs par le biais d'abonnements ou de prévisions gratuits. Cette approche segmentée permet à Google de gérer la complexité du déploiement, des coûts de traitement élevés associés à la génération vidéo et maximiser le revenu potentiel, en s'adaptant aux besoins des différents segments de marché.

Cependant, cette stratégie de prix place que je vois 2 dans une position intéressante devant la concurrence. Le coût élevé par seconde de l'API (0,35 $ à 0,50 $) contraste nettement à l'inclusion de Sora dans des abonnements relativement abordables de chatppt (20 $ / 200 $ par mois). Bien que Sora n'ait toujours pas une API publique largement disponible à des prix définis, cette différence fondamentale dans le modèle d'accès pourrait générer une pression concurrentielle sur les prix de Google. Si OpenAI ou d'autres concurrents proposent des API avec des coûts unitaires inférieurs, ou si les modèles de haute qualité deviennent accessibles grâce à des abonnements moins chers, les utilisateurs professionnels qui ont besoin de générer de grands volumes vidéo pourraient trouver des alternatives plus attrayantes que l'API de I voie 2, forçant potentiellement Google à reconsidérer sa structure de prix pour maintenir la compétitivité dans ce segment clé.

Afficher 2 capacités techniques: un saut dans la vidéo générative

Je vois 2 fonctionne principalement à travers deux modalités: la génération de texte en vidéo (T2V), où une description textuelle est transformée en scène vidéo, et la génération de vidéo en vidéo (I2V), qui encourage une image statique basée sur une invite textuelle supplémentaire pour définir le style et le mouvement. Ce modèle est le résultat d'années de recherche Google dans la génération de vidéos, en profitant des architectures et en apprenant des projets précédents tels que GQN, DVD-GAN, Image-video, Phehenaki, Walt, Videopoet et Lumière, en plus des modèles d'architecture de transformateur et de Gemini.

Quant aux spécifications techniques de sortie, je vois 2 présente une avancée significative, bien qu'avec des nuances importantes entre son potentiel et l'accès actuel:

  • Résolution: Le modèle de base est capable de générer une vidéo avec une résolution jusqu'à 4k.3 Il s'agit d'une amélioration par rapport à I Voir 1, qui a atteint 1080p. Cependant, bon nombre des implémentations actuelles accessibles au public (API / Vertex AI, AI Studio, Gemini Advanced, VideoFX) sont limitées à 720p 14 ou 1080p dans certains contextes.
  • Durée de la vidéo: Je vois que 2 a la capacité de générer des clips qui "dépassent la minute" ou d'atteindre jusqu'à deux minutes de durée continue, et même potentiellement plus. Cela améliore la capacité de voir 1 (> 60s). Cependant, l'accès actuel via API, AI Studio et Gemini Advanced sont souvent limités à 8 secondes de clips.
  • Taux de Fotograms (fréquence d'images): La documentation de l'API et du sommet AI spécifie un taux de 24 images par seconde (FPS). Dans une comparaison, 30 à 60 ips sont mentionnés.
  • Ratio d'apparence: à travers l'API / Vertex AI, les formats 16: 9 (paysage) et 9:16 (portrait) sont soutenus. Le départ dans Gemini Advanced est 16: 9.
  • Format de sortie: le format MP4 sera utilisé pour les sorties générées via Gemini Advanced.

Au-delà des spécifications de base, je vois 2 introduit des améliorations qualitatives clés:

Vidéo de la coupe d'une tomate générée par je vois 2

 

  • Amélioration de la compréhension et du réalisme: le modèle démontre une compréhension avancée du langage naturel et de la sémantique visuelle, interprétant précisément le ton, les nuances et les détails des longues invites. Utilisez des architectures de transformateur (éventuellement des encodeurs UL2) pour traiter le texte. Fondamentalement, Google met en évidence la simulation du physique du monde réel comme une amélioration cruciale. Des exemples tels que la physique de l'eau, le papier brûlé ou la coupe précise d'une tomate sans affecter les doigts illustrent cette capacité, la positionnant comme un différenciateur clé contre les concurrents tels que SORA. Cette compréhension physique se traduit par une représentation du mouvement de haute précision, avec des mouvements fluides de caractères et d'objets réalistes. Le résultat est des vidéos avec un réalisme et une fidélité plus importants, avec des détails fins et une réduction significative des artefacts visuels (tels que des doigts supplémentaires ou des objets inattendus) par rapport aux modèles précédents, en utilisant des techniques telles que le rendu neuronal des scènes adaptatives et des Gans. De plus, la cohérence temporaire a été améliorée, maintenant la stabilité des caractères et des objets dans les cadres par des modèles de diffusion latente. Bien sûr, comme on peut le voir dans la vidéo, des images impossibles sont souvent générées comme cette merveilleuse coupe d'un morceau de tomate transformé en demi-tomate après avoir été coupé.
  • Contrôle cinématographique et styles: Je vois 2 interprète la «langue unique de la cinématographie». Comprenez des termes tels que "timelapse", "Air Take", "Drone", "Traveling", "Dolly", "Foreground", "contrepicado", "Paneo à droite", et vous permet même de spécifier le genre souhaité. Il offre de vastes commandes de chambre sur la prise, les angles et les mouvements, un avantage clé exceptionnel. Il peut simuler des effets de lentilles spécifiques (par exemple, "lentille 18 mm" pour le grand angle) et des effets tels que "la profondeur de champ réduite", y compris les flashs de lentille (poussée de lentille). Il prend en charge un large éventail de styles visuels et cinématographiques.
  • Capacités d'édition (Aperçu / AutorceList): Je vois 2 introduit des fonctions d'édition plus sophistiquées, bien qu'elles nécessitent actuellement l'accès par la liste des personnes autorisées au sommet AI. Il s'agit notamment de l'édition masquée ou de l'insuffisance, pour éliminer les éléments indésirables (logos, distractions) dans les zones vidéo définies, et surfermer, pour prolonger le cadrage de la vidéo remplissant les nouvelles zones généativement, utile pour changer les relations d'apparence. L'interpolation est également mentionnée pour créer des transitions douces entre les images fixes et les capacités d'édition générales pour affiner ou revoir le contenu sans recommencer à zéro.

L'accent mis par Google sur la compréhension de la physique et du mouvement par I Me voient 2 n'est pas accidentel. Il semble que ce soit une orientation architecturale centrale, visant à corriger une faiblesse importante observée dans les modèles et concurrents précédents tels que Sora (en témoigne l'exemple de la coupe de la tomate). En positionnant le réalisme comme la principale proposition de valeur, Google pointe directement des cas professionnels (aperçu du film, publicité, formation) où le mouvement antinaturel brise l'immersion et la crédibilité. Cette orientation se différencie stratégiquement que je vois 2 sur le marché, attirant des utilisateurs qui hiérarchisent la fidélité, peut-être, la vitesse pure ou la liberté de création plus abstraite.

Cependant, il existe un écart notable entre le potentiel annoncé et la réalité accessible à de nombreux utilisateurs. La différence entre la capacité promue de générer des vidéos 4K de plusieurs minutes et l'expérience réelle d'obtenir des clips 720p et 8 secondes crée un défi marketing et peut générer une déception. Il suggère que, bien que le modèle central soit puissant, l'escalade et l'optimisation pour un accès large et abordable reste un obstacle technique considérable, probablement en raison de coûts de calcul élevés, de temps d'inférence ou de problèmes possibles de cohérence et de sécurité dans des durées plus longues. Cet écart affecte la perception de l'utilisateur: ils voient des démonstrations incroyables mais interagissent avec un outil moins compétent, qui pourrait nuire à la réputation du produit malgré son potentiel sous-jacent.

Enfin, l'accent mis sur des contrôles cinématographiques spécifiques (objectifs, types de plan, profondeur de champ) est clairement orienté vers les cinéastes et les créateurs professionnels. Cette approche est alignée sur le modèle de tarification le plus élevé de l'API et des collaborations commerciales, suggérant un objectif initial de pénétrer dans les flux de travail professionnels. Google semble identifier un marché principal dans la création de contenu professionnel (publicité, aperçu du film, marketing) où ces contrôles offrent une valeur significative qui justifie le coût, au-delà du simple divertissement pour le consommateur.

De je vois 1 à je vois 2

Pour bien comprendre les avancées de See 2, il est utile d'établir d'abord la base de base de son prédécesseur. Je vois que 1 a déjà offert des capacités notables: génération de vidéos jusqu'à 1080p, durée de plus de 60 secondes, compréhension des termes cinématographiques, génération de vidéos à la vidéo, application des commandes d'édition, améliorations de cohérence par diffusion latente et mise en œuvre des marques d'eau synthétiques et des filtres de sécurité.

Je vois que 2 représente une évolution significative sur cette base, avec des améliorations clés dans plusieurs domaines:

  • Résolution: Le saut le plus évident est l'objectif de résolution de See 2, qui atteint jusqu'à 4k, dépassant le maximum de 1080p de See 1.
  • Réalisme et fidélité: Je vois 2 introduit des "améliorations significatives" en détail, le réalisme et la réduction des artefacts par rapport aux modèles précédents et concurrents. Il produit moins d'hallucinations visuelles ", bien que, comme vous pouvez vérifier la vidéo de cette nouvelle, ce n'est pas toujours.
  • Mouvement et physique: il a des "capacités de mouvement avancées" et une meilleure simulation de la physique du monde réel, allant au-delà de l'accent mis sur la cohérence de I voie 1.
  • Contrôle de la chambre: il offre des options de contrôle des caméras «plus anciennes» et plus précises, en élargissant la compréhension des termes cinématographiques que je possédais déjà, je vois 1.
  • Durée vidéo: le potentiel de la durée s'étend, dépassant la minute offerte je vois 1.
  • Édition: Présentez des capacités d'édition plus sophistiquées telles que la déception et la surfusion (en avant-première), qui vont au-delà des commandes d'édition décrites pour voir 1.

Le tableau suivant compare directement les capacités clés de I See 1 et je vois 2:

Tableau 2: Comparaison des fonctionnalités que je vois 1 contre je vois 2 

Fonctionnalité

Capacité je vois 1

Capacité je vois 2

Résolution maximale

1080p

Jusqu'à 4K (potentiel)

Durée maximale (potentiel)

> 60 secondes

Jusqu'à 2 minutes ou plus

Physique / mouvement

Concentrez-vous sur la cohérence

Simulation physique avancée, mouvement réaliste

Réalisme / fidélité

Haute qualité

Améliorations significatives et moins d'artefacts

Contrôle cinématographique

Compréhension des termes

Plus grande précision et options (lentilles, etc.)

Fonctions de montage

Commandes d'édition de base

Insération, surfusion (prévisualisation)

 

Cette progression de I See 1 to I Ie See 2 illustre une stratégie d'amélioration itérative de Google. Les progrès de la résolution, du réalisme, de la physique et du contrôle ne sont pas aléatoires; Ils se concentrent sur des aspects fondamentaux de la qualité et du contrôle vidéo qui sont cruciaux pour l'adoption professionnelle. Ce modèle suggère un processus de développement structuré, démontrant un engagement à long terme à affiner la technologie sous-jacente.

Limitations et défis de voir 2

Malgré ses capacités impressionnantes, je vois que 2 n'est pas exempté des limitations et des défis, à la fois inhérente à la technologie de génération de vidéos actuelle par l'IA et spécifique à sa mise en œuvre et à son déploiement.

  • Complexité et adhérence de l'invite: bien que la compréhension du langage naturel se soit considérablement améliorée, je vois que 2 a encore des difficultés avec des invites extrêmement complexes ou détaillées, ne suivant pas toutes les instructions avec précision. Invite l'ingénierie est toujours cruciale pour obtenir de bons résultats. Bien que les repères indiquent des scores d'adhésion élevés à l'invite, il y a des cas où le modèle ne répond pas aux attentes.
  • Artefacts et cohérence: la génération d'artefacts visuels, bien que réduite, n'a pas été complètement éliminé. Des déformations occasionnelles peuvent apparaître chez des sujets, un texte illisible ou des «hallucinations» telles que des doigts supplémentaires ou des objets inattendus. La cohérence temporaire peut échouer dans des scènes très complexes ou avec des mouvements rapides, et la simulation physique peut être brisée dans des scénarios particulièrement complexes. Certains exemples générés par les utilisateurs ont été décrits comme «contre nature» ou «dérangeants».
  • Vitesse de génération: le temps nécessaire pour générer une vidéo peut être considérable. Il y a des comparaisons qui citent environ 10 minutes par clip, ce qui contraste avec les environ 5 minutes attribuées à Sora. Cependant, certaines intégrations, telles que les shorts YouTube, semblent fonctionner beaucoup plus rapidement. La latence de l'API est officiellement décrite comme "généralement en quelques minutes, mais cela peut prendre plus de temps".
  • Outils d'édition: le manque d'outils d'édition intégrés dans certaines des interfaces d'accès (API, peut-être la version initiale de Gemini Advanced), les utilisateurs recourent à des logiciels externes pour apporter des modifications. Les fonctions d'édition les plus avancées dans le sommet AI nécessitent un accès par la liste des utilisateurs autorisés. Sora, en revanche, comprend des outils d'édition intégrés.
  • Contrôles disponibles: Certains des premiers utilisateurs de VIS ont remarqué que la version de VI 2 qu'ils ont testée manquaient de contrôles pour la résolution ou la durée de la vidéo par rapport à SORA. Cependant, l'API / Vertex AI offre des paramètres pour contrôler la durée, le rapport d'apparence, les invites négatives et les graines de génération.
  • Accès et coût: Comme nous l'avons détaillé, l'accès fragmenté, les listes d'attente, les restrictions géographiques et les coûts élevés de l'API représentent des obstacles importants pour l'adoption. À l'heure actuelle, les frais à des niveaux libres sont extrêmement faibles, bien que le fait d'être si récent, leur atterrissage devra toujours attendre un certain temps pour l'évaluer.
  • Restrictions de contenu et filtres de sécurité: les filtres de sécurité implémentés par Google sont stricts et peuvent bloquer la génération de contenu de façon inattendue, même pour des invites apparemment inoffensives. Il existe des restrictions spécifiques pour la génération de personnes, en particulier mineures (contrôlées par des paramètres tels que perte_adult ou interdire dans l'API). Les utilisateurs ont signalé des problèmes pour générer des vidéos même à partir d'images contenant des personnes ou dans des scènes sans eux. Cette censure excessive peut rendre l'outil inutilisable pour certains cas d'utilisation.
  • Déchisements de capacité: les versions accessibles manquent actuellement de génération de son. La difficulté de générer des mains réalistes est toujours un problème courant dans tous les modèles d'IA.

Ces limites montrent un engagement inhérent entre la capacité et la convivialité. Bien que je vois 2 présume des capacités à forte extrémité (potentiel 4K, physique réaliste), des restrictions de vitesse, des contrôles accessibles (dans certaines versions), le manque d'édition intégrée et les filtres de contenu stricts ont un impact significatif sur l'utilisabilité pratique. Comparé aux concurrents qui pourraient être plus rapides, plus intégrés ou moins restrictifs (comme Sora ou Runway), voir 2 utilisateurs pourraient obtenir une qualité potentielle plus élevée au prix d'une expérience utilisateur plus lourde ou limitée. Cela peut affecter l'adoption, en particulier pour les flux de travail itératifs ou sensibles.

En outre, les rapports sur des filtres de contenu excessivement agressifs qui bloquent les invites inoffensifs suggèrent une éventuelle réaction excessive dans la hiérarchisation de la sécurité et de l'atténuation des risques pour la marque par Google. Cette prudence pourrait être dérivée des controverses passées avec d'autres modèles d'IA (comme les images Gemini). Bien que la sécurité soit essentielle, des filtres trop stricts peuvent utiliser l'outil pour de nombreux cas d'utilisation courants (par exemple, encourager les photos de famille), créant une limitation importante entraînée par une aversion au risque.

Enfin, la combinaison des écarts de capacité (720p / 8s vs 4k / minutes), des problèmes d'utilisation (vitesse, contrôles variables) et des barrières d'accès amplifient le problème de la "démonstration vs réalité". L'expérience utilisateur moyenne peut être loin des démonstrations polies présentées par Google, ce qui pourrait endommager la crédibilité si les attentes ne sont pas soigneusement gérées. Cet écart significatif entre la promesse et la réalité connus par l'utilisateur peut conduire à la déception et à une perception négative, malgré la réalisation technologique qui suppose que je vois 2.

Je vois 2 contre Sora et autres

La position de See 2 sur le marché est largement définie par sa comparaison avec son principal rival, Sora de Openai, ainsi que la piste.

Comparaisons directes (je vois 2 contre Sora):

  • Qualité / réalisme: de nombreuses sources et utilisateurs initiaux citent pour que je considère 2 comme supérieur en termes de réalisme, de simulation physique et de détails visuels. Sora, en revanche, montre parfois des difficultés avec de beaux détails (comme les mains) et la physique. Certaines analyses suggèrent que Sora pourrait être plus "artistique" ou de manière créative.
  • Résolution: Je vois que 2 a un potentiel jusqu'à 4K, tandis que Sora est limité à 1080p.
  • Durée: Le potentiel de voir 2 (plus de 1 à 2 minutes) dépasse la durée citée pour Sora (20 ou 60 secondes). Cependant, l'accès actuel à I voie 2 est généralement plus court (8 secondes).
  • Vitesse: Je vois 2 (environ 10 min) est généralement plus lent que Sora (environ 5 min). Il est important de remarquer l'existence de "Sora Turbo", une version peut-être plus rapide et plus économique, mais potentiellement de qualité inférieure que les démos originales de Sora.
  • Contrôle: Je vois que 2 est loué par ses contrôles cinématographiques, tandis que Sora se démarque de sa flexibilité et de ses fonctions telles que le storyboard. Cependant, MKBHD a constaté que sa version de Test View 2 avait moins de contrôles que Sora.
  • Édition: Je vois 2 manque d'édition intégrée (sauf dans Vertex AI avec Aut allongList); Sora propose des outils construits (Remix, Loop, Blend).
  • Accès / prix: L'accès à I VOIR 2 est fragmenté et le coût de l'API est élevé; Sora est accessible par des abonnements moins chers. Actuellement, Sora est plus accessible au grand public.

Benchmarking et autres concurrents:

Les résultats de Benchmark MovieGenbench, où les évaluateurs humains ont décrit des vidéos générées à partir de plus de 1000 invites, a montré que je vois 2 Sora Turbo, Kling et MovieGen dépassés en préférence générale et dans l'adhésion à l'invite (évalué à 720p avec des durées variables). Cependant, il est crucial de reconnaître les limites de ces benchmarks, qui peuvent utiliser des résultats sélectionnés ("cueillet") ou basés sur des ensembles de données spécifiques.

Le panorama compétitif comprend également Runway (avec Gen-3 Alpha / Gen-4), Kling, Aws Nova Reel, Hailuo, Minimax et Potential MovieGen OBJET. Certains utilisateurs expriment même la préférence pour la piste ou le héliluo sur la version actuelle de SORA à laquelle ils ont accès.

Le tableau suivant offre un instantané comparatif de Ver 2 devant ses principaux concurrents:

Tableau 3: Instantané comparatif des générateurs de vidéos par AI

Fonctionnalité

Google je vois 2

Openai Sora

Piste (Gen-3/4)

Force principale

Réalisme, physique, contrôle cinématique [multiple]

Vitesse, flexibilité créative, édition

Contrôle fin, modes spécifiques (implicite)

Max.

4K (potentiel)

1080p

Variable (720p-1080p + selon le plan / version)

Max.

2 min + (potentiel)

20s / 60

~ 15S (Gen-2), plus longtemps dans Gen-3/4 (variable)

Vitesse

Plus lent (~ 10 min)

Plus rapide (~ 5 min)

Fast (Gen-4 en temps réel?)

Outils d'édition

Limité / externe (API)

Intégré (remix, boucle, etc.)

Intégré (implicite)

Modèle d'accès

Fragmenté (API, Subs, Labs) [multiple]

Abonnement Chatgpt

Abonnement / crédits

Modèle de prix

API: $ / sec; Sub: 20 $ / mois

Sub: 20 $ / 200 $ mois

Plans annuels (144 $ - 1500 $)

 

Cette comparaison suggère une éventuelle segmentation de marché basée sur les forces de chaque outil. Je vois que 2 semble aller à l'utilisation professionnelle de la haute fidélité qui valorise la qualité cinématographique et la précision physique [de nombreux extraits]. Sora pourrait attirer un public plus large de créateurs de contenu pour les réseaux sociaux et l'expérimentation créative, grâce à leur vitesse, leur flexibilité et leur édition intégrée. La piste, avec son approche itérative et éventuellement des caractéristiques spécifiques, pourrait trouver sa niche entre les artistes visuels et les professionnels VFX. Le marché ne semble pas monolithique; Différents outils sont susceptibles de coexister, desservant différents segments en fonction de leurs capacités centrales.

Il est crucial d'appliquer l'avertissement de la "version publiée" lors de l'évaluation de ces comparaisons. Souvent, la version publique d'un modèle est contrastée (comme "Sora Turbo", qui, selon certains utilisateurs, est inférieure aux démos initiales) avec des démos soigneusement sélectionnées ou des versions d'accès limitées d'un autre (je vois 2). Cela rend difficile d'établir des jugements définitifs. Le «meilleur» modèle peut dépendre en grande partie de la version spécifique en cours d'évaluation et dans quelles conditions, faisant de la supériorité un objectif mobile.

Enfin, il existe une hypothèse récurrente sur l'avantage des données Google. Plusieurs sources spéculent que l'accès direct et massif de Google aux données YouTube vous donne un avantage significatif dans la formation de VI 2 pour réaliser des mouvements réalistes et comprendre divers scénarios, par rapport aux concurrents qui peuvent avoir besoin de recourir au grattage des données. Bien qu'il ne soit pas officiellement confirmé, cet accès à un ensemble de données vidéo si largement et potentiellement étiqueté pourrait être une fosse compétitive cruciale à long terme, expliquant potentiellement l'avantage perçu de See 2 dans le réalisme et être difficile à reproduire légalement et efficacement par d'autres.

Sécurité et éthique dans voir 2

Google a souligné son engagement envers les principes du responsable de l'élaboration et du déploiement de I Voir 2. La société prétend avoir effectué des tests approfondis de "équipe rouge" et des évaluations pour empêcher la génération de contenu qui viole ses politiques. Deux principaux mécanismes techniques soutiennent cette approche:

  • Synthid Water Brand: cette technologie est une fonctionnalité de sécurité clé implémentée dans IVO 2 et d'autres modèles génératifs Google. Il s'agit d'une marque d'eau numérique invisible, directement intégrée dans les pixels vidéo photogrammes pendant la génération. Il est conçu pour être persistant même si la vidéo est modifiée (coupes, filtres, compresse) et n'affecte pas la qualité visuelle perceptible. Son objectif est de permettre l'identification du contenu généré par l'IA via des outils de détection spécialisés, aidant ainsi à lutter contre la désinformation et l'attribution erronée.
  • Filtres de sécurité: je vois 2 incorpore des filtres conçus pour empêcher la création d'un contenu nocif. L'API comprend des paramètres spécifiques pour contrôler la génération de personnes, telles que perte_adult (autoriser uniquement les adultes, la valeur par défaut) ou interdire (sans autoriser les personnes). Cependant, comme mentionné ci-dessus, il existe des rapports d'utilisateurs qui indiquent que ces filtres peuvent être excessivement restrictifs.

Au-delà de ces mesures techniques, le déploiement de I See 2 fait partie d'un panorama éthique plus large avec plusieurs préoccupations clés:

  • Deepfakes et une désinformation: la capacité de générer des vidéos réalistes implique le risque inhérent de créer des fesses profondes convaincantes pour diffuser de fausses informations ou effectuer des fournitures malveillantes. Synthed est la principale défense technique de Google contre ce risque.
  • Propriété intellectuelle et droit d'auteur: la propriété du contenu généré par l'IA reste une zone légalement grise. De plus, des préoccupations surviennent sur les données utilisées pour former ces modèles, tels que l'utilisation possible des vidéos YouTube sans consentement explicite à cet effet.
  • Biais: Comme pour tout modèle de formé avec de grands ensembles de données, il existe un risque que je vois 2 perpétuer ou amplifier les préjugés sociaux existants dans ses résultats, bien que Google prétend prendre des mesures pour l'atténuer.
  • Déplacement du travail: La capacité croissante de ces outils génère des inquiétudes quant à leur impact sur les industries créatives, avec un déplacement potentiel des rôles de cinéma, de l'animation, du marketing et de la conception. Une étude a cité estime un impact significatif sur les emplois aux États-Unis pour 2026.

Le déploiement proéminent de Synthed par Google dans ses modèles génératifs représente une approche technique proactive pour répondre aux risques de désinformation. Le fait de gêner la marque d'eau pendant la génération est une mesure préventive intégrée, contrairement à la détection post-hoc. Cela suggère que Google considère le filigrane comme fondamental pour un déploiement responsable. Cependant, le succès de cette stratégie dépend de la véritable robustesse des marques d'eau et de l'adoption généralisée d'outils de détection fiables. Il s'agit d'une solution technique pour un problème socio-technique complexe.

La tension entre la mise en œuvre de filtres de sécurité robustes et le maintien de l'utilité de l'utilisateur, comme en témoigne les plaintes, souligne un dilemme fondamental pour les développeurs de l'IA: sécurité vs utilitaire. Des filtres excessivement stricts peuvent utiliser un outil, tandis que les filtres laxistes augmentent les risques. Trouver le bon équilibre est un défi continu, avec des implications importantes pour l'adoption de l'utilisateur et l'impact social. L'étalonnage actuel de Google semble se pencher vers la prudence, ce qui pourrait affecter sa compétitivité si les utilisateurs trouvent l'outil trop restrictif à leurs besoins.

Enfin, les caractéristiques telles que les paramètres de sécurité synthétiques et configurables (bien que imparfaits) représentent la tentative de Google d'incorporer des considérations éthiques dans la propre conception du produit. Cela va au-delà des déclarations de politique pour atteindre la mise en œuvre technique. Bien que l'exécution puisse avoir des échecs (filtres trop stricts), l'approche pour intégrer la sécurité dans l'architecture de l'outil reflète une position spécifique sur le développement responsable de l'IA, cherchant à appliquer une utilisation éthique par le biais de la technologie elle-même.

Impact et trajectoire future de ver 2

Le lancement et l'évolution de VI 2 ont des implications significatives qui s'étendent au-delà de leurs spécifications techniques, affectant potentiellement plusieurs industries et redéfinissant les processus créatifs.

Impact sur les industries créatives:

Je vois que 2 a le potentiel de révolutionner les flux de travail dans plusieurs secteurs:

  • Cinéma: Il peut accélérer l'aperçu et les tests des concepts, générer des actifs de fond et même produire des courts métrages complets. La collaboration avec des cinéastes tels que Donald Glover et son étude Gilga souligne cette approche.
  • Marketing et publicité: il permet un prototyment rapide des publicités, la génération de contenu publicitaire personnalisé à grande échelle et la création de démonstrations de produits. Des entreprises telles que Mondelez, WPP, Agoda, Alphawave et Trakto l'explorent déjà. La réduction drastique des temps de production (de semaines à l'heures, selon la Kraft Heinz Company) et la plus faible dépendance à l'égard des images du stock.
  • Jeux vidéo: il peut être utilisé pour générer du cinéma ou du matériel promotionnel réaliste.
  • Éducation et formation: facilite la création de vidéos illustratives pour expliquer les concepts complexes ou simuler des procédures (par exemple, formation médicale).
  • Réseaux sociaux: L'intégration avec les shorts YouTube et la possibilité de générer des clips courts et attrayants en font un outil puissant pour les créateurs de contenu sur des plateformes telles que TikTok.

Démocratisation vs perturbation:

Je vois 2 incarne une dualité: d'une part, il démocratise la production d'une vidéo de haute qualité, ce qui la rend accessible aux petites entreprises et aux créateurs individuels qui n'avaient auparavant pas les ressources ou les compétences techniques nécessaires. D'un autre côté, menace de perturber les rôles traditionnels dans les industries créatives et alimente les préoccupations concernant la prolifération de contenu de faible qualité ou de «sloate AI» générée automatiquement.

Développement futur:

Les utilisateurs espèrent que je verrai 2 finir, y compris de nombreuses améliorations dans les versions suivantes telles que:

  • Expansion des capacités: amélioration de la qualité continue, déploiement plus large de capacités 4K et plus longtemps, et peut-être l'ajout d'une génération de son.
  • Intégration de l'écosystème: une plus grande intégration avec d'autres produits Google tels que Vertex AI, YouTube et potentiellement la recherche et l'écosystème des Gémeaux. La combinaison avec les Gémeaux est envisagée pour améliorer la compréhension du monde physique.
  • Évolution rapide: le taux de développement restera accéléré, promu par une concurrence intense sur le terrain, avec les développements attendus dans les années à venir.

L'analyse suggère que des outils tels que je vois 2 n'éliminent pas le travail créatif, mais déplacent le goulot d'étranglement. La principale difficulté ne réside plus dans l'exécution technique (tournage, édition, effets visuels), mais sur l'idéation, invite l'ingénierie et l'édition du contenu généré. Le succès dépendra de plus en plus de la vision créative et de la capacité de communiquer efficacement avec l'IA. La direction créative et la capacité de formuler des invites précises et évocatrices deviennent des compétences essentielles.

Au lieu d'un remplacement complet, l'impact à court terme le plus probable est l'émergence de rôles professionnels "augmentés par l'IA". Les professionnels du cinéma, du marketing, du design, etc., utiliseront des outils tels que je vois 2 pour améliorer leur productivité, accélérer l'itération et explorer de nouvelles possibilités créatives. Cela nécessitera l'adaptation et le développement de nouvelles compétences axées sur l'utilisation efficace de ces outils, transformant les rôles existants au lieu de les éliminer complètement dans de nombreux cas.

Enfin, l'intégration de Ver 2 dans l'écosystème Google (Gemini, Vertex Ai, YouTube, Labs) est un jeu stratégique clair. Il cherche à créer des synergies (utilisez des Gemini pour générer des invites, l'image pour les entrées I2V, les données YouTube pour la formation) et promouvoir la permanence des utilisateurs dans leurs plateformes. Cette approche holistique pourrait fournir un avantage concurrentiel sur les outils indépendants, ce qui rend Google plus attrayant que la somme simple de ses pièces pour les utilisateurs déjà adaptées à leur écosystème.

Vidéos générées par vue 2

Ici, nous vous laissons plusieurs vidéos générées par je vois 2. Comme vous le verrez, je vois 2 tend à générer des éléments impossibles, en bas, nous indiquons la promont utilisée.

Vidéo d'une perruche en frappant un verre d'une fenêtre avec le bec, généré par je vois 2

 

Vidéo d'un avion passager volant entre les nuages ​​avec une personne sur le fuselage, généré par voir 2

 

Disney Movie Type d'un lapin lisant un livre, généré par la vue 2

 

Bulletin

Cosmos

Calcul

Économie

Crypto-monnaies

Général

Nature