Ereignis Google I/O 2024Das Technologieunternehmen hinter der weltweit meistgenutzten Suchmaschine hat eine Reihe von Ankündigungen zu seinen Entwicklungen in diesem Bereich gemacht. Künstliche Intelligenz (KI)Diesen Dienstag fand im Shoreline Amphitheatre in Mountain View, Kalifornien, statt, wo das Unternehmen Details über seine neuen Smart-Modelle und den Fortschritt seiner verschiedenen Produkte teilte.
Zu den verschiedenen Ankündigungen gehören ein neues Format für Suchergebnisse, verbesserte Funktionen für das Gemini-Modell und ein digitaler Assistent, der in der Lage ist, die Welt „so wie Menschen“ zu verstehen und auf sie zu reagieren.
KI-generierte Suchergebnisse
Google zeigte auch, wie „AI Overviews“ funktioniert, ein Tool, das Nutzern ein „Sucherstellungserlebnis“ bietet. Antworten, die die relevantesten Informationen zum besprochenen Thema zusammenfassen Fügen Sie außerdem Links zu Websites hinzu, die sich auf die Anfrage beziehen. Derzeit ist diese Funktion nur in den USA verfügbar.
Darüber hinaus wird auch die Online-Suchmaschine des Unternehmens kompatibel Videoanhörungen. Dazu sollte der Benutzer audiovisuelle Inhalte zur Suchleiste hinzufügen und eine kurze Beschreibung hinzufügen, die angibt, welche Informationen er voraussichtlich finden wird. Derzeit handelt es sich um ein Tool, das Search Labs-Benutzern in den USA „bald“ auf Englisch zur Verfügung steht.
Gemini 1.5 Pro
Die Gemini 1.5 Pro-Variante von Googles Large Language Model (LLM) wurde Anfang des Jahres mit einem Kontextfenster von einer Million Token angekündigt. An diesem Dienstag wurde bekannt gegeben, dass die Datenverarbeitungskapazität des Algorithmus auf zwei Millionen Token verdoppelt wurde.
KI hat die Fähigkeit verbessert, auf komplexere Anfragen mit Nuancen in Struktur, Form und Stil und mehr zu reagieren Benutzer haben die Möglichkeit, das Verhalten und die Persönlichkeit digitaler Assistenten basierend auf dem Modell anzupassen. Die verwendeten Verbesserungen sorgen für eine deutliche Verbesserung des Verständnisses natürlicher Sprache und sorgen für kontextrelevantere Ergebnisse und mehr Flüssigkeit in den Gesprächen zwischen dem Modell und den Benutzern.
Die Audio- und Bilderkennungsfunktionen wurden in Gemini 1.5 Pro verbessert Beginn der Integration in die Fertigungsprodukte und -anwendungen von Google, einschließlich YouTube, Maps und Gmail. Benutzer, die für die Anwendung bezahlen, können damit ab dem nächsten Monat häufige Abfragen zu den verschiedenen Produkten des Unternehmens durchführen.
Mit dieser Integration können Sie beispielsweise Informationen aus einem Dokument, an dem Sie gerade arbeiten, direkt zu einer E-Mail hinzufügen oder unter anderem eine Erinnerung zum Beantworten einer E-Mail einrichten.
Gleichzeitig führte Google ein Gemini 1.5 Flash ist eine leichtere, schnellere und effizientere Version desselben Modells Optimiert für hochvolumige und hochfrequente Aufgaben. Es ist in der öffentlichen Vorschau in Google AI Studio und Vertex AI mit einem Fenster von einer Million Token verfügbar.
Gemini Nano, eine Variante des Modells, die auf Mobilgeräten ausgeführt werden kann, verfügt über multimodale Unterstützung, was darauf hindeutet, dass sein Algorithmus Audio-, Bild- und Textinhalte verarbeiten kann.
Abbildung 3 und ich verstehe
Google kündigte außerdem zwei neue KI-Modelle an, die die Arbeitsabläufe in der audiovisuellen Produktion beschleunigen und verbessern sollen. Im Falle Ich sehe, dass es sich um ein System zur Videoerstellung handelt Es verwendet Texteingabeaufforderungen und kann, wie Sora von OpenAI, Objekte in über einer Minute mit einer Auflösung von 1080 Pixeln erstellen.
✍️ Anleitung: „Ein einsamer Cowboy reitet auf seinem Pferd über die offene Ebene bei einem wunderschönen Sonnenuntergang, sanftem Licht und warmen Farben.“ pic.twitter.com/D8uKDZVWto
– Google DeepMind (@GoogleDeepMind)
14. Mai 2024
Figur 3Mittlerweile ist es das robusteste Text-zu-Bild-System von Google. Es kann die Absicht jedes empfangenen Textreizes verstehen und Details aus früheren Interaktionen mit dem Benutzer extrahieren. Eigenschaften, die es ihm ermöglichen, im Vergleich zu seinen Vorgängern realistischere Bilder mit weniger unnötigen Elementen zu erstellen.
Projekt Astra
Eine weitere bemerkenswerte Ankündigung von Google I/O war der beschriebene KI-basierte digitale Assistent Fähig, die Welt so zu verstehen und darauf zu reagieren, wie es Menschen tun.
„Wir haben daran gearbeitet, unsere Modelle natürlicher zu gestalten, die Wahrnehmung unserer Modelle zu verbessern, das Denken und die Gespräche zu verbessern und die Geschwindigkeit und Qualität der Interaktionen zu verbessern“, kommentierte Demis Hassabis, CEO von Google DeepMind, das Projekt Astra. Der nächste Schritt besteht darin, die Reaktionszeit zu verbessern, sich die Möglichkeit zu verschaffen, sich an das zu „merken“, was sie sehen und hören, und ihr Verständnis der Umgebung zu verbessern.
Sharing Project Astra: Unser neues Projekt konzentriert sich auf die Entwicklung eines futuristischen KI-Assistenten, der im Alltag wirklich hilfreich sein wird. ��
Erleben Sie es in Aktion mit zwei Teilen – jeweils in einem einzigen Take und in Echtzeit erfasst. ↓ #GoogleIO pic.twitter.com/x40OOVODdv
– Google DeepMind (@GoogleDeepMind)
14. Mai 2024
Während der Präsentation zeigten Ingenieure des kalifornischen Unternehmens eine Vorschau auf ihre Verbesserungen an diesem Assistenten, der voraussichtlich noch in diesem Jahr in einige Produkte von Google integriert wird.
Weitere Google I/O-Ankündigungen
Neben allen bereits erwähnten Ankündigungen zeigte Google auch Verbesserungen wie maßgeschneiderte Chatbots für bestimmte Zwecke namens Gems, einen KI-generierten Mechanismus zur Inhaltserkennung und ein Tool zur Erkennung potenzieller Telefonbetrügereien.
sprechen über Edelsteine, die Google-Version des bereits bekannten OpenAI GPT. Dabei handelt es sich um Modelle, die je nach angestrebter Rolle spezifische Anweisungen geben können, etwa ein Lauftrainer, der für tägliche Motivationen und Routinen sorgt.
Andererseits, Mit „SynthID“ bietet Google eine Lösung zum Hinzufügen von Wasserzeichen zu Inhalten, die mit seinen neuen Tools Image 3 und Veo erstellt wurden.. Darüber hinaus wurde dasselbe System darauf trainiert, KI-generierte Videos zu erkennen.
In den kommenden Monaten werden wir SynthID-Textwasserzeichen als Open-Source-Lösung veröffentlichen.
Es ist in unserem aktualisierten Responsible AI-Toolkit verfügbar, das wir entwickelt haben, um Entwicklern den verantwortungsvollen Aufbau von KI zu erleichtern.
Erfahren Sie mehr. → https://t.co/xQGCE6julf #GoogleIO
– Google DeepMind (@GoogleDeepMind)
14. Mai 2024
In der Zwischenzeit werden bei der Erkennung potenzieller Telefonbetrügereien die Funktionen des Gemini Nano auf Android-Telefonen genutzt. Identifizieren Sie Warnsignale wie Muster in Gesprächen, die häufig von Cyberkriminellen verwendet werden. Im Falle einer positiven Diagnose wird eine Warnmeldung auf dem Bildschirm angezeigt, um den Benutzer zu warnen.
Google-Chef Sundar Pichai war für die Präsentation des Tools verantwortlich Fragen zu Google Fotos, können Benutzer nicht nur für die erweiterte Suche in ihrer Bildbibliothek, sondern auch für spezifische Abfragen zu ihren Inhalten verwenden. Um dies zu veranschaulichen, erklärte Pichai eine Abfrage, um der KI mitzuteilen, wie das Nummernschild seines Fahrzeugs lautete.
„Professioneller Twitter-Liebhaber. Musikfan. Zombie-Guru. Unheilbarer Bacon-Fan. Organisator. Reise-Fan. Amateur-Web-Experte.“
More Stories
Warum nicht High-Speed-Audios auf WhatsApp hören?
WhatsApp und Kalender: Ein Begleiter, mit dem Sie sich über Ihr Mobiltelefon an Ihre Arzttermine erinnern können
So erhalten Sie neue animierte Emojis auf WhatsApp