🔍 KI im Fokus: Top-Themen und Entdeckungen

📲 Thursd-AI Newsletter

🔍 KI im Fokus: Top-Themen und Entdeckungen

Willkommen zu einer weiteren Ausgabe des verdammt besten Newsletters der KI 🚀

Hier werden wir wichtige KI-Themen aufschlüsseln, die für euch von Bedeutung sind, euren Horizont für neue Anwendungsfälle öffnen und euch dabei helfen, immer einen Schritt voraus zu sein.

... und wenn jemand diese E-Mail an euch weitergeleitet hat, bedankt euch bei ihnen 😉

Heutige Themen:

  • 🚀 Einführung des Segment Anything Model 2 (SAM 2) von Meta

  • 🌟 SV4D: Revolutionäre 3D-Inhaltsgenerierung

  • 🍎 Apple Intelligence: Neue KI-Funktionen in iOS 18.1

  • 🎤 Einführung des „Advanced Voice Mode“ von OpenAI

  •  🧠 Steuerung von Apple Vision Pro mit Gedanken durch Synchron

TRENDING

👀 Was ist passiert?

Meta hat gerade das Segment Anything Model 2 (SAM 2) vorgestellt, ein fortschrittliches KI-Modell, das Objekte in Video-Frames in Echtzeit identifizieren und verfolgen kann und damit einen bedeutenden Fortschritt in der Video-KI darstellt.

🔑 Wichtige Punkte

  • Erweiterte Fähigkeiten: SAM 2 erweitert Metas bisherige Bildsegmentierungsfunktionen auf Videos und bewältigt Herausforderungen wie schnelle Bewegungen und Objektverdeckungen.

  • Einfache Handhabung: Das Modell kann jedes Objekt in einem Video segmentieren und Ausschnitte in wenigen Klicks erstellen — eine kostenlose Demo ist hier verfügbar.

  • Open Source: Meta stellt das Modell als Open Source zur Verfügung und veröffentlicht eine große, annotierte Datenbank von 50.000 Videos, die für das Training verwendet wurden.

  • Anwendungsmöglichkeiten: Potenzielle Anwendungen umfassen die Videobearbeitung, Mixed-Reality-Erlebnisse und wissenschaftliche Forschung.

🤔 Warum es für dich relevant ist:

Die Fähigkeit von SAM 2, Objekte in Echtzeit zu verfolgen, könnte komplexe Videobearbeitungsaufgaben wie das Entfernen oder Ersetzen von Objekten so einfach wie einen einzigen Klick machen. Mit Llama 3.1 letzte Woche und jetzt SAM 2 setzt Meta seine Strategie fort, massive KI-Durchbrüche zu entwickeln — und das alles offen und kostenlos nutzbar zu machen.

UNSER EVENT DER WOCHE

GenAI ist mega - aber holst du wirklich das raus, was möglich ist?

 Unser Webinar mit Barbara geht in die zweite Runde!

💸 Mit NEWSLETTER20 erhälst du 20% Rabatt! 💸


PIXITS INSIGHTS

👀 Was ist passiert?

Forscher von Stability AI und der Northeastern University haben Stable Video 4D (SV4D) vorgestellt, ein bahnbrechendes latentes Videodiffusionsmodell, das dynamische 3D-Inhalte mit unvergleichlicher Konsistenz generiert. Im Gegensatz zu früheren Methoden, die auf separaten Modellen für Videogenerierung und neue Ansichtssynthese basieren, verwendet SV4D ein einheitliches Diffusionsmodell, um neue Ansichtsvideos dynamischer 3D-Objekte mit zeitlicher Konsistenz zu erzeugen.

🔑 Wichtige Punkte

  • Einheitliche Architektur: SV4D integriert Stable Video Diffusion (SVD) und Stable Video 3D (SV3D) Modelle mit Aufmerksamkeitsmechanismen, um sowohl räumliche als auch zeitliche Konsistenz in den generierten neuen Ansichtsvideos zu gewährleisten.

  • Effiziente 4D-Optimierung: Die generierten neuen Ansichtsvideos werden verwendet, um eine implizite 4D-Darstellung (dynamic NeRF) effizient zu optimieren, ohne dass eine aufwendige score-distillation sampling (SDS) basierte Optimierung erforderlich ist.

  • Überlegene Leistung: Umfangreiche Experimente mit mehreren Datensätzen (ObjaverseDy, Consistent4D, DAVIS) und Benutzerstudien zeigen die überragende Leistung von SV4D bei der Synthese neuer Ansichtsvideos und der 4D-Generierung im Vergleich zu bestehenden Methoden.

  • Verbesserte Konsistenz: SV4D erreicht signifikante Reduzierungen der Frechet Video Distance (FVD)-Metriken, was seine überlegene zeitliche Kohärenz und Robustheit in der Mehrfachbild- und Mehrfachansichtskonsistenz unterstreicht.

  • Kuratiertes Datenset: Um das einheitliche Modell zu trainieren, haben die Forscher ObjaverseDy, ein dynamisches 3D-Objektdatenset, das aus dem Objaverse-Datenset abgeleitet wurde, kuratiert und damit dem Mangel an großskaligen 4D-Datensätzen begegnet.

🤔 Warum ist es für dich relevant?

SV4D's neuartiger Ansatz zur Generierung dynamischer 3D-Inhalte, der Bildsynthese und Videorahmenkonsistenz in einem einzigen diffusionsbasierten Modell integriert, ist besonders interessant aufgrund seiner Fähigkeit, neue Ansichtsvideos effizient sowohl zeitlich als auch räumlich konsistent zu generieren. Die schnelle Erstellung überzeugender 4D-Assets für verschiedene Anwendungen wie AR/VR, Gaming und Filmproduktion, ohne auf separate Modelle angewiesen zu sein, eröffnet neue Möglichkeiten. Da die Modelle verfügbar sind, sind wir gespannt darauf, auszuprobieren, was möglich ist.

Partnerschaft mit Pixitai.io

KI in der Praxis

👀 Was ist passiert?

Nach der Ankündigung seiner KI-Plattform – Apple Intelligence – und der kommenden KI-Funktionen auf der Worldwide Developer Conference im Juni hat Apple einige dieser KI-Funktionen mit der Veröffentlichung seines neuesten Betriebssystems iOS 18.1 in einer Entwickler-Beta eingeführt.

🔑 Wichtige Punkte:

  • Neue Siri-Funktionen: Die KI-Funktionen umfassen ein aktualisiertes Siri mit neuem Design, die Fähigkeit, zwischen Text- und Sprachmodus zu wechseln, verbessertes Gerätewissen und Kontextverständnis sowie eine verbesserte Fähigkeit, auch unklare Anweisungen zu befolgen.

  • Weitere KI-Tools: iOS 18.1 Tester erhalten auch KI-Werkzeuge zum Umschreiben, Korrekturlesen und Zusammenfassen von Texten, intelligente Antworten, E-Mail-Zusammenfassungen, einen Fokusmodus (der priorisierte Benachrichtigungen anzeigt) und eine natürliche Sprachsuche in Fotos.

  • Voraussetzungen für Tester: Um diese Funktionen auszuprobieren, benötigen Entwickler ein Apple Intelligence-unterstütztes Gerät (z. B. iPhone 15 Pro/Pro Max), müssen im Apple-Entwickler-Beta-Programm registriert sein und sich auf eine Warteliste eintragen.

🤔 Warum es für dich relevant ist:

Obwohl diese Funktionen für den durchschnittlichen Benutzer noch nicht verfügbar sind (und eine öffentliche Beta-Version auch noch nicht geplant ist), sucht Apple spezifisch nach Feedback von Entwicklern. Dadurch sollen Fehler behoben, iOS 18 verfeinert und die neuen KI-Funktionen gründlich getestet werden, um potenzielle Auswirkungen oder Verzögerungen beim Start der neuen iPhone 16-Serie, die voraussichtlich im September erscheinen wird, zu vermeiden.

DAS NEUESTE AUS DER KI WELT

OpenAI hat begonnen, den „Advanced Voice Mode“ für zahlende ChatGPT Plus-Nutzer einzuführen. Diese Funktion ermöglicht natürliche Echtzeitgespräche und erkennt Emotionen wie Traurigkeit oder Aufregung in der Stimme. Zunächst steht die Funktion einer kleinen Gruppe zur Verfügung, bis Herbst 2024 soll sie allen Plus-Nutzern zugänglich sein. Video- und Bildschirmfreigabefunktionen folgen später. OpenAI hat Anweisungen an die ausgewählte „Alpha“-Gruppe gesendet. Diese Neuerung könnte die Nutzung der KI in Bereichen wie Kundenservice und psychischer Gesundheit revolutionieren.

Das Neurotech-Startup Synchron hat sein Hirnimplantat mit dem Apple Vision Pro-Headset verbunden, sodass Patienten mit eingeschränkter Mobilität das Gerät nur mit ihren Gedanken steuern können. Das Unternehmen entwickelt eine Gehirn-Computer-Schnittstelle, um Patienten mit Lähmungen die Bedienung von Technologie mit ihren Gedanken zu ermöglichen.

Synchron hat das Gerät bisher bei sechs Patienten in den USA und vier in Australien implantiert. Es benötigt jedoch noch die Genehmigung der US-amerikanischen Food and Drug Administration, bevor es breiter kommerzialisiert werden kann.

WAS DIESE WOCHE PASSIERT

Upcoming events:

TOOLS & RESEARCH

  1. Kittl Text zu Bild KI Tool

  2. Prelaunch Testen Ihrer Produktideen in wenigen Minuten

  3. Wikipedia Article AI erstellt One-pager für dein Landing page

  4. ACEPAL bietet individuelle Beratung für Marketingaufgaben

Wir lesen täglich eure E-Mails, Kommentare und Umfrageantworten.

Klick auf "Antworten" und lass uns wissen, wovon du mehr willst!

Bis zum nächsten Mal, Das Startplatz AI Hub Team.

Wie hat dir diese Ausgabe gefallen?

Login or Subscribe to participate in polls.