| Kurzfassung | Die genaue Vorhersage der zukünftigen 3D-Posen mehrerer interagierender Menschen bleibt eine kritische Herausforderung bei der Vorhersage menschlicher Bewegungen und dem Verstehen menschlicher Absichten aufgrund der komplexen räumlich-zeitlichen Abhängigkeiten und der damit verbundenen sozialen Interaktionen. Bisherige Arbeiten sind zwar effektiv in der Modellierung von Interaktionsmerkmalen (z.B. IAFormer[5]) oder kognitiver Planung (z.B. Social-CH[12]), haben aber oft Probleme bei der Erstellung von Vorhersagen in einem einzigen Vorwärtsdurchlauf ohne explizite Mechanismen zur Planung oder Verfeinerung zukünftiger Trajektorien, was ihre Fähigkeit, komplexe Bewegungstrends zu antizipieren, potenziell einschränkt. Um diese Einschränkung zu beheben, schlagen wir eine neuartige Methode vor, die den interaktions-bewussten Transformator (IAFormer[5]) mit einem kognitiven Planungsmodul integriert, das von Social-CH [12] inspiriert ist. Diese hybride Architektur modelliert explizit zwischenmenschliche Beziehungen durch räumlich-zeitliche Aufmerksamkeit und führt gleichzeitig einen Planungsmechanismus ein, der k-Schritte voraussagt und zukünftige Vorhersagen durch iterative zeitliche Überlegungen verfeinert. Die wichtigste Neuerung liegt in der Kombination von transformatorbasierter gemeinsamer Modellierung mit einer mehrstufigen kognitiven Struktur, die es dem Modell ermöglicht, Bewegungstrajektorien sowohl mit feinkörnigen Details als auch mit langfristiger Konsistenz unter Berücksichtigung der stattfindenden Interaktion zu antizipieren. Da jeder Bewegungstrend und jede Interaktion unterschiedlich komplex ist, haben wir auch ein adaptives Fusionsmodul eingesetzt, das jeder Person in jedem Vorhersagezeitrahmen das optimale kognitive Ergebnis zuweist. Dieses Modul nutzt die verschiedenen antizipatorischen Verhaltensweisen der einzelnen Personen, um die optimale kognitive Ebene auszuwählen. Durch die Anpassung der Vorhersagegranularität an das Verhalten der einzelnen Personen verbessert das Modul sowohl die Flexibilität als auch die allgemeine Vorhersagegenauigkeit. Wir validieren unseren Ansatz an drei verschiedenen Datensätzen: CMU-MoCap[1], WuSi[12], Mix1 und Mix2[14]. WuSi enthält komplexe Interaktionen in einer Basketballumgebung, in der die Spieler (Angreifer und Verteidiger) strategisches, antizipatorisches Verhalten zeigen. Unser Modell zeigt eine starke Leistung in allen Datensätzen, mit signifikanten Verbesserungen in der langfristigen Vorhersagegenauigkeit, insbesondere in sozial interaktiven und hochgradig strategischen Kontexten. Diese Arbeit unterstreicht das Potenzial der Integration von kognitiver Planung in transformatorbasierte Architekturen für die Vorhersage von Bewegungen mehrerer Menschen. Sie zeigt nicht nur die Machbarkeit einer solchen Integration auf, sondern eröffnet auch neue Wege für den Aufbau iterativ strukturierter Modelle, die langfristige Dynamiken in sozial komplexen Umgebungen erlernen können.
|