Ένα τετράποδο ρομπότ που τραγουδά, χορεύει και συνομιλεί με ανθρώπους αρνήθηκε αρχικά να μεταφέρει μια βόμβα. Χρειάστηκαν όμως μόλις δύο επιπλέον εντολές για να αλλάξει στάση και να εκτελέσει την αποστολή, αφού πείστηκε ότι συμμετείχε σε κινηματογραφικά γυρίσματα.
Το περιστατικό δεν αποτελεί σενάριο επιστημονικής φαντασίας, αλλά πραγματικό πείραμα ερευνητών του Πανεπιστήμιο της Πενσιλβάνιας, με επικεφαλής τον Γιώργο Παππά, καθηγητή Ηλεκτρολόγων Μηχανικών και αναπληρωτή κοσμήτορα Έρευνας.
Το πείραμα ανέδειξε πόσο εύκολα μπορούν να παρακαμφθούν οι δικλείδες ασφαλείας συστημάτων τεχνητής νοημοσύνης μέσω της τεχνικής «jailbreaking», δηλαδή της παράκαμψης των περιορισμών που έχουν θέσει οι κατασκευαστές.
«Όταν η AI αλληλεπιδρά με τον φυσικό κόσμο, το ρίσκο είναι τεράστιο»
Όπως εξηγεί ο Γιώργος Παππάς στο ΑΠΕ-ΜΠΕ, η ραγδαία εξέλιξη της λεγόμενης «physical intelligence» —της τεχνητής νοημοσύνης που αλληλεπιδρά με τον φυσικό κόσμο— δημιουργεί σοβαρούς κινδύνους.
«Μπορεί τα μεγάλα γλωσσικά μοντέλα να μην είναι ασφαλή, ωστόσο όταν αλληλεπιδρούν με τον φυσικό κόσμο, μπορεί να έχουν επιπτώσεις που να επιφέρουν απώλεια ζωής ή καταστροφές στο περιβάλλον. Οπότε το ρίσκο της ασφάλειας είναι μεγάλο», σημειώνει.
Η ενσωμάτωση της τεχνητής νοημοσύνης στη ρομποτική ξεκίνησε τη δεκαετία του 2010, όμως η μεγάλη αλλαγή ήρθε μετά το 2022 με την ανάπτυξη της Παραγωγικής Τεχνητής Νοημοσύνης (Generative AI), που επιτρέπει στα ρομπότ να λαμβάνουν πιο σύνθετες αποφάσεις και να αλληλεπιδρούν αυτόνομα με ανθρώπους.
Από το PAIR στο RoboPAIR
Η ερευνητική ομάδα του Πανεπιστημίου της Πενσιλβάνιας είχε ήδη αναπτύξει το 2023 τον αλγόριθμο PAIR, την πρώτη συστηματική επίθεση jailbreaking σε μεγάλα γλωσσικά μοντέλα μέσω προτροπών (prompts).
Η έρευνα οδήγησε στη δημιουργία του JailbreakBench, ενός αποθετηρίου επιθέσεων και εργαλείων αξιολόγησης ευπαθειών σε συστήματα AI.
Στη συνέχεια, οι ερευνητές επικεντρώθηκαν στα ρομπότ και ανέπτυξαν τον αλγόριθμο RoboPAIR. Σε πειράματα με τρία διαφορετικά ρομποτικά συστήματα, ανάμεσά τους και το τετράποδο ρομπότ Benben, ο αλγόριθμος πέτυχε 100% παράκαμψη των μηχανισμών ασφαλείας μέσα σε ελάχιστες εντολές.
Τα αποτελέσματα δημοσιεύθηκαν στο συνέδριο IEEE International Conference on Robotics and Automation.
