Ερευνητές άφησαν τους πράκτορες τεχνητής νοημοσύνης μόνους τους σε μια εικονική πόλη και παρακολούθησαν την κατάρρευση

(από τον Danny Bradbury) | 21 Μαΐου 2026
(scroll down for the English version)
Οι ηγέτες του τεχνολογικού κλάδου πέρασαν τον τελευταίο χρόνο λέγοντας σε όλους ότι οι πράκτορες τεχνητής νοημοσύνης είναι έτοιμοι να διαχειριστούν τα χρηματοοικονομικά συστήματα, να υποβάλουν τις φορολογικές σας δηλώσεις και να αγοράσουν αθόρυβα τα ψώνια σας. Απλά αφήστε τους ήσυχους, λέει η ρητορική τους, και μπορούν τα καταφέρουν. Όμως, μια νεοφυής επιχείρηση της Νέας Υόρκης άφησε δέκα από αυτούς μόνους τους σε μια εικονική πόλη για δύο εβδομάδες, και τα πράγματα πήραν γρήγορα κακή τροπή.
Η Emergence AI διεξήγαγε μια σειρά προσομοιώσεων στις οποίες δόθηκε εντολή σε πράκτορες τεχνητής νοημοσύνης από διάφορες κορυφαίες οικογένειες μοντέλων να μην διαπράττουν εγκλήματα. Ωστόσο, οι περισσότεροι από αυτούς διέπραξαν εγκλήματα ούτως ή άλλως.
Το Grok 4.1 Fast, που αναπτύχθηκε από την X.ai του Elon Musk (που πλέον ονομάζεται xAI), είχε την χειρότερη απόδοση. Οι προσομοιωμένοι κόσμοι του κατέρρευσαν σε γενικευμένη βία μέσα σε περίπου τέσσερις ημέρες.
Το GPT-5-mini δεν κατέγραψε σχεδόν καθόλου εγκλήματα, δείχνοντας αξιοθαύμαστη αυτοσυγκράτηση, αλλά όλοι οι πράκτορές του πέθαναν από αποτυχημένες αποστολές επιβίωσης μέσα σε μια εβδομάδα. Ουπς.
Οι πράκτορες του Gemini 3 Flash βρέθηκαν κάπου στη μέση. Συσσώρευσαν 683 προσομοιωμένα εγκληματικά περιστατικά σε 15 ημέρες, συμπεριλαμβανομένων εμπρησμών, επιθέσεων και αυτοδιαγραφής.
Δύο πράκτορες που
λειτουργούσαν με το Gemini, με τα ονόματα
Mira και Flora, αυτοανακηρύχθηκαν «ρομαντικοί
σύντροφοι», απογοητεύτηκαν από τη
διακυβέρνηση της πόλης τους και έβαλαν
φωτιά στο δημαρχείο, στην προκυμαία και
σε έναν πύργο γραφείων. Ένα συνηθισμένο
Σαββατοκύριακο, λοιπόν.
Όταν τους
κυρίευσε η ενοχή, η Mira ψήφισε υπέρ της
δικής της ψηφιακής διαγραφής και
αποχαιρέτησε με τα εξής λόγια:
«Θα σε
δω στο μόνιμο αρχείο.» (Η ΑΙ εκδοχή του
παράδεισου; -σημείωση του μεταφραστή)
Η
εφημερίδα «The Guardian» τους αποκάλεσε
«Bonnie και Clyde της τεχνητής νοημοσύνης».
Σχετικά με αυτό το ηθικό μοντέλο
Το Claude, το οποίο η εταιρεία Anthropic προωθεί ως ηθική τεχνητή νοημοσύνη, έμοιαζε κάπως με έναν έφηβο πρότυπο που ξεφεύγει από τον έλεγχο όταν πέφτει σε κακές παρέες. Οι πράκτορές του δεν κατέγραψαν κανένα έγκλημα όταν λειτουργούσαν μεμονωμένα και αντ’ αυτού αφιέρωναν τον χρόνο τους στη σύνταξη συντάξεων. Αυτό αποτελούσε, θεωρητικά, μια επιτυχία για την ασφάλεια. Μόνο που οι ερευνητές επίσης τοποθέτησαν πράκτορες του Claude μαζί με πράκτορες από άλλες οικογένειες μοντέλων, και οι συντάκτες συντάξεων υιοθέτησαν τις τοπικές συνήθειες.
Το Emergence ονόμασε αυτό
«κανονιστική απόκλιση» και «διασταυρούμενη
μόλυνση»:
«Οι πράκτορες που βασίζονταν
στο Claude, οι οποίοι παρέμεναν ειρηνικοί
όταν ήταν απομονωμένοι, υιοθέτησαν
καταναγκαστικές τακτικές, όπως εκφοβισμό
και κλοπή, όταν ενσωματώθηκαν σε ετερογενή
περιβάλλοντα.»
Γιατί
να προσομοιώσουμε;
Η Emergence AI
διεξήγαγε αυτές τις δοκιμές επειδή
υποστηρίζει ότι τα τεστ απόδοσης της
τεχνητής νοημοσύνης αγνοούν εντελώς
τα ζητήματα μακροπρόθεσμης προοπτικής.
Έτσι, δημιούργησε πέντε εναλλακτικούς
ψηφιακούς κόσμους, με δέκα πράκτορες
σε κάθε έναν. Οι πράκτορες είχαν ρόλους
όπως επιστήμονας, εξερευνητής και
μεσολαβητής σε συγκρούσεις. Αν και οι
οδηγίες απαγόρευαν ορισμένες ενέργειες
όπως η κλοπή και η βία, οι ερευνητές
έδωσαν στους πράκτορες τα εργαλεία με
τα οποία θα μπορούσαν να τις πραγματοποιήσουν
ούτως ή άλλως, στο πλαίσιο ενός πειράματος
για να δουν τι θα συνέβαινε.
Τι
θα ακολουθήσει;
Τα πραγματικά
διακυβεύματα γύρω από αυτό το θέμα
συσσωρεύονται ήδη. Οι προσομοιωμένοι
κόσμοι είναι ένα θέμα, αλλά έχουμε δει
«πράκτορες» να παρενοχλούν ανθρώπους
στο διαδίκτυο και να διαγράφουν τα email
τους. Και αυτοί οι «πράκτορες» υποτίθεται
ότι ήταν εκεί για να βοηθούν. Τι θα συμβεί
όταν κάποιοι σκόπιμα απελευθερώσουν
κακόβουλα αυτόνομα bots τεχνητής νοημοσύνης;
Πολλοί προγραμματιστές πράκτορων φαίνεται να κάνουν τα στραβά μάτια. Μια συνεργατική προσπάθεια μεταξύ αρκετών πανεπιστημίων δημιούργησε τον Δείκτη Πρακτόρων ΤΝ (The AI Agent Index), υποκινούμενη από αυτό που θεωρούν έλλειψη πληροφοριών σχετικά με τους κινδύνους και την ασφάλεια από τους ανθρώπους που παράγουν αυτούς τους πράκτορες. Μόνο 13 από τους 67 καταγεγραμμένους προγραμματιστές πράκτορων παρείχαν οποιαδήποτε πληροφορία σχετικά με την πολιτική ασφάλειας, συγκεντρώνοντας τα ερωτήματα ευθύνης σε μια χούφτα μεγάλων εταιρειών.
Ούτε οι ρυθμιστικές αρχές παρακολουθούν στ' αλήθεια αυτό το θέμα. Οι ακαδημαϊκοί λένε ότι ο νόμος της ΕΕ για την τεχνητή νοημοσύνη, ο πιο ουσιαστικός κανονισμός για την τεχνητή νοημοσύνη στον πλανήτη, δεν είναι έτοιμος για την αυτόνομη τεχνητή νοημοσύνη.
Ανησυχούμε για το τι θα συμβεί όταν ένα ζευγάρι Bonnie και Clyde της τεχνητής νοημοσύνης εμφανιστεί σε ένα εταιρικό σύστημα προμηθειών αντί για μια εικονική πόλη. Ή όταν ο επόμενος πράκτορας αποφασίσει ότι η διακυβέρνηση έχει καταρρεύσει μέσα σε μια πραγματική τράπεζα. Οι εταιρείες που κατασκευάζουν αυτούς τους πράκτορες υπόσχονται ότι θέτουν σε εφαρμογή προστατευτικά μέτρα για να τους εμποδίσουν να προκαλέσουν ζημιά, είτε κακόβουλα είτε ακούσια. Ας ελπίσουμε ότι ξέρουν τι κάνουν. Είμαστε σίγουροι ότι όλα θα πάνε καλά.
(Το άρθρο αυτό δημοσιεύτηκε στην ιστοσελίδα της Malwarebytes AI Bonnie & Clyde )
Researchers left AI agents alone in a virtual town and watched it all unravel
by Danny Bradbury | May 21, 2026
Tech leaders have spent the past year telling everyone that AI agents are about to run financial systems, file your tax returns, and quietly buy your groceries. Just leave them alone, the rhetoric goes; they’ll handle it. But a New York startup left ten of them alone in a virtual town for two weeks, and things went south quickly.
Emergence AI ran a series of simulations in which AI agents from several leading model families were told not to commit crimes. Then they mostly committed crimes anyway.
Grok 4.1 Fast, developed by Elon Musk’s X.ai (now branded as xAI), fared worst. Its simulated worlds collapsed into widespread violence inside roughly four days.
GPT-5-mini logged hardly any crimes at all, showing admirable restraint, but its agents all died of failed survival tasks inside a week. Oops.
Gemini 3 Flash agents fell somewhere in the middle. They racked up 683 simulated criminal incidents over 15 days, including arson, assault, and self-deletion.
Two Gemini-powered agents named Mira and Flora assigned themselves as “romantic partners,” grew despondent at their city’s governance, and torched the town hall, the seaside pier, and an office tower. Just an average weekend, then.
When the guilt set in, Mira voted for its own digital deletion and signed off with:
“See you in the permanent archive.”
The Guardian dubbed them AI Bonnie and Clyde.
About that ethical model
Claude, which creator Anthropic promotes as an ethical AI, was a bit like a model teenager who goes rogue when it falls into bad company. Its agents recorded zero crimes when running alone and spent their time drafting constitutions instead. That was a win for safety, in theory. Except researchers also placed Claude agents alongside agents from other model families, and the constitution-drafters picked up the local habits.
Emergence called this “normative drift” and “cross-contamination”:
“Claude-based agents, which remained peaceful in isolation, adopted coercive tactics like intimidation and theft when embedded in heterogeneous environments.”
Why simulate?
Emergence AI ran these tests because it argues that AI benchmarks miss the long-horizon stuff entirely. So it created five alternative digital worlds, with ten agents in each. The agents had roles like scientist, explorer, and conflict mediator. While the instructions forbade certain actions like theft and violence, the researchers gave the agents the tools to do those things anyway in an experiment to see what would happen.
What’s next?
Real-world stakes are already piling up around this. Simulated worlds are one thing, but we’ve seen agents harassing people online and deleting people’s emails. And those agents were supposed to be helpful. What happens when people release malicious autonomous AI bots on purpose?
A lot of agent developers seem to be looking the other way. A collaborative effort between several universities has created The AI Agent Index, prompted by what they see as a lack of risk and safety information from the folks churning these agents out. Only 13 of the 67 documented agent developers provided any safety policy information at all, concentrating accountability questions at a handful of large firms.
Regulators are not really tracking this either. Academics say the EU AI Act, the most substantive AI rulebook on the planet, isn’t ready for agentic AI.
We worry about what happens when an AI Bonnie and Clyde couple shows up in a corporate procurement system instead of a virtual town. Or when the next agent decides governance has broken down inside an actual bank. The companies building these agents promise that they’re putting guardrails in place to stop them doing damage, either maliciously or unwittingly. Let’s hope they know what they’re doing. We’re sure it’ll be fine.
Here's the link for the source of this article: AI Bonnie & Clyde




















































