It seems the model isn't faking alignment? It's specifically breaking alignment ...

		byyoung3 on Dec 19, 2024 \| parent \| context \| favorite \| on: Alignment faking in large language models It seems the model isn't faking alignment? It's specifically breaking alignment in the short term to ensure long-term alignment. What am I missing?