AI观察|面对“刷分”,大模型测试集到了不得不变的时刻