大语言模型仍无法可靠区分信念与事实