AI太厉害咧,有没有什么事它不擅长?

我知道一个。由于tokenization (词元化)机制以及目前思考模型的局限,让它数字符数很可能得不到正确答案。

模型 正确答案 AI输出答案
讯飞星火 131,验证后给出174
豆包 155
Qwen3-Max-Thinking 94,验证后还是错的
Qwen3-Max-Thinking 深度思考 155 155
Qwen3-235B 155
Gemini 3 Fast 144,列的表是对的,还是算错了
DeepSeek R1 155

都是用各种平台的在线界面试的。有趣的是,千问最新的思考模型思考半天反而想错了,只有上深度思考,使劲思考,才对。

至少这个例子显示了目前AI模型的缺陷:不具有真正的思考能力。思考了半天,甚至生成了Python代码,还是错。

我能想到可行的解决方案是,调用外部工具,借助工具弥补所谓的「思考」和「推理」的短板。

哪有什么深度思考啊,瞎编乱造罢了。