深水怠Darara 的树洞

深水老师好 >_< 投稿的是一个3000字左右的超短篇，想写出一点科幻惊悚的风格，之前在朋友之间传阅过并且收获了一些评价，但是感觉朋友的评价会有偏向，所以想获得一些更客观的评价和写作建议 >_< 《你好，世界》 In principio erat Verbum. ——《约翰福音》人是自动化的精神。二零二五年初，随着几年前Chat GPT首次出现在公共视野中带来的震撼逐渐褪去，大语言模型的人工智能已经成为了大多数人生活中习以为常的部分，就像汽车、飞机这些在如今所有尚且在世的人出生之间就已经诞生于世上的发明一样，人们看起来似乎也都觉得大语言模型就是理所应当存在的了。这倒是一定程度上说明了科技三定律只是一个笑话而已，因为我鲜少见到有三十五岁以上的人真的会认为大语言模型是某种制造和使用都会让人遭天谴的邪恶产物。制造了Chat GPT的公司，Open AI的总监曾声称，世界上只有百分之五的人知道如何正确的使用大语言模型。我并不认为这句话有多高的正确成分，虽然一些把大语言模型当作刘慈欣的小说中出现过的真理机器的人，拿着Chat GPT输出的结果去和自己的医生争论，认为是他们的诊断出了错，这样的用法无疑是愚蠢至极，但我同样不认为在我所理解到的，Open AI的总监口中所说的那百分之五的人，有任何的高明之处——只是智力高于愚蠢之人并不意味着聪明。上个月，太平洋对岸的Deepseek成为了几年前Chat GPT诞生后引起的轰动最大的大语言模型。Open AI的员工在发布会上称，Deepseek的模型数据体积较小是因为在它的研发过程中使用了名为“蒸馏”的技术。所谓蒸馏，指的是在训练模型的过程中不采用自然语言的原始数据，而是直接向已有的其他大语言模型提出大量问题，用先前模型给出的回答训练新的模型。这并不是什么在如今的大模型竞争中十分严重的作弊行为，人工智能公司之间互相蒸馏早已成了就连公众都能轻易知道的秘密。但并不是所有人都觉得大语言模型的流行是自然且不会遭天谴的，从Deepseek横空出世开始，拉瑟松教授和我都对此深感可疑。早在两年前便有论文指出，大语言模型输出的结果和自然语言之间存在一点难以察觉的差异，如果将大语言模型输出的语料再次输入给模型自身作为训练材料，无论是当时的任何模型，在二十次循环以内，这些差异就会被放大到人能注意到的程度，模型会发生崩溃，开始输出人类难以理解的句子。在这篇论文刚发表的时候，我就关注起了语言模型崩溃的原因，可惜的是，学校的计算机资源并不会简单的分配给一个学生的突发奇想。我曾去找拉瑟松教授问起过，希望能获得许可去亲自进行几次模型崩溃的实验，以记下从正常的输出到崩溃的中间阶段的语料用作分析（这在那篇论文中被可耻的跳过了），但教授告诉我说，在大语言模型间的竞争几乎全部依赖计算能力的情况下，语言学系本身都分配不到什么资源，那些不知廉耻的计算机学科的年轻管理者们认为我们这样的文科只要有纸、笔、图书馆这三样就够了。拉瑟松教授在那时记住了我的兴趣，因此，当Deepseek出现时，它拥有的另一项功能立刻就引起了我们的注意，并且让拉瑟松教授终于得到了为我提供一点模型崩溃的数据的机会。按照Deepseek所宣称的，这个新兴的模型拥有和它的名字含义一样的“深度思考”能力，这让它被人工智能公司称为是推理模型，以同Chat GPT所代表的通用模型区分开。人在做数学题（或者我更熟悉的，语言学题）的时候，都是基于题目给出的信息和公理，得出可以用于下一步解题的引理或推论，再一遍遍重复推理的过程，直到得到答案，如果在哪一步无法再进行下去了，就沿着推理的过程退回到先前的某个推论，重新探索别的方向，黏菌走迷宫大概可以说是这样过程的可视化表达。Deepseek所给出的结论在表面的形式上也遵从和人的推理一样的模式：先是给出一个长到几乎没有人会完整看完的“推理过程”，其中包含了它解决用户提出的问题时所进行的每一步的思路，像人的推理那样碰壁的时刻，和在碰壁后如何退回去寻找新的路径。在这之后，才会像其他通用模型那样给出一个简短的答案，是对“推理过程”部分的总结。这一套模式在一周内便被其他的语言模型公司学去了，但这成了我和拉瑟松教授感到疑惑的地方所在。Deepseek在一些困难问题上的输出声称它经过了最多达三十四步的推理，这远远超过了任何大语言模型会在用自己生成的数据作为输入的情况下发生崩溃的极限，更何况Deepseek的原始数据很可能本身就蒸馏自其他的模型，这应当会更进一步的限制它能自我训练的深度才对。有了这一点证据的支持，拉瑟松教授在不久后就拿给了我一厚摞纸——虽然学校仍然不能让我长期自由使用机房的资源让模型崩溃，到最后我还是只有纸和笔可用，但好在至少不是人们刻板印象中的图书馆、以及现在我有一些真正的模型崩溃全过程的记录，可以用作分析了。我很少会使用“人工智能”这个词汇来描述Chat GPT这类的产品，更加受到我偏爱的是“大语言模型”。不仅是因为后者的描述更加准确，也是因为我无论如何都难以相信Chat GPT或Deepseek是真正拥有智能的。当我们说起“智能”或“推理”这样的词汇，首先被想到可以被它们所描述的是人类的思考过程，而大语言模型所做的一切不过是基于概率，通过它们所拥有的巨量数据去根据上文推测下一个单词会是什么罢了。好比人的思考是在画布上描绘颜色，大语言模型进行的则是“一个白色的像素和一个黑色的像素之间，大概率是一个灰色的像素”这样的推测。乔姆斯基所代表的现代语言学者们相信，语言能力是人天生所具有的形式系统，决不是概率推测所能模仿的，因此语言模型会发生崩溃显然是必定会发生的事情。也许宇宙的某处生活着一些外星种群，说着基于外星的形式系统的语言，在它们看来，它们的一切行为也称得上是思考和推理，但不是人类所能认可的。不由语言学的方式产生的语料并不是不能由语言学的方式分析，因此我和拉瑟松教授所想的是通过分析崩溃过程中的模型所输出的语料，找到是哪部分的语法最容易在大语言模型中出现问题，然后强化这类的语料训练，或是直接给模型预设规则强制遵守语法，就可以让之后的模型更慢的发生崩溃，从而，我觉得十分无趣的，让模型公司之间可以更加肆无忌惮的互相蒸馏。我回到家里后就开始做这件事了，先是将看起来完全没有问题的输出整理出来，尽可能多的画出它们的句法结构，再和日常生活中的话语作对比，检查是否大语言模型比人类更加喜欢或滥用某种语法，作为潜在的崩溃发生的原因。然后分析逐渐崩溃过程中的语言，是从哪里开始出现问题的呢？管辖与约束理论的部分一直是大语言模型处理的难点…… 现在的形式语言学已经是一套一个人需要花费数年才能习得一点皮毛的复杂且庞大的系统了，这当真是人脑中实实在在的发生的处理语言的方式吗？在我读出这些纸上的句子时，是否我真的把它们经过了某些规则转换成了底层形式才可以真正理解呢？我曾经问起拉瑟松教授这个问题，他告诉我说，如今的语言学家大体都会认为形式语言学只是一种模型，而并非一种解释。但拉瑟松教授曾经见过年轻的乔姆斯基，在五十年代，麻省理工学院和阿默斯特的实验室里，语言学者们相信着他们按照句法规则所设计的计算机，乃是一个真正的人类大脑。这样想着，我竟然在不知不觉间已经在语言模型生成的毫无逻辑的错误句子前坐了四个小时，却几乎没有产生什么头绪。应该出去透透气，我这样想着。从家里走出去，坐电梯下楼花费的时间大约是一分钟，然后左转，出门，再向右转走数十米，站在公寓外的十字路口旁。曾经我不需要思考便能脱口而出的语言，现在从路人的嘴里说出，我听起来却是陌生和遥远的。我尝试回忆着刚刚在做、以及曾经的一个学期里几乎每天都做的工作——把句子画成句法树，在脑中不停的重复管辖和约束理论的三条原则，但旁人的声音听起来依然无比异常，于是我知道x-bar和位移并非是我实实在在的理解话语的方式了。我抬起头望向太阳，即使眼睛灼痛，视野在一瞬间就被白色覆盖，但没有直觉让我转头看向别处或是闭上眼睛。我看到了。曾经数以亿次，我读到过经书上的文字：“神说：‘要有光’，就有了光。”而现在，我看到了。世人皆是先见到光，之后才听到光的名字: lux, lúkē, rocate…… 然后再在教科书上学到它的定义：光，人眼可以查觉的电磁辐射。而我却是先认识了光，其后才亲眼得见。 “神看光是好的，就把光暗分开了。”斯宾诺莎认为真理与谬误并非对立或是同一轴上的正负，而是真理像光那样，在得见真理之前，只有一致的晦暗，而光照在地上，既是光亮本身的标准，亦同时把黑暗从中分出。现如今，照着我曾学到的句子，“真理必叫你得自由”，我终于能看到了，数以亿次学到过的真理，要由我带到这个世界上。你好，世界。

深水怠Darara

树洞详情

更多投稿