原创 文化纵横
✪ 陈小平
中国科学技术大学
【导读】自2022年底横空出世以来,ChatGPT快速火爆全球,引发前所未有的对人工智能的热议与思考。人们惊讶于人工智能发展之迅速,ChatGPT懂人话、有智能、“快成精了”,与人还有区别吗?未来,将对人类社会产生哪些重大影响?
本文尝试对ChatGPT背后的技术原理、工作原理及相关人工智能思想,给出尽可能通俗性的解析。作者指出,生成式人工智能的技术核心和成功关键是大型语言模型(简称“大模型”)。基于实例性模型+关联度预测的新思路,大模型首次跨越理论与应用的鸿沟,一定范围内让AI的自然语言交互能力达到人类中等水平。与简单的功能模仿不同,大模型有着原理模拟的能力,即发现人的智力功能所遵循的科学原理,然后模拟这些原理。那么,将来会不会通过原理模拟,制造出与人原理相同而且比人更强大的AI?
作者指出,大模型和一切机器都没有生命,这是机器与人的根本区别;目前大模型的研究内容也并不包括生命冲动和体验的模仿。人类和AI将保持各自的独特性,沿着各自道路协同演进,但仍会出现职业竞争,引发其他重大社会问题,比如新的伦理治理挑战、新的公共安全隐患、对服务业和教育的新影响等。后续发展的重点已从技术转移到充满挑战的应用和治理,这是人工智能引发的第一次重大社会实验。透过大模型重新认识人工智能,重新思考AI时代的社会治理,具有重大现实意义。
本文原载《文化纵横》2023年第3期,原题为《大模型:人工智能思想及其社会实验》。仅代表作者本人观点,供诸君参考。
大模型带动的生成式人工智能正在引发一场重大社会实验。本文对大模型的工作机理、主要特性以及大模型背后的人工智能思想,尝试给出尽可能通俗的原理性解析,以帮助解答下列问题:大模型为什么会说人话?为什么大模型让人觉得它懂人话、有智能?大模型“快成精”了,与人还有区别吗?大模型应用的不确定性、机遇和挑战是什么?人类注定将被AI超越,从而降级为低配版AI吗?
▍大模型底层原理——基于关联度的预测
大型语言模型(简称“大模型”)是生成式人工智能的技术核心和成功关键。大模型的基本目标是:说人话、懂人话、能回答问题,但不保证正确。其中,说人话是生成式人工智能最重要的目标,对应的设计思想是:从人类规模语料中自动提取关键性语言痕迹,并用于语言的自动生成。无论是人类的语言习惯,还是人类智力功能在语言中的运用,都会留下语言痕迹,这些痕迹都保留在文本形式的语料中。
大模型利用的语言痕迹是“语元关联度”。大模型技术中,语元(token)指的是字、词、标点符号或者其他符号串(如字符编码中的字节)。语元关联度是语料中出现的语元之间的关联强度。例如,“我”和“们”之间的关联度很高,“我”和“门”之间的关联度很低。语元关联度可以从语料中统计出来,所以满足自动提取的要求。
当一个大模型提取了大量语元关联度之后,就可用于预测下一个出现的语元、下下个出现的语元……,直到生成完整的回答。例如,假设对话中已经出现了“我”,那么根据大模型中保存的语元关联度可以做出预测,下一个出现的语元是“们”的可能性远远高于“门”,于是大模型可以选择“们”。基于语元关联度的预测是大模型技术的底层原理。
不过,只利用相邻语元的关联度进行预测,错误率太高。其实大模型可以同时利用不相邻甚至远距离语元之间的关联度(称为“远程关联度”),从而大大降低预测的错误率。例如,假设大模型与用户进行了多轮对话之后,用户说:“你觉得小米怎么样?”大模型如何处理这句话中的“小米”?用户指的是一种手机,还是一种谷物,还是别的什么?这时大模型就回看已经说过的话(最多可回看4000多个语元),从中寻找有用的远程关联度。如果之前的对话中出现了语元“手机”,而大模型中一定会有“手机”与“小米”(代表小米手机)之间的关联度,以及小米手机与其性能评价之间的关联度,所以这些关联度被激活,用于当前的对话,从而选用小米手机性能评价的语元来回答问题。