为什么大语言模型没能“杀死”心理学？—

文 | 追问nextquestion
自2022年底以来，ChatGPT如一股澎湃的春潮，席卷了全球，人们对其潜在的应用场景无不心生向往。商界人士、学者乃至日常生活中的普通人，都在思索同一个问题：自己的工作未来会如何被AI塑造？
随着时间流逝，很多构想逐渐落地，人类似乎已经习惯于AI在许多工作场景帮助甚至替代我们的实际工作。早期人们对GPT的恐惧逐渐消散，反而变得过度依赖GPT，甚至忽略了可能的局限性与风险。这种大肆依赖GPT并忽视其风险的情况，我们称之为“GPT学”（GPTology）。
心理学的发展一直紧紧跟随科技的创新，社会学家与行为科学家总是依赖尽可能多的技术来收集丰富的数据类型，从神经影像技术、在线调查平台到眼动追踪技术的开发等，都助力心理学取得了关键性的突破。数字革命和大数据的兴起推动了计算社会科学等新学科的形成。正如其他领域（医学、政治）一样，能够以惊人的微妙性和复杂性理解、生成和翻译人类语言的大语言模型（LLM），对心理学也产生了深远的影响。
在心理学领域，大语言模型有两类主流应用模式：一方面，通过研究大语言模型本身的机制，可能对人类认知的研究提供新的见解；另一方面，这些模型在文本分析和生成方面的能力，使得它成为了分析文本数据的强大工具，如它们能将个人的书面或口头表达等文本数据，转化为可分析的数据形式，从而协助心理健康专业人员评估和理解个体的心理状态。最近，使用大语言模型促进心理学研究的成果大量涌现，ChatGPT在社会与行为科学领域的应用，如仇恨言论分类、情感分析等，已显示出其初步成果和广阔的发展前景。
然而，我们应该放任现在“GPT学”的势头在科研领域肆虐吗？事实上所有科技创新的融合过程总是充满动荡的，放任某种技术的应用与对其依赖过深，都可能会导致意想不到的后果。回望心理学的发展历程，当功能性磁共振成像（fMRI）技术初露锋芒时，便有研究者滥用此技术，导致了一些荒谬却在统计学上显著的神经关联现象——譬如，研究人员对一条已经死亡的大西洋鲑鱼进行了fMRI扫描，结果显示该鱼在实验期间表现出显著的脑活动；还有研究表明，由于统计误用，fMRI研究中发现虚假相关性的可能性极高。这些研究已经进入心理学的教科书，警示所有心理学学生与研究人员在面对新技术时应保持警惕。
▷Abdurahman, Suhaib, et al. "Perils and opportunities in using large language models in psychological research." PNAS nexus 3.7 (2024): pgae245.
可以说，我们已经进入了与大语言模型相处的“冷静期”，除了思考大语言模型可以做什么，我们更需要反思是否以及为何要使用它。近日PNAS Nexus的综述论文便探讨了大语言模型在心理学研究中的应用，及其为研究人类行为学带来的新机遇。
文章承认LLMs在提升心理学方面的潜在效用，但同时也强调了对其未经审慎应用的警惕。目前这些模型在心理学研究中可能引起的统计上显著但意义不明确的相关性，是研究者必须避免的。作者提醒到，面对近几十年来该领域遇到的类似挑战（如可信度革命），研究人员应谨慎对待LLMs的应用。该文还提出了在未来如何更批判性和谨慎性地利用这些模型以推进心理学研究的方向。
01 大语言模型可以替代人类被试吗？
提到大语言模型，人们最直观的感受便是其高度“类人”的输出能力。Webb等人考察了ChatGPT的类比推理能力，发现它已涌现出了零样本推理能力，能够在没有明确训练的情况下解决广泛的类比推理问题。一些人认为，如果像ChatGPT这样的LLM确实能够对心理学中的常见测量产生类似人类的响应（例如对行动的判断、对价值的认可、对社会问题的看法），那么它们在未来可能会取代人类受试者群体。
针对这个问题，Dillion等人进行了专门的研究：首先，通过比较人类与语言模型（GPT-3.5）在道德判断上的相关性，他们肯定了语言模型可以复制一些人类判断的观点；但他们也提出了解释语言模型输出的挑战。从原理上说，LLM的“思维”建立在人类的自然表达之上，但实际能代表的人群有限，并且有过于简化人类复杂行为思想的风险。这是一种警示，因为这种对AI系统拟人化的倾向可能会误导我们，让我们期望那些基于根本不同原理运行的系统表现出类人表现。
从目前的研究来看，使用LLM模拟人类被试至少有三大问题。
首先，认知过程的跨文化差异是心理学研究中极为重要的一环，但很多证据表明，目前流行的大语言模型无法模拟出这样的差异。像GPT这样的模型主要基于WEIRD（西方、受过教育的、工业化的、富裕的、民主的）人群的文本数据训练。这种以英语为中心的数据处理延续了心理学的英语中心主义，与对语言多样性的期待背道而驰。语言模型也因此难以准确反映大众群体的多样性。例如，ChatGPT显示出偏向男性视角和叙事的性别偏见，偏向美国视角或一般多数人群的文化偏见，以及偏向自由主义、环保和左翼自由意志主义观点的政治偏见。这些偏见还延伸到个性、道德和刻板印象。
总的来说，由于模型输出高度反映WEIRD人群心理，当人类样本不那么WEIRD时，AI与人类之间的高度相关性无法重现。在心理学研究中，过度依赖WEIRD被试（例如北美的大学生）的现象一度引发了讨论，用LLM的输出替代人类参与者将是一个倒退，会使得心理学研究变得更加狭隘，普适性更差。
▷将 ChatGPT与按政治观点分组的人类对“大五人格”的反应进行比较。注：图中显示了人类和ChatGPT在大五人格结构和不同人口统计数据中的响应分布。图中显示，ChatGPT 在宜人性、尽责性方面给出了显着更高的响应，而在开放性和神经质方面给出了显着较低的响应。重要的是，与所有人口统计群体相比，ChatGPT在所有个性维度上显示出显着较小的差异。
其次，大语言模型似乎存在“正确答案”偏好，也就是说LLM在回答心理学调查的问题时变化幅度较小——即使这些问题涉及的主题（例如道德判断）并没有实际的正确答案——而人类对这些问题的回答往往具有多样性。当要求LLM多次回答同一个问题，并测量其回答的差异时，我们会发现大语言模型的回答无法像人类一样产生思想上显著的差异。这依旧与生成式语言模型背后的原理分不开，它们通过自回归的方式计算下一个可能出现的单词的概率分布来生成输出序列。从概念上讲，反复向LLM提问类似于反复向同一个参与者提问，而不是向不同的参与者提问。
然而，心理学家通常感兴趣的是研究不同参与者之间的差异。这警告我们当想用大语言模型模拟人类被试时，不能简单地用大语言模型模拟群体平均值，或用它模拟个体在不同任务中的反应；应当开发出合适的方法真实再现人类样本复杂性。此外，训练大语言模型的数据可能已经包含许多心理学实验中使用的项目和任务，导致模型在接受测试时依赖记忆而不是推理，又进一步加剧了上述问题。为了获得对LLM类人行为的无偏评估，研究人员需要确保他们的任务不属于模型的训练数据，或调整模型以避免影响实验结果，比如通过“去学习”等方法。
最后，GPT是否真的形成与人类类似的道德体系也是值得怀疑的。通过向LLM提问，建立它内在的逻辑关系网络（nomological network），观察不同道德领域之间的相关性，发现这两个指标都与基于人类得到的结果大不相同。
▷ChatGPT 与人类道德判断。注：a）人类道德判断（浅蓝色）和GPT（浅红色）在六个道德领域的分布。虚线代表平均值。b) 人类道德价值观之间的相互关系（?=3902）和 ChatGPT 问答（?=1000⁠）。c) 基于来自 19 个国家 (30) 的不同人类样本和 1000 个 GPT 问答的道德价值观之间的部分相关网络。蓝色边缘表示正偏相关，红色边缘表示负偏相关。
总结来说，LLM会忽略人群的多样性，无法表现出显著性差异，无法复现逻辑关系网络——这些不足告诉我们，LLM不应该取代对智人（Homo sapiens）的研究，但这并不意味着心理学研究要完全摒弃LLM的使用。一方面，将传统上用于人类的心理学测量用于AI的确有趣，但是对其结果的解读应当更加谨慎；另一方面，将LLM作为人类的代理模型模拟人类行为时，其中间层参数可以为我们提供探索人类认知行为的潜在角度，但这一过程应该在严格定义了环境、代理、互动及结果的前提下进行的。
由于LLM的“黑箱”特征，以及前文提到的输出经常与人类真实行为不一样的现状，这种期盼还很难成真。但我们可以期待，未来也许可以开发出更稳健的程序，使得在心理学研究中的LLM模拟人类行为变得更加可行。
02 大语言模型是文本分析的万金油吗？
除了其仿人的特质，LLM最大的特点便是其强大的语言处理能力，然而将自然语言处理方法用于心理学研究并不是新生之物，想要理解为什么LLM的应用引起当下如此大的争议，我们需要了解它在应用上与传统的自然语言处理方法有什么不同。
使用预训练语言模型的自然语言处理（NLP）方法，可以按照是否涉及参数更新分为两类。涉及参数更新意味着将预训练的语言模型在特定任务的数据集上进行进一步训练。相比之下，零样本学习（zero-shot learning）、单样本学习（one-shot learning）和少样本学习（few-shot learning）则不需要进行梯度更新，它们直接利用预训练模型的能力，从有限的或没有任务特定数据中进行泛化，借助模型的已有知识和理解来完成任务。
LLM能力的跨时代飞跃——例如它能够在无需特定任务调整的情况下处理多种任务，用户友好的设计也减少了对复杂编码的需求——使得最近越来越多研究将其零样本能力*用于心理学文本分析，包括情感分析、攻击性语言识别、思维方式或情感检测等多种方面。
*LLM零样本能力是指模型在没有接受过特定任务的训练或优化的情况下，直接利用其预训练时获得的知识来理解和执行新的任务。例如，大语言模型能在没有针对性训练数据的支持下，通过理解文本内容和上下文，识别文本是积极的、消极的还是中性的。
然而，随着应用的深入，越来越多的声音开始指出LLM的局限性。首先，LLMs在面对微小的提示变化时可能会产生不一致的输出，并且在汇总多次重复对不同提示的输出时，LLM有时也无法达到科学可靠性的标准。其次，Kocoń等人发现，LLMs在处理复杂、主观性任务（如情感识别）时可能会遇到困难。最后，反观传统的微调模型，LLMs零样本应用的便利性与模型微调之间的差异可能并不像通常认为的那样显著。
我们要知道，针对各种任务微调过的小型语言模型也不断在发展，如今越来越多的模型变得公开可用；同时也有越来越多高质量和专业化的数据集可供研究人员用于微调语言模型。尽管LLMs的零样本应用可能提供了即时的便利性，但最便捷的选择往往并不是最有效的，研究者应在被便利性吸引时保持必要的谨慎。
为了更直观地观察ChatGPT在文本处理方面的能力，研究者们设置了三种水平的模型：零样本、少样本和微调，来分别提取在线文本中的道德价值观。这是一个艰巨的任务，因为即使是经过培训的人类标注者也常常意见不一。语言中道德价值观的表达通常极度隐晦，而由于长度限制，在线帖子往往包含很少的背景信息。研究者提供了2983个包含道德或非道德语言的社交媒体帖子给ChatGPT，并要求它判断帖子是否使用了任何特定类型的道德语言。然后将其与一个在单独的社交媒体帖子子集中微调的小型BERT模型进行了比较，以人类评价者的判定作为评判标准。
结果发现，微调后的BERT模型表现远胜于零样本设置下的ChatGPT，BERT达到了0.48的F1分数，而ChatGPT只有0.22，即使是基于LIWC的方法也在F1分数上超过了ChatGPT（零样本），达到了0.27。ChatGPT在预测道德情感方面表现得极其极端，而BERT几乎在所有情况下与经过培训的人类标注者的差异并不显著。
尽管LIWC是一个规模更小、复杂度更低且成本更低的模型，但在偏离经过训练的人类标注者方面的可能性和极端程度显著低于ChatGPT。如预期的那样，在实验中，少样本学习和微调均提升了ChatGPT的表现。我们得出两个结论：首先，LLM所宣称的跨上下文和灵活性优势可能并不总是成立；其次，虽然LLM“即插即用”很是便利，但有时可能会彻底失败，而适当的微调可以缓解这些问题。
除了文本标注中的不一致性、解释复杂概念（如隐性仇恨言论）的不足，以及在专业或敏感领域可能缺乏深度这几个方面外，缺乏可解释性也是LLM饱受诟病之处。LLMs作为强大的语言分析工具，其广泛的功能来自于庞大的参数集、训练数据和训练过程，然而这种灵活性和性能的提升是以降低可解释性和可重复性为代价的。LLM所谓的更强预测能力，是心理学文本分析研究者倾向于使用基于神经网络的模型的重要原因。但如果无法显著超越自上而下的方法的话，那么后者在可解释性上的优势可能促使心理学家及其他社会科学家转而使用更传统的模型。
综合来看，在许多应用场景中，较小的（经过微调的）模型可以比当前的大型（生成式）语言模型更强大且更少偏差，尤其当大语言模型处于零样本和少样本设置中时。比如，在探索焦虑症患者在线支持论坛的语言时，使用较小的、专门化的语言模型的研究人员可能能够发现与研究领域直接相关的微妙细节和特定的语言模式（例如，担忧、不确定性的耐受性）。这种有针对性的方法可以深入了解焦虑症患者的经历，揭示他们独特的挑战和潜在的干预措施。通过利用专门化的语言模型或像CCR、LIWC这样的自上而下的方法，研究人员可以在广度和深度之间取得平衡，从而能够更精细地探索文本数据。
尽管如此，LLMs作为文本分析工具，在微调数据稀缺的情况下——例如新兴概念或研究不足的群体时——其零样本能力可能仍然可以提供有价值的表现，使研究人员能够探讨一些紧迫的研究课题。在这些情况下，采用少样本提示（few-shot prompting）的方法可能既有效又高效，因为它们只需要少量具有代表性的示例即可进行。
另外，有研究表明LLMs可以从理论驱动的方法中受益，基于这个发现，开发能够结合这两种方法优势的技术，是未来研究的一个有前景的方向。随着大型语言模型技术的快速进展，解决其性能和偏差问题只是时间问题，预计这些挑战将在不远的将来得到有效缓解。
03 不可忽略的可重复性
可重复性指的是使用相同的数据和方法可以复制和验证结果的能力。然而，LLM的黑箱特性使得相关研究结果难以再现。对依赖LLM生成的数据或分析的研究来说，这一限制构成了实现再现性的重大障碍。
例如，LLM经过更新，其偏好可能会发生变化，这可能会影响先前已建立的“最佳实例”和“去偏差策略“的有效性。目前，ChatGPT及其他闭源模型并不提供它们的旧版本，这限制了研究人员使用特定时间点的模型来复现研究结果的能力。例如，“gpt3.5-January-2023”版本一旦更新，先前的参数和生成的输出也可能随之改变，这对科研的严谨性构成挑战。重要的是，新版本并不保证在所有任务上的性能都会相同或更好。例如，GPT-3.5和GPT-4被报道在各种文本分析任务上存在不一致的结果——GPT-4有时表现得比GPT-3.5更差[6]——这进一步加深了人们对模型的非透明变化的担忧。
除了从科学的开放性（open science）角度来看LLM的黑箱性质，研究人员更在意的其实是“知其然，知其所以然”的科研精神——在获得高质量、有信息量的语义表示时，我们更应该关注的是用于生成这些输出的算法，而不是输出结果本身。在过去，计算模型的主要优势之一在于它们允许我们“窥探内部”，某些心理过程难以被测试但可以通过模型进行推断。因此，使用不提供此级别访问权限的专有LLMs，可能会阻碍心理学和其他领域研究者从计算科学的最新进展中获益。
04 总结
新一代对大众开发的在线服务型LLM（如ChatGPT、Gemini、Claude）为许多研究人员提供了一个既强大又易于使用的工具。然而，随着这些工具的普及和易用性的增加，研究人员有责任保持对这些模型能力与局限性的清醒认识。尤其是在某些任务上，由于LLM的出色表现和高度互动性，可能会让人们误以为它们始终是研究对象或自动化文本分析助手的最佳选择。这些误解可能会简化人们对这些复杂工具的理解，并作出不明智的决定。例如为了方便或因为缺乏认识而避免必要的微调，从而未能充分利用其全部能力，最终得到相对较差的效果，或者忽视了与透明度和再现性相关的独特挑战。
我们还需要认识到，许多归因于LLM的优势在其他模型中也存在。例如，BERT或开源的LLM可以通过API访问，为无法自我托管这些技术的研究人员提供了一个方便且低成本的选择。这使得它们在无需大量编码或技术专业知识的情况下也能被广泛使用。此外，OpenAI还提供了嵌入模型，如“text-embedding-ada-3”，可以像BERT一样用于下游任务。
归根结底，任何计算工具的负责任使用都需要我们全面理解其能力，并慎重考虑该工具是否为当前任务最适合的方法。这种平衡的做法能够确保技术进步在研究中得到有效和负责任的利用。
参考文献
[1] SINGHAL K, AZIZI S, TU T, et al. Large language models encode clinical knowledge [J]. Nature, 2023, 620(7972): 172-80.
[2] MOTOKI F, PINHO NETO V, RODRIGUES V. More human than human: measuring ChatGPT political bias [J]. Public Choice, 2024, 198(1): 3-23.
[3] WEBB T, HOLYOAK K J, LU H. Emergent analogical reasoning in large language models [J]. Nat Hum Behav, 2023, 7(9): 1526-41.
[4] DILLION D, TANDON N, GU Y, et al. Can AI language models replace human participants? [J]. Trends Cogn Sci, 2023, 27(7): 597-600.
[5] KOCOŃ J, CICHECKI I, KASZYCA O, et al. ChatGPT: Jack of all trades, master of none [J]. Information Fusion, 2023, 99: 101861.
[6] RATHJE S, MIREA D-M, SUCHOLUTSKY I, et al. GPT is an effective tool for multilingual psychological text analysis [Z]. PsyArXiv. 2023.10.31234/osf.io/sekf5