应用突破还是炫技噱头：大模型能否真正驱动行业升级？—

大模型如何驱动行业升级？

近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了商汤科技大模型技术总监张涛担任主持人，与百度灵医大模型底座技术负责人夏源和京东零售 AIGC 技术专家，在 AICon 全球人工智能开发与应用大会 2024 北京站即将召开之际，深入探讨大模型技术在垂直行业落地的见解。

部分精彩观点如下：

代码和大模型的结合能够为团队提供更广泛的支持。
私有化部署的策略可以有效地解决数据隐私问题。
由专业医生进行的真实评估，比榜单排名更能反映模型的实际效果。

以下内容基于直播速记整理，经 InfoQ 删减。

张涛：各位最近主要关注大模型的哪些话题，有没有可以分享的观察或体会？

张涛： 我个人主要关注大模型和生产力工具结合方面，特别关注 Claude 大模型，尤其是针对代码能力的增强。最近，Claude 发布了一个名为“computer use”的产品 Demo，展示了大模型如何接入操作系统桌面并生成操作键盘和鼠标的代码，它展示了大模型在生成代码操作电脑方面的潜力。但是，我对大模型在操作电脑时使用视觉分析屏幕的方式有所担忧。这种方式实际上消耗了很多不必要的资源，因为计算机的很多元素本身就是代码形成的，理论上可以直接定位并操作，我认为这背后有很大的提效空间。

夏源： 最近我特别关注 Claude Sonnet 3.5 新模型和它的 computer use 功能；另外还有 OpenAI 的 o1 大模型，推理能力的巨大提升让我思考如何将这些技术应用于医疗领域。

我们一直在思考如何利用推理技术提升诊断效果。从抽象层面来看，基于推理模型给患者看病的过程类比于在棋盘上下棋，类似于 AlphaGo，模型预测棋子在棋盘的落地空间分布概率和最终输赢的概率分布，而在疾病诊断，我们通过问诊（症状空间预测），不断排除和逐步缩小可能疾病诊断空间，最终得到一个最优的诊断结果分布。最近关于 OpenAI o1 的相关论文解释中提到的推理模型的 Scaling Law，它在推理阶段采样不同的推理路径和思维链，通过过程奖励逐步提升每一步思维的效果，最终提升整体推理能力。这与我们的诊断思路相似，我们也是通过采样成百上千条问诊路径，并通过逐步的过程奖励来提升每一步问诊的逻辑，最终得到更优质的问诊路径，然后通过强化学习进行大模型调优训练。

张涛：大模型技术已经渗透在各个行业，你们认为大模型带来了哪些最显著的变化？

夏源： 医疗领域对大模型的需求复杂多变，通过和业务方沟通我们发现，临床辅助决策系统的病历生成是更符合医院需求的应用落地场景。病历生成虽然看似简单，实际上涉及大量文档处理和医生书写工作，大模型能简化这一过程，极大提升医生的工作效率，减轻他们的负担。

另一方面，在比如病案质控相关问题，我们也遇到了难题，这需要模型有细致发现病历潜在的缺陷问题。尽管尝试了规则和小模型，但效果有限，单纯大模型在这方面的能力也有所不足。因此，我们正在考虑使用 agent 方式来进一步探索解决方案。

张涛： 去年年初，我们已经开始着手开发代码小浣熊。最初，我们的目标是将生成式能力融入代码中，以帮助编程工作。随着项目深入，我们逐渐发现代码的能力不仅仅局限于编程，当代码能力提升到一定程度，其编译运行的概率增大后，我们有能力将其与虚拟环境联合训练，使其成为一个代码 agent。这样的 agent 能够实现更大的能力，比如与其他工具的调用和集成。

现在，我们的团队不仅仅局限于开发人员，运维人员在进行问题筛查、运营人员在处理数据、产品经理在进行产品头脑风暴或编写产品需求文档时，都会利用大模型来生成更好的内容。这表明，代码和大模型的结合不仅能够提升开发效率，还能够扩展到其他工作领域，为团队成员提供更广泛的支持。

张涛：数据隐私和合规性是包括医疗在内的各企业应用中无法回避的挑战，应如何看待大模型和编程助手在确保数据安全性和合规性方面的作用？

夏源： 医疗领域主要关注两个方面：模型训练和实际应用情况。模型训练方面，我们需要大量的医疗数据，这些数据主要来自 C 端和 B 端。C 端数据相对容易处理，包括百度健康平台的 UGC 内容和医生审核的精编内容等，这些高质量的数据可用于预训练。B 端数据则涉及与一些权威数据库合作，用于预训练和内容挖掘。实际应用阶段，在医院数据层面，我们面临的问题较大，因为并非所有医院都愿意分享数据，尤其是涉及隐私问题，尽管数据都会进行严格脱敏。为了解决这个问题，我们采取了 模型私有化部署的策略，这是 B 端尤其是医疗大模型非常重要的一环。

为了适应医院的需求，我们将大模型容量进行蒸馏，将其精简到百亿参数级别甚至更小，以实现病历生成和智能诊断等功能。同时，我们也支持国产芯片，如华为的昇腾 NPU、海光的 DCU 以及百度的昆仑芯片，以实现私有化部署。对于没有能力采购 GPU 的医院，我们提供了 CPU 版本的大模型，并与芯片厂商合作，针对特定模型架构进行专有适配，提升推理效率，确保模型能够私有化部署。通过私有化部署，我们可以有效地解决数据隐私问题，因为所有数据都保留在医院内部，不会外泄，从而消除客户的疑虑。

张涛： 我观察到 Claude 新发布的模型 Demo，以及像 cursor 这样的项目，它们已经开始引入多模态技术。这些技术能够处理如将图片输入后直接复刻网页或 APP 布局的任务。在我的理解中，这种素材生成技术在零售领域可能会有应用。在医疗领域，传统的 AI 或者说 AI 1.0 时代，主要依赖计算机视觉技术来分析病理图片、CT 图像等，进行问题检查。而现在，随着新大模型的出现，医疗领域也拥有了更多前沿的能力。

夏源： 我们没有追求开发一个通用模型来处理所有类型的医疗影像，如肺炎、CT、X 光等，尽管这些在研究领域和学术论文中非常常见。相反，我们结合了百度健康上的用户数据，发现皮肤病相关的图片查询是一个比较高频的场景。因此，我们专门针对皮肤病开发了一个多模态大模型。

传统的计算机视觉方法可能在用户上传图片后立即给出诊断，但这种方法缺乏多轮交互，可能导致信息缺失，影响准确率。而我们的多模态大模型通过询问一些患者信息，结合图片信息，最终给出诊断。这种方法在皮肤病领域会优于单轮仅用视觉模型的图片诊断效果。

此外，我们也在探索中医领域的应用。虽然中医大模型可能没有受到广泛关注，但许多机构和厂商对此有需求。我们之前已经为一家企业开发了中医大模型，同时并在 C 端推出了基于中医的多模态大模型，包括面诊、手诊等模型，通过统一架构以实现这些功能。这些是我们在医疗领域一些更偏向实际应用的探索。

提问： 这个模型是在百度本身的文心一言基础上构建的吗？如果是的话，团队主要的工作是在模型预训练时还是在后续微调中进行的呢？benchmark 有对标吗？

夏源： 我们的工作主要集中在两个方面：预训练和指令微调。预训练阶段，我们依托于百度的文心一言这一基础模型，它已经经过了大量的通用数据语料训练。我们没有必要从头开始训练一个通用大模型，因为文心一言已经为我们提供了一个坚实的基础。在此基础上，我们结合了百度健康上的 C 端数据、权威书籍、B 端的权威数据，以及药企咨询数据等这些数据经过脱敏和处理后。利用这些数据，在文心一言的基础上进行了后预训练，得到了一个干净的医疗基础模型。接下来，我们在这一基础模型之上进行特定应用的 SFT，包括病历生成、辅助诊断、智能问诊、医疗问答、医疗分析以及治疗推荐等业务相关的指令，共同构建起业界首个企业级的医疗大模型。

针对 benchmark，我们刚开始有去对标一些医疗 benchmark。然而，随着时间的推移，我们发现许多医院和企业不再那么关注排行榜，大家逐渐认识到单纯追求榜单排名并不是必要的。我们转变了策略，开始与三甲医院的医生合作，让他们帮助我们评估模型的性能，并为模型的诊断能力提供背书。我们认为，这种由专业医生进行的真实评估，比单纯的榜单排名更能反映模型的实际效果。

张涛： 编程领域现在有一种趋势，即通过识别图像来复刻产品，这已经被许多公司和创业团队作为一种酷炫的演示展示出来。然而，在实际应用中，目前的模型还没有达到在不同维度的数据空间内有效关联信息的水平。对于这些令人印象深刻的演示，我持怀疑态度，我认为可能 80% 都需要在上层进行工程化处理。 我并不是否认它们的通用性有问题，而是觉得这些演示在 AI 能力真正发挥作用的成分上可能并没有大家想象的那么大。它们可能只是恰好发挥了能力，解决了之前大家束手无策的问题。

目前，我们也在探索如何处理多模态数据，例如处理 PDF 文档，其中可能包含扫描文档和图像。我们希望像办公小浣熊这样的工具能够准确地提取这些信息，并将其作为处理的输入，以便根据用户的需求完成任务。

张涛：我们已经看到大模型在各个领域的应用不断深化。未来大模型技术在哪些方面会有突破性进展？是否有尚未被广泛讨论的潜在应用领域？

夏源：我简单分享一下我在业内技术层面上的一些观察。我注意到，像 Hinton 这样的学者认为 AGI 非常危险，因为他们认为在某种程度大模型已经达到了所谓的 AGI。然而，另一派，比如 CNN 的发明者 Yann LeCun，也是图灵奖得主之一，他认为大模型并不是通向世界模型的最终之路，仅靠 next token 预测是远远不够的，他们认为可能还需要考虑物理因素交互等，才可能真正构建一个世界模型。最近，李飞飞也组建了一个团队，旨在开发感知、生成 3D 世界，并与之进行交互的大世界模型（Large World Models）。各位学界大佬自都有其各自道理，我们可能需要在未来，比如 20 年或 50 年后，回过头来看他们的观点究竟如何。

目前，简单来说，我认为像 Transformer 这样的模型，如果你拆开它的代码，其实就是一系列简单的矩阵计算的组合。这样的最本质的矩阵计算能否实现通用人工智能，说实话，我并不知道，不过可能世界就是“大道至简”的，越是简单的东西可能才是真正通往 AGI 的方式。可能很多年后，真的有人会揭开这个谜团。比如我们现在说神经网络是黑盒模型，它背后的物理或数学意义可能就蕴含在这些简单的公式之间，但我们目前还不清楚。

本文来自微信公众号 “AI前线”（ID：ai-front），作者：罗燕珊，36氪经授权发布。