IBM要如何帮助企业落地可信的生成式AI-DOIT-数据产业媒体与服务平台

2023年是大语言模型爆发元年，2023年上半年，国内外诸多科技公司和科研机构都发布或者开源了大语言模型，或者基于大语言模型的生成式AI在线服务。

虽说ChatGPT以一己之力掀起了新一轮的AI技术浪潮，让很多人都见识到了大语言模型和生成式AI的能力，初见惊为天人，但很快，很多人都发现了问题。

最显而易见的就是“生成的结果是否可信”的问题。2B企业服务不同于2C，对错误的容忍度很低，能否带来准确的结果，产生的结果是否可信都至关重要。

企业级生成式AI落地的三大要素

除了可信方面的问题，IBM认为，想要随心所欲地使用生成式AI还是很困难的，想要在企业落地的话，还要具备企业就绪和开放可扩展这两大要素。

在IBM大中华区首席技术官、研发中心总经理谢东看来，企业手里的数据要如何利用起来，大模型要怎么选，要利用什么技术来开发大模型，要如何利用大模型开发出对应的应用，这些都是非常现实的问题。

大体上，模型规模越大效果会更好，但站在企业的角度看，模型并非越大越好。谢东解释说，因为，当模型规模越大时，成本也相应提高，此时，企业会看重模型是否能满足企业的特定任务需求，如果可以满足需求，那么出于成本的考虑，模型规模越小越好。

除此之外，想要在企业落地大模型，还需要了解企业的专业知识来解决具体的问题，而这些要解决的问题本身其实是不断变化的，所以，就要求模型有持续学习的能力，让系统能够不断学习和进化，能力能够不断扩展。

深度学习模型做不到这点，一个深度学习模型对应一个垂直的应用，而现在的基础模型则完全不同，企业可以基于一个基础模型演化出不同的应用。想要基于基础模型来开发不同的应用需要新的工具，新的自动化方法来训练、调试和部署模型，于是，IBM发布了watsonx。

IBM以前所未有的速度推出了watsonx

2023年8月22日，IBM在北京面向中国市场发布新一代AI与数据平台watsonx，发布会上，IBM大中华区董事长、总经理陈旭东坦言，IBM是以前所未有的速度推出了watsonx。

2022年年底，ChatGPT横空出世，2023年5月，IBM在全球发布watsonx。对于IBM这种规模的公司来说，这种速度并不多见。

原因很简单，IBM在人工智能领域的探索和贡献可以追溯到上世纪五十年代。

从跳棋人机大战到国际象棋人机大战，再到2011年做知识竞赛，再到2019年人工智能辩手，IBM从没有放下这项以创始人名字命名的人工智能品牌。

watsonx 是IBM 的企业级 AI 和数据平台，它可以帮助企业充分利用基础模型和机器学习，减轻落地人工智能的工作负担，使企业能够更轻松地大规模开发、调整和部署企业就绪的AI，而且是值得信任的AI。

watsonx包含watsonx.data，watsonx.ai和watsonx.governance三大部分：

watsonx.data负责为人工智能准备数据，它提供的企业内部数据的管理系统，可以高效地把数据喂给人工智能训练系统。

watsonx.ai主要用来训练、验证、调优、部署AI模型的，同时还可以用于开发人工智能应用。

watsonx.governance的主要功能是做企业级AI的治理和监管，帮助企业实现数据合规和内容合规，以满足越来越多的行业监管和法律要求。

watsonx如何帮助企业落地可信的生成式AI？

在数据准备，训练模型，验证模型，微调模型，把模型部署在应用和解决方案的过程中，watsonx发挥了什么作用呢？又是如何帮助企业落地可信的生成式AI？

为了减少AI幻觉，让生成的结果更可靠，IBM有一整套工具和方法论。

从谢东的介绍中了解到，从数据准备阶段开始，watsonx会确保数据是干净合规的，数据本身的完整性要足够，信息量也要合乎要求。

在训练阶段，watsonx会清楚地显示用于训练模型所有的数据，追踪模型的每一个版本，甚至可以透明告诉用户模型是由哪些数据训练出来的，以此增强用户对模型的信心。

在随后的微调阶段，watsonx可以监督模型产生的内容是否可用，是符合人的常识，是否符合人的伦理道德。

IBM的watsonx在整个流程里，都尽可能让生成式AI生成更可信的内容。

通常，AI流程都是从准备数据开始的，watsonx.data可以帮助企业将位于公有云、本地和其他基础设施中的数据连接起来，让企业轻松访问到各种数据。

从谢东的介绍中了解到，IBM的watsonx.data已经收集了数PB的数据，这些数据都被处理成了可用于训练的形式。当然，在此基础上，用户可以加入自己的数据。

值得一提的是，所有存储在watsonx.data里的数据，还都带有每个文件的详细元数据，还会创建数据的名片，这为数据的追溯治理提供了很大便利。

watsonx.data里的数据会按照不同类别进行分类，比如英语、汉语、德语等自然语言，以及Java、Cobol等编程语言做很多分类，还会对数据进行过滤，删除重复数据、删除含有仇恨、辱骂、不雅言论的数据，删除含有私人信息的数据等等，准备好用于训练的数据。

数据就绪后，开始用watsonx.ai来训练模型。

watsonx.ai的基础模型库提供了基于可信数据训练的基础模型，用户可以在五大类基础模型中进行选择。watsonx.ai还提供了训练用的算力支持，可以使用IBM在公有云上构建的AI超级计算机Vela，它提供裸金属级别的性能。

watsonx.ai会自动根据训练所需的计算资源进行调整，随着模型参数规模的不断跃升，模型的训练任务越来越复杂，需要成百上千个GPU工作数天甚至数月。为了简化使用体验，watsonx.ai利用了业内人士熟悉的各种开源技术，还与Hugging face进行了合作。

训练完成后，watsonx.ai还会运行一组全面的基准测试，用来评估模型在各种指标上的表现。一旦模型在基准测试中都达到阈值要求，它就被打包并标记为可以使用的状态。并且，watsonx.ai会给每个模型创建一个名片，名片里会列出模型的所有细节。

在对模型进行微调时，用户可以在watsonx.ai里设置微调的选项和方法，给模型指定要用于微调的数据和对应的Prompt（提示词），用户获得模型在Prompt（提示词）下生成的结果。经过多轮微调后，用户可以得到一组比较理想的提示词和对应的微调后的模型。

最后在watsonx的帮助下，用户可以将模型部署在公有云、本地或者边缘设备当中，在模型部署后，watsonx.governance会持续监控着模型，如果有任何可能影响模型使用或性能的变化被watsonx.governance看到了，就会触发一个对数据和模型进行更新的进程。

IBM要如何帮助企业落地可信的生成式AI