作者:吴敏达
IBM科技事业部 数据与人工智能资深技术专家
引言
IBM Think 是年度盛会,每年都会有令人兴奋的新技术推出。作为一家在人工智能(AI)领域有着深厚积淀的百年企业,IBM在今年五月的 Think 大会上宣布了 watsonx 平台上的新功能,并且在六月发布了这些新功能的产品和版本。从这些新发布中我看到了硬币的两面,看到了IBM 在 AI 实践中的成熟思考。
AI 从创新技术走向商业价值需要全面整体地通盘考虑,并不是单一技术就能解决的,这会包含很多的两面性问题,而这些两面性又是相辅相成,最后构成企业自己的最佳实践。比如,AI 技术要与咨询服务相辅相成,重塑利用 AI 开展业务;有效的 AI 模型,需要安全可靠的管控,启用可信任、透明且可解释的数据和 AI 工作流程。
“此两者同出而异名,同谓之玄;玄之又玄,众妙之门”,只有把硬币的两面充分结合,才能让企业真正从生成式 AI 中获益。本文试图结合 Think 2024 带来的产品最新能力来解剖这些两面性,帮助理解 watsonx 解决方案独特的价值和魅力。
分与合
企业级 AI 应用的未来在于开放和开源,在过去一年中可以看到国内外大模型百花齐放。社区开源可以让大模型变得更有活力,企业有更多的可供选择的基础大模型,这是”分”的好处。但是硬币的另一面,也要考虑”合”的问题,需要让社区方便地协作并更新现有的大模型,而不是创建多个克隆,依然处于”分”的状态。现在HuggingFace 上有超过两万个 llama 模型分支,这也证明缺少好的方法让社区协作为大模型做出贡献,可以想像如果这两万个分支能合作在一起,将会产生更强大的模型。
其实这个问题不仅仅在社区存在,企业应用也是一样,一家公司希望跨部门在企业内部做大模型的迭代升级,希望利用内部获取的技能和知识进行更新。如何跨部门内部获取技能,重复使用技能,如果不解决”合”的问题,各部门用自己的大模型各自为政,不仅成本高,知识也无法共享。
在Think 2024大会上,IBM 和 红帽联合推出了 InstructLab 这一首创的模型对齐技术,这是围绕大模型推动开源创新的革命性方法,可将开源社区的资源直接引入大语言模型。与此同时,watsonx.ai 也最新引入 InstructLab 来解决”分”与”合”的问题,亮点是易于理解、结构良好的分类法,它是一个根据共享特征或关系将实体分类和组织为层次类别的分类树。 InstructLab 分为三个主要分支:知识、核心技能和组合技能。 例如,在这个企业财务领域知识的例子中,企业可以自己添加自己的知识分类,叶节点就是企业自己的知识文档,可以是手册等文档。用分类驱动的方法取代了原来在”分”时候的随机选择,通过关注每个叶节点内的特定企业示例,从而保证”合”的多样性和模型质量。
在 watsonx.ai 使用 InstructLab 有四个步骤:首先选择合适的大模型进行尝试,找到不足的知识或技能,并可以通过模型的训练分类法标签看到知识分类和每个分类的知识问答示例。比如以下图示的例子里看到的是有关 IBM 历史的知识以及在知识分类的位置。
然后添加知识或技能,并生成训练数据。训练数据立足于源材料,根据与新主题相关的特定文档、手册或书籍生成问题和答案,这确保了信息准确且来源可靠。在评估和验证阶段,模型充当评估器,检查生成的响应是否忠实于原始材料。 这样就能保持新知识的完整性和准确性,最后再学习新的知识和技能”合”成新的模型。
解决”分”与”合”的问题,可以帮助企业的大语言模型与最新的技能和知识保持同步,InstructLab 可以帮助企业获得最新的社区贡献技能并保持最新状态。很多企业希望了解训练大型语言模型需要做些什么,以便能够更有效地调整模型,watsonx.ai 分类法探索器可以帮助 AI 开发人员了解训练模型所需的技能和知识结构,并能够轻松识别差距。
IBM watsonx Code Assistant for Z 使用 InstructLab 对 COBOL 编程语言转 Java 进行训练相较于传统方法训练,从原来需要9个月、14次迭代的过程减少为 1周、1次迭代,通过这一方法,代码转化效能提升了20%。
纵与横
企业从生成式 AI 的试验阶段转向生产阶段, 通常有”纵”与”横”两种消费模式:”纵”是从应用出发,企业采用预打包的AI 解决方案;”横”是从平台出发,企业基于工具平台来构建自有 AI 应用。
人工智能助手就是为”纵”的需求而生的,是针对企业最关注的特定领域量身定制的开箱即用的应用:代码现代化应用 watsonx Code Assistant、重塑客户服务的应用 watsonx Assistant、工作流程自动化应用 watsonx Ochestrate 和智能对答业务分析应用 watsonx BI Assistant。通过部署人工智能助手,企业可以利用自然语言理解和机器学习技术来自动化业务流程,将各种数据转化为个性化的见解和及时的自动化操作,从而为团队提供所需的专业知识,达成更高水平的绩效,包括更快回应和解决客服问题,提高开发人员工作效率等。
watsonx BI Assistant 是最新推出的人工智能业务分析助手,提供真正的自助分析同时保持数据一致性、治理和可组合的全栈解决方案。它的底层是接受过企业相关内容训练和可信的大模型;语义自动化层可以自动理解数据并构建语义模型,根据值得信赖且经过行业验证的业务词汇表训练大模型以丰富元数据的语义。指标目录定义并发布分析指标,能够提取第三方数据模型和语义层中定义的指标。最后以自然语言对话方式,零学习曲线的体验为业务用户提供高级分析和个性化洞察的能力。
比如提问:”今年每个市场所有产品的收入是多少?”,watsonx 助手不仅能给出数据和报表,还能给出洞察:”新款 Tablet-5 出人意料地增长了 10%,英国市场增长了 15%”,最后会根据数据给出行动指导:”建议将资源转移到这些增长领域”。
watsonx Code Assistant 是不断发展的一系列代码助手,均由专为代码生成而设计的 IBM Granite 模型提供支持,不仅有广泛的客户采用,而且 IBM内部也利用该能力进行更有效地进行软件开发。适用于 Ansible Lightspeed、主机的 COBOL和 Java 的代码助手,因为专注所以专业,开箱即用地提供基于特定编程语言的预训练模型,以确保代码生成的可信和准确。
watsonx 最核心的产品集watsonx.data、watsonx.ai、watsonx.governance 就是解决”横”的需求,提供完整的平台工具。企业可以使用 wasonx 平台根据特定业务数据、专业知识对模型进行调整。随着时间的推移,它变得越来越专业,对业务也越来越有价值。由于企业可以控制平台、 流程和数据,结合强有力的人工智能治理能力,企业累积的价值随时间推移变得越来越大。
在实际的企业自己的最佳实践中,”纵”与”横”往往会交错在一起,watsonx 在打造这一体系的时候也是采用同样的技术架构,每个人工智能助手都是构建在 watsonx 平台上的应用程序,这使得企业在任何阶段都能够无缝叠加应用或平台的能力。最终企业要无感知地应用人工智能,SDK 和 API 也是很重要的环节,所有的人工智能都是嵌入式的,”纵”与”横”的体系中间是通过生态系统整合在一起的。
知与行
企业采用人工智能技术的目的是运用,所以”知””行”合一变得尤为重要。 在大模型时代,企业的大模型是数据的表现形式,这是人工智能模型的本质,也是企业的竞争优势,不要外包它,而应该保护它。模型和数据都是企业最重要的资产,IBM Knowledge Catalog 就是”知”的部分:它是 AI 时代的智能数据目录,可帮助企业采取智能自助的方式发现数据、模型等。
Knowledge Catalog 最新采用大模型能力来丰富元数据以实现分类自动化,生成数据描述以解释数据属性和值,生成数据名称并将业务术语映射到列,可以通过对话和搜索进行知识目录中的数据查找和操作。
最新发布 IBM Data Product Hub 是”行”的部分:它是数据和模型资产消费解决方案,通过简化企业内部生产者和消费者之间的数据产品共享,帮助加速企业实现数据驱动的成果。采用”将数据作为产品进行管理”的方法,数据所有者和数据管理员等数据生产者将能够管理和发布数据产品(数据集、报表、模型、代码和定制的数据衍生品集合)。 这些数据产品易于发现、管理和可重用,确保业务分析师、业务线用户、数据科学家和其他数据消费者可以迅速找到并使用。
IBM Data Product Hub 从 IBM Knowledge Catalog 导入数据资产,并将其打包以供整个企业的自助服务使用,并管理整个数据产品生命周期,从数据产品的加入到报废。新增的数据合同定义了包含条款和条件以及服务水平协议的数据共享协议,将为数据生产者和数据消费者提供相互保证,确保数据以合规的方式共享和使用,从而在数据交换过程中融入信任。整个方案采用生成式人工智能技术来加速数据产品的发现、创建和消费。
通过”知””行”合一,可以根据不同的场景,通过文件、API 和自然语言查询等方法自动向业务用户交付数据产品,从而更快地 AI 在企业大规模应用,产生业务价值。可以在企业内外实现大规模的数据共享,为业务用户构建单一入口,以便浏览整个企业的数据产品,形成真正的数字化”超级”市场。”尔来看此花时”,一旦找到精选的稳定数据产品,”则此花颜色一时明白起来”。
总结
企业广泛采用人工智能的时代已经到来,AI 正从企业内部的小型实验试点转向大规模实施,但这是马拉松长跑,而不是百米冲刺,在过程中需要从不同的维度循序渐进地迭代展开。 具体实践中会遇到很多”硬币”的两面,本文抛砖引玉谈到了”分”与”合”、”纵”与”横”、”知”与”行”。在数据和人工智能项目中还碰到更多的两面,例如:”虚”与”实”:数据是逻辑的集中(”虚”: Data Virtualization)还是物理的集中(”实”:watsonx.data);”动”与”静”:管道实时可观测(”动”:Databand)还是数据血缘和沿袭(”静”:Manta),等等。
作为数据和人工智能的领导者,IBM 不仅服务于众多企业客户,而且自身也在利用生成式人工智能进行着改变。随着 watsonx 产品系列每季度的迭代更新和发展,越来越多的硬币两面会被注意到,并统一在 watsonx 中:”夫道一而已矣”。IBM 愿与您携手,以开放与创新共参 AI 之道!