手机也能录音,为什么这款AI设备还能卖出100万台?

副标题:年入2.5亿美元,Plaud用硬件与云技术打造生成式AI产品

生成式AI时代的创业门槛似乎比以往任何时候都更低。云计算提供了弹性的算力,AI都可以编写业务代码,这使得软件创业的门槛不断降低,竞争的操作空间似乎更多地被挤压在了一个创意本身,仿佛只要有一个好点子就能成功一样。

Plaud合伙人、中国区CEO莫子皓

然而,Plaud合伙人、中国区CEO莫子皓表示,没有任何有价值的产品是通过简单的方式就能做出来的。真正有用的产品,一定是洞察用户需求,经过产品经理的深思熟虑,利用像亚马逊云科技这样专业、务实的云服务,做好工程建设才行的。

Plaud是一家成功的AI硬件品牌。截至今年6月,Plaud通过软硬结合方式打造的AI纪要产品已经在全球170多个国家卖出100万台,在亚马逊电商平台上这一品类的市场占有率高达95%,年收入大约为2.5亿美元的规模。

Plaud成立之初从海外市场起步,莫子皓坦言是看到了很多成功先例才做出的选择。作为一家定位于大模型应用设备的公司,依靠来自深圳作为硬件之都的优势,结合全球领先的云技术为全世界用户打造AI硬件产品。

“我们的产品,用户用一次能80分,用了很多次还能保持80分,这背后我们投入了大量努力。”莫子皓表示。凭借口口相传的好口碑,Plaud先是在海外市场获得成功。2025年9月,正式宣布进军中国大陆市场。

在亚马逊云科技软件企业峰会上,莫子皓提到了大模型技术的局限性,并基于这样的思考打造了Plaud。同时,也分享了他对于创业成功的解读,希望能帮助更多希望在AI领域有更大作为的创业者提供参考。

活在对话框里的大模型,无法更好地理解现实世界

莫子皓认为,现在的大模型都活在“无语境的对话框”里,没有办法更好的理解现实世界。而Plaud想用软硬件结合的方式让AI理解现实世界中的语境与意图,从而让人与AI真正对齐。在他看来,现在的AI Agent有两个比较大的问题。

首先,这些AI Demo所用的数据都是现成的数据和文件,而不是从现实中自然产生的信息,会缺少一些真实的语境。此外,这些Agent只会被动地回答问题,但从不主动提问、也不会提出新想法,这说明缺少理解用户意图的能力。

莫子皓认为,通往通用人工智能(AGI)有三条路,第一个是继续训练更大的模型,第二个是像Manus那样抓取外部信息再加工,第三个则是从人类日常对话中挖掘智能,也就是offline context(离线语境)。

Plaud选择了第三条路,从真实的对话中提取有用的信息。他认为,大模型现在都在没有时间概念的聊天框里工作,而现实交流是有时间、有情境的。因此,大模型无法真正与人对齐。

莫子皓认为,要让AI真正理解人类的语境,就必须捕捉offline context(离线语境)和intention(意图)。所以,他们决定自己设计一个专门的硬件录音设备,实时捕捉声音、时间点等信息,把这些信息提供给AI模型,让AI能更好地理解现实世界。

Plaud创始人许高有意借力深圳在硬件创新上的优势打造产品,结合大语言模型概念的硬件产品也有差异化定位。通过这一产品,Plaud不仅突破了单纯的软件创新局限,也在多个维度建立了竞争优势,配合产品的口碑优势,迅速开拓了海外市场。

作为一款基于大语言模型的AI硬件产品,它不仅有时髦的商业概念,还有酷炫的外形设计,相对友好的售价,无论是贴在手机背面还是放在桌子上用起来都很方便。这样一款产品受到了高决策杠杆、高对话依赖、高知识密度人群的欢迎。

很多朋友可能都会问,在人人都有手机,手机都能录音的时代,还有必要做一个Plaud这样用来录音的设备吗?答案是肯定的。

用手机来录音,如果需要正常用手机,则不仅会录入噪音,而且会占用手机的续航和麦克风,如果录音过程中收到来电,很可能就会中断录音。所以,在很多场景中,用一个单独的AI硬件录音设备在使用场景上是成立的。

Plaud能做的,远不止录音

AI硬件录音设备可以配备更强的录音单元,除了更强的收音能力,这样一台录音设备还能提供怎样的额外功能呢?莫子皓用三个捕捉(Capture)、提取(Extract) 和 运用(Utilize)三个关键词进行了概括。

首先,在“捕捉”层面,Plaud设备除了录音,还支持搭配手机App同步拍照,把现场画面和声音一并记录下来,为AI提供更丰富的语境信息。

此外,它还有一个独特的,带有时间感知概念设计的功能“一键标记”。在会议或交流中,用户只需轻按一下Plaud设备的按钮,就能为录音打上时间标记。AI会把这些时间节点当做关键内容进行重点提炼,这可以让AI更好地理解人类意图。

其次是“提取”。在拥有充足语境(context)之后,Plaud的AI会根据不同角色的需求,自动提炼出不同的信息维度,帮助用户获得更有价值的信息。

比如,警方在审讯时使用Plaud录音,不仅是为了记录内容,更希望借助大模型的推理能力,从语气、逻辑来分析嫌疑人的动机与心理状态,甚至给出量刑建议,其价值超越了单纯进行会议内容的记录和总结。

最后,Plaud正在让这些信息进一步“运用”起来。它与多个第三方智能平台(如Zapier、n8n)集成,让语音数据真正融入日常工作流程,从而提升效率。目前这部分能力还在持续完善中。

值得一提的是,Plaud在隐私保护上也投入了大量精力,已通过HIPAA、GDPR等多项国际认证,并与亚马逊云科技深度合作,确保数据安全与合规,这也是Plaud能赢得大量用户信任的一个重要原因。

亚马逊云科技伴随着Plaud一路做大做强

2023年,作为初创公司的Plaud面临着技术支持缺乏、GPU等资源难以获取的难题,接触到亚马逊云科技之后,Plaud获得了技术与资源支持,而亚马逊云科技希望与有潜力的初创公司合作,双方一拍即合。

亚马逊云科技会接触很多初创公司,非常清楚初创企业的需求,除了提供技术与资源支持,还会把很多有用的最佳实践经验分享给Plaud。伴随着Plaud业务规模逐步增长,亚马逊云科技在其成本控制方面也发挥了重要作用。

Plaud捕捉到数据后,需要把这些数据传到后端进行一系列处理,会使用类似Whisper这样的ASR(自动语音识别)模型,也会用大语言模型来处理文本。对于产品已经卖了超100万台的公司而言,这需要一笔不菲的开支。

Plaud每个月向所有用户免费提供300分钟的转录时长,如果用户想要更多,则需要额外付费,这是在商业策略上管理成本。除此之外,为了控制成本,Plaud在底层技术架构上做了很多考量和优化。

首先,Plaud使用Amazon Bedrock来调用大语言模型,在国内市场上选择了来自国内的AI模型。莫子皓表示,国内中文ASR模型的效果表现更好,同时国内模型价格比海外模型低,这使得其国内软件订阅费用可以低于海外市场。

为了控制成本,Plaud使用了亚马逊云科技的GPU竞价实例来部署ASR模型,这将整体算力成本降低了大约50%。Plaud合伙人、后端研发负责人刘占坤表示,在降低成本的同时,还通过将整个任务进行拆解,用补位机制保障了用户体验。

在通用算力上,Plaud也使用了基于Amazon Graviton处理器的云主机,将运维负载的性价比提升了大约25%。不久前,亚马逊云科技宣布在国内上线基于Amazon Graviton4的云主机,国内用户也能享受到Arm主机带来的成本优势。

在技术架构上,Plaud使用了Amazon Elastic Kubernetes Service (Amazon EKS)来部署整个集群,因为它能承载这种除了模型推理之外的复杂业务逻辑,它在ASR流程中加入了很多处理和业务系统的逻辑,这可以提高转写的质量和准确性,这也是Plaud用户体验好的重要原因之一。

此外,Plaud还用了大量无服务器架构服务。刘占坤表示,因为我们整个业务增长非常陡峭,而团队规模的发展跟不上业务发展步伐。无服务器架构对业务落地有极大的加速作用,用了无服务器架构,就是把稳定性、扩容等问题都转给了亚马逊云科技。

结束语

Plaud的故事清晰地表明,生成式AI看似降低了创业门槛,但真正成功的门槛——如何将一个好点子转化为用户持续满意的产品却从未消失。

Plaud的成功,正是将离线语境的洞察,通过软硬件的深度融合,以及利用亚马逊云科技在算力与成本上的支撑,构筑成了真正的竞争壁垒。