Mixbook如何利用生成式AI提供个性化的照片书体验 机器学习博客
  • 16

Mixbook如何利用生成性AI提供个性化相册体验

重点摘要

Mixbook是一家获奖的设计平台,借助亚马逊网络服务AWS的生成性AI,为用户提供个性化的相册体验。该平台通过智能标题功能使用户能够轻松创建带有情感与创意的故事,提升了用户体验。Mixbook的解决方案提高了效率,获得了用户的积极反馈,并在2024年成为Webby奖的正式荣誉提名者。

Mixbook是一个颇受欢迎的设计平台,用户可以在这里自由地设计和分享独特的故事,影响了超过六百万人的生活。如今,Mixbook是美国评级最高的相册服务,拥有26000条五星评论。

Mixbook让用户以创意和信心分享他们的故事,致力于帮助用户庆祝生活中美好的瞬间。它的目标是通过在实体和数字媒介中分享故事,增强用户与亲密关系之间的深厚联系。

多年前,Mixbook着手进行战略转型,决定将其运营工作负载迁移至亚马逊网络服务AWS,这一决策为Mixbook带来了显著的优势。这一关键决策促进了Mixbook实现使命的进程,确保其系统操作的可靠性、卓越的性能和运营效率。

在这篇文章中,我们将展示Mixbook如何利用AWS的生成性人工智能AI能力来个性化他们的相册体验,这是朝着其使命迈出的重要一步。

商业挑战

在当今数字化世界中,我们拥有大量的照片与朋友和家人分享。假设我们刚刚结束了一次家庭假期,拥有数百张照片,想要制作一本咖啡桌相册以留住美好回忆。然而,从中挑选出最佳照片并为其撰写标题需要耗费大量时间。我们都知道,一张照片胜过千言万语,因此用六到十个字来概括一个瞬间是何其艰难。Mixbook正是看中了这个问题,并希望提供解决方案。

解决方案

Mixbook的智能标题功能就是解决标题困境的“魔法钥匙”。它不仅能理解用户的照片,还能加入一些创意,让故事更加精彩。

最重要的是,智能标题并不是完全自动化的创作过程。相反,它提供了一个创作伙伴,让用户的故事更加个性化。不论是自拍照还是风景照,目标都是让用户的照片不费吹灰之力地传达丰富的情感。

系统架构概览

该系统的实现涉及三个主要组成部分:

数据输入信息推理创意生成

标题生成主要依赖于推理过程,因为理解过程的结果将直接影响标题生成的特定性和个性化。以下是标题生成过程的数据流图。

数据输入

用户将照片上传到Mixbook。原始照片存储在亚马逊简单存储服务Amazon S3中。

Mixbook如何利用生成式AI提供个性化的照片书体验 机器学习博客

数据输入过程涉及三个宏观组件:亚马逊Aurora MySQL兼容版、Amazon S3和基于AWS Fargate的Amazon ECS。Aurora MySQL作为主要的关系数据存储解决方案,用于跟踪和记录媒体文件上传会话及其附带的元数据。它提供灵活的容量选项,从无服务器到为可预测的长期使用预留的实例。S3则为媒体文件对象提供高效、可扩展和安全的存储,其存储类别允许将最近的上传对象保持在热存储中以快速访问,旧对象则可以迁移到亚马逊S3Glacier层,降低存储费用。亚马逊弹性容器注册表Amazon ECS结合AWS Fargate的低维护计算环境,用于无缝协同所有组件。

推理

推理阶段提取输入的重要上下文和语义元素,包括图像描述、时间和空间数据、面部识别、情感情绪和标签。其中,由计算机视觉模型生成的图像描述提供了对捕捉瞬间的根本理解。亚马逊Rekognition能够精确检测面部框和情感表达。面部检测对自动照片的最佳位置和裁剪至关重要,而情感识别则用于更有效地调整故事的语气。检测到的面部框用于优化自动照片的布局和裁剪,情感则用于帮助选择更好的语调,例如使其更有趣或更怀旧。此外,亚马逊Rekognition通过识别潜在的不当内容提升了安全性。

推理管道由基于AWS Lambda的多步骤架构驱动,通过并行运行独立的图像分析步骤,最大限度地提高了成本效率和弹性。AWS Step Functions使得相互依赖步骤的同步和排序得以实现。

图像标题是由亚马逊SageMaker推理端点生成的,该端点通过一个基于亚马逊ElastiCache的Redis缓存增强性能。经过基准测试,该缓存是在发现标题生成模型在处理图像批量时表现最佳,而单张图像分析则表现不足后实施的。

生成

驱动Mixbook Studio中写作助手功能的标题生成机制,将其变成一个自然语言故事创作工具。此助手最初由人工智能专家创建的精心设计的提示驱动。然而,Mixbook Storyarts团队希望对标题的风格和语调进行更细致的控制,于是聚集了一支多样化的团队,包括获得艾美奖提名的编剧对生成的标题进行审议、调整和添加独特的手工示例。这一过程导致模型的精细调整、修改响应的合规性监控,以及经过批准的模型用于实验和公开发布。推理后,会生成三个标题并存储在亚马逊关系数据库服务Amazon RDS中。

以下图像展示了Mixbook Studio中的智能标题功能。

tk加速器免费破解版

益处

Mixbook实施此解决方案是为了为用户提供新功能,提高用户体验,提升运营效率。

用户体验

增强的讲故事能力:用户的情感和体验通过标题得到了美丽的表达。用户满意度:生成的标题不仅准确,而且令人愉悦和富有想象力。用户Hanie U表示:“希望未来能有更多的标题体验。”另一位用户Megan P则说:“效果很好!”用户还可以编辑生成的标题。时间效率:没有人能在标题上花费太多时间。此功能节省了宝贵的时间,使用户的故事更加出彩。安全性和准确性:标题是负责任地生成的,利用保护措施确保内容的适度性和相关性。

系统

Lambda的弹性和可扩展性用于可理解工作流编排的Step Functions提供多样的基础模型和优化能力,最大程度地控制生成过程

由于用户满意度的提升,Mixbook在2024年被评选为Webby奖中AI和机器学习最佳应用的正式荣誉提名者。

“AWS让我们能够扩展客户最喜爱的创新。如今,凭借新的AWS生成性AI能力,我们能够让客户体验到前所未有的创意力量。这样的创新是我们自2006年与AWS建立合作关系以来的重要原因。” Andrew Laffoon Mixbook首席执行官

结论

Mixbook于2023年初开始尝试AWS生成性AI解决方案,以增强他们现有的应用程序。他们从快速的概念验证开始,展示可能的艺术。利用AWS的计算、存储、分析和机器学习服务,他们能够快速进行开发、测试和集成。在发布智能标题功能的测试版后,他们能够迅速根据现实使用模式进行调整,以保护产品的价值。

快来体验Mixbook Studio的讲故事功能。想了解更多AWS生成性AI解决方案,请查阅转变您的业务与生成性AI。要听更多Mixbook领导者的分享,请收听可从Art19、苹果播客和Spotify中获取。

关于作者

Vlad Lebedev 是Mixbook的高级技术领导,带领产品工程团队负责将Mixbook打造成心灵故事传递的平台。他拥有超过十年的网页开发、系统设计和数据工程的实践经验,为复杂问题提供优雅的解决方案。Vlad喜欢了解现代与古代文化、历史和语言。

DJ Charles 是Mixbook的首席技术官,他在顶级品牌的互动与电子商务设计方面拥有30年的职业生涯。在90年代为有线行业创新宽带技术,2000年代革新供应链流程,推进Perillon的环境科技,最终为像Sotheby’s和eBay等品牌创建了全球实时竞价平台。除技术外,DJ还喜欢学习新乐器,并深度参与音乐制作与工程。

Malini Chatterjee 是AWS的高级解决方案架构师,为客户在各种AWS技术上提供指导。她对数据分析和机器学习有着广泛的专业知识。在加入AWS之前,她在金融行业架构数据解决方案。她热爱半古典舞蹈,并在社区活动中表演,非常喜欢旅行和与家人共度时光。

Jessica Oliveira 是AWS的客户经理,向北加州的商业销售提供指导和支持。她热衷于建立战略合作关系,以确保客户的成功。在工作之外,她喜欢旅行、学习不同的语言和文化,以及与家人共度时光。

加载评论