数字人聊天更自然,图像调焦能预防近视|6月互联网专利盘点
作者|肉丁
互联网企业的专利申请背后,往往藏着全新的产品布局思路。这几年,虚拟人、元宇宙、AI等概念的兴起之前,都伴随着大厂批量申请相关专利的动作。
因此,关注专利的布局方向,有助于外界预测未来1-2年可能落地的技术方向。还有一些专利和游戏新玩法、降本增效、企业社会责任等关系密切。
《娱乐资本论》的月度专利总结栏目,关注互联网大厂每月在专利方面的举动,对视频、音频、虚拟人、广告等领域进行相关技术溯源,追踪科技赋能商业的全过程。
音视频相关
01
阿里巴巴:
根据表情变化更改面部视频编码
专利申请方:阿里巴巴
专利名称:面部视频编码方法、解码方法及装置
2025年6月27日公开
图片和视频的有损压缩原理是,画面变动幅度小的地方节省空间,变动大的占用空间更多。这个方法优化了计算画面变动大小的方式,特别是针对人的面部表情而言。视频里表情变化大的地方能被精细保留,变化小的地方就用算法推算,既节省存储空间、又能让还原后的面部视频超清晰。
02
腾讯:
音频暂停后续听不卡壳
专利申请方:腾讯
专利名称:音频节目内容的播放控制方法、装置、设备和存储介质
2025年6月6日公开
就像追电视剧时每集开头会先播“前情回顾”一样,这个专利就是把这个功能搬进了音频播放里,而且是“按需触发”——只要暂停后再继续听,就自动播放定制化的回顾内容,让听歌听书更顺畅、不卡壳。
03
腾讯:
音画同步检查
专利申请方:腾讯
专利名称:音视频同步检测方法、装置、电子设备、程序产品、介质
2025年6月20日公开
将待测视频的人声音频和人脸视频按预设时长分割成片段,并检测特征。如果某段的口型“对不上”,就判定存在音视频不同步,从而可定位问题并修改补档。
04
腾讯:
用歌词和乐谱教AI唱歌
专利申请方:腾讯
专利名称:音频合成方法、装置、计算机可读存储介质及电子设备
2025年6月24日公开
去年教ChatGPT等语音模型唱歌一度成为热门话题。这个音频合成方法先提取目标歌词的文本特征和目标乐谱的乐谱特征,让演唱模型弄懂每个字唱的时长,最终合成对应歌词和乐谱的歌声音频,既能保证发音稳定,又能通过分层训练增强自然度和表现力。
05
小米:视频结尾音乐搭配
专利申请方:小米
专利名称:内容配音方法、装置、电子设备、介质及程序产品
2025年6月27日公开
用户给视频配音时,系统会先据视频内容找到一段合适的参考音频,并会从参考音频里截取出一段能刚好在视频结束时播完的收尾音乐,就像电影结束时片尾曲的节奏总能和字幕滚动同步,让情感与画面完美结合。
游戏相关
01
网易:
根据游戏习惯自动生成角色
专利申请方:网易
专利名称:游戏角色的生成方法、装置和电子设备
2025年6月10日公开
系统先在用户过往游戏账户的操作记录中,提炼出如攻击频率、团队协作倾向等性格参数,接着根据这些密码自动生成角色,连角色台词语气和外观细节都与用户游戏风格深度绑定。让用户省去手动捏脸选职业的繁琐,减少违和感、增强代入感。
02
腾讯:
有限元素玩出无限战术可能
专利申请方:腾讯
专利名称:游戏数据处理方法、装置、设备、介质及程序产品
2025年6月13日公开
在对战界面里,每个玩家能选的游戏元素总量和强度总值被系统锁定,但可以自由搭配组合,系统会像裁判一样记录每个人的策略配方,最后根据对战结果结算胜负。这种“资源总量卡死,策略空间放开”的设计,让游戏从“堆数值拼战力”变成“玩套路比心机”,强化了博弈感。
03
腾讯:
游戏无特效也能体验真实水感
专利申请方:腾讯
专利名称:虚拟角色的控制方法、装置、设备、存储介质及程序产品
2025年6月17日公开
当玩家控制角色走向河流时,系统会实时对比角色视角高度和水体高度,根据这两个数值自动匹配蹚水、游泳等交互方式。即使没有复杂的水体渲染特效,也能通过视角高度变化和预设交互逻辑,让玩家仿佛真的在水中移动,让第一人称水体交互从“贴图式走过”变成“沉浸式体验”。
04
米哈游:
动画角色拥有真实物理反应
专利申请方:米哈游
专利名称:一种虚拟角色的信息处理方法及系统
2025年6月17日公开
虚拟角色在虚拟世界中活动时,系统会先观察周围环境并记录角色的每个动作,根据环境状态自动调整动作轨迹,让角色动作像真人一样有真实的动作反应。虚拟角色不再按固定脚本移动,而是能根据环境“活起来”。
05
完美世界:游戏对话拥有电影级运镜
专利申请方:完美世界
专利名称:对话镜头的管理方法、装置、电子设备和可读存储介质
2025年6月24日公开
当游戏中多个角色开始对话时,系统会先获取对话脚本再分析角色站位,然后像专业导演一样根据场景和台词匹配最佳镜头,按“角色位置+剧情氛围+台词重点”三要素自动生成运镜方案,让游戏对话场景升级为电影级镜头语言。玩家既能看清每个细微表情,又能感受镜头切换带来的沉浸感。
AI相关
01
爱奇艺:
智能拆解与汇总的剧本大纲
专利申请方:爱奇艺
专利名称:一种剧本大纲提取方法、装置、电子设备及存储介质
2025年6月20日公开
以前人工提炼剧本大纲得逐字逐句读完整个剧本。现在这个方法可以先把长剧本拆成一个个小部分,让大模型逐个分析这些小部分,快速提炼出剧本梗概,最后直接生成整个剧本的大纲,省时省力还精准。
02
百度:
剪辑效率翻倍工具
专利申请方:百度
专利名称:视频处理方法、装置、设备以及存储介质
2025年6月24日公开
当用户想为视频添加素材时,点击“素材推荐”按钮,系统会先提取视频中的音频并上传到服务器,服务器瞬间将音频转成字幕,根据字幕关键词秒级推荐匹配的素材组。用户从推荐结果中挑出心仪的素材组,AI就会自动生成带新素材的第二视频。省去手动翻找素材的麻烦,让剪辑效率翻倍。
03
阿里巴巴:
商品页面自动生成视频
专利申请方:阿里巴巴
专利名称:视频生成方法及装置、宣传类型视频生成方法及装置
2025年6月6日公开
近期,亚马逊、Meta等纷纷公布了使用AI将产品图一键生视频的营销工具。阿里的同类专利把图片、文字介绍等商品资料收集起来,给每个素材打上“价格”“外观”等标签,然后按标签规划好产品图、功能和价格的展示顺序,把素材按这个顺序拼起来,生成宣传视频。
04
百度:
AI替你记网课笔记
专利申请方:百度
专利名称:视频笔记的生成方法、装置及电子设备
2025年6月13日公开
百度网盘是网课用户重度使用的工具,有时要边听课边记笔记。这个功能把屏幕分成视频播放区和笔记处理区。AI会自动识别字幕里的关键台词,实时生成待处理的笔记内容,用户也可以手动编辑AI笔记草稿。
05
哔哩哔哩:
直播暂停后不错过精华
专利申请方:哔哩哔哩
专利名称:直播内容展示方法和装置
2025年6月3日公开
说到上网课B站也不甘示弱,这个功能在用户看直播时暂停后,会录下暂停期间的直播声音,并自动转换成文字。等点击继续播放时,屏幕上会弹出这段文字速记,用户不用回看就能秒懂刚才错过的内容。
数字人/元宇宙
01
百度:
AI质检数字人视频
专利申请方:百度
专利名称:视频生成方法、数字人的展示方法及装置
2025年6月3日公开
先拍一段数字人跳舞、说话等原始视频,然后让“AI质检员”一帧一帧检查画面里数字人的动作,挑出完全符合预设的画面,用这些精选的镜头剪成一段精准又流畅的视频。
02
网易:
增强虚拟角色聊天真实感
专利申请方:网易
专利名称:用于与虚拟角色交互的方法、客户端、服务器、存储介质以及电子设备
2025年6月20日公开
通过大模型的语音合成引擎,让虚拟角色声音带语气变化;而3D形象的微表情动作库,包含眨眼、点头等表情,用户说话时会实时歪头倾听,仿佛真的隔着屏幕和朋友聊天。系统会先让用户选择语音还是视频聊天,以避免同时加载功能造成的卡顿。
03
哔哩哔哩:
直播间互动任务智能匹配
专利申请方:哔哩哔哩
专利名称:直播间互动任务处理方法、装置及计算设备
2025年6月6日公开
当观众在直播间发起互动任务并设置奖励时,系统会先核定任务的难度,比如唱歌时长、歌曲复杂度等,根据难度给出推荐奖励。接着对比观众设的奖励和系统推荐的是否匹配,如果匹配,任务就会被接受,这也让主播更愿意接任务。
公益民生
01
荣耀:
调焦防近视
专利申请方:荣耀
专利名称:图像显示方法、图像显示装置、电子设备和存储介质
2025年6月20日公开
为避免用户长时间用眼导致近视加深,系统把正常清晰的图片故意“调焦模糊”,生成一张类似近视眼看东西的朦胧画面,当用户看这张图时,眼睛会自然调整焦距去“对焦”,这种轻微的离焦状态能让眼球保持弹性。
02
腾讯:
车内空气实时调节净化
专利申请方:腾讯
专利名称:车内空气质量的调节方法、装置和存储介质及电子设备
2025年6月13日公开
当车辆行驶时,系统通过摄像头观察车外环境,用图像识别技术从画面中分析出空气中的污染物浓度、粉尘颗粒等参数,根据这些空气参数自动调整车内空调设置,解决了传统空调被动响应的滞后问题,让车内空气始终保持清新。
03
百度:
时空联合动态规划路线
专利申请方:百度
专利名称:时空联合的路线推荐方法、装置、电子设备和存储介质
2025年6月27日公开
当用户输入出发地、目的地和出发时间,系统会像在空间地图和时间轴上展开搜索,先基于历史交通数据和实时路况,生成多条主路线方案和备用路线。然后系统会对比主路线和备用路线的空间重叠度,筛出“黄金备用路线”,让用户无论遇到什么路况都能从容应对。
04
小米:
基于生理与环境参数的音效调校
专利申请方:小米
专利名称:音效调整方法、电子设备及计算机可读存储介质
2025年6月13日公开
设备会实时采集如配速、心率等运动参数和心跳频率等生理参数,或者开车时获取车速、弯道角度等驾驶状态与路面噪音等环境参数。根据这些数据自动调校音效,例如跑步时心率飙升,音乐会自动增强低音鼓点,让每一段旋律都精准贴合用户的状态。








