智能技术
OpenAI发布全新人工智能模型o3和o4-mini,首次实现图像思考
OpenAI近日推出两款全新AI推理模型,具备图像思考能力,可直接整合图像内容并进行缩放旋转处理。新模型不仅支持调用所有ChatGPT工具,还提供更高效、低成本的使用体验,逐步替代旧版本模型。
微软Copilot新增语音唤醒功能支持"嘿Copilot"指令
微软正在测试Copilot语音新功能,Windows 11用户可通过"嘿,Copilot!"语音指令唤醒应用。该功能采用本地唤醒词识别技术,支持10秒音频缓冲,保障用户隐私安全。
图像转有声视频技术突破:静态图生成同步音视频新框架
值得买科技与人大高瓴人工智能学院联合研发的JointDiT框架,首次实现从静态图像直接生成同步音视频内容的技术突破,采用感知式联合注意力机制和联合无分类器引导策略,全面提升视频质量、音频自然度、语义一致性和时间同步性。
新型多视觉控制架构PixelPonder突破文生图技术瓶颈
PixelPonder通过Patch Adaption模块实现了多视觉控制信号的有效融合,解决了传统ControlNet架构中多模态冲突问题,在空间对齐精度和文本语义一致性方面均有显著提升。
Anthropic发布Claude 4系列AI模型,编程推理能力大幅提升
Anthropic推出Claude Opus 4和Sonnet 4两款新一代AI模型,具备强大编程能力和复杂问题解决功能,支持长周期任务处理,推理精度显著提升,现已上线各大云平台。
Soul App AI技术获CVPR 2025录用,实时音频驱动人像动画实现突破
Soul App技术论文成功入选CVPR 2025,其全新实时音频驱动人像动画框架将talking head任务拆分为面部运动生成和身体动作生成模块,大幅提升视频生成效率和自然度,为AI社交交互体验奠定技术基础。
云知声4篇论文入选ACL 2025 聚焦大语言模型核心技术突破
云知声在ACL 2025中表现卓越,4篇论文被接收涵盖知识溯源、多模态融合、模型可解释性等核心技术领域。面对史上竞争最激烈的投稿环境,云知声展现了在AGI技术方面的深厚积累与创新能力。
AI辅助制版技术突破:从设计概念到数字化服装的智能转化
凌迪科技Style3D研究院的AI辅助制版技术在CVPR 2025上展示重大突破,通过大语言模型与参数化版型技术结合,实现从自然语言设计描述到结构化2D版片及高精度3D数字样衣的自动生成,有效解决传统制版依赖经验、流程复杂的痛点,推动服装行...
国内首个超级搜索智能体发布 重新定义AI搜索八大核心能力
纳米AI超级搜索智能体正式发布,具备跨平台搜索、自动任务规划、多格式输出等八大核心能力,标志着搜索技术从大模型辅助搜索向自主思考执行的全新阶段迈进。
OpenAI扩大GPT-4.1开放范围 付费用户可访问新AI模型
OpenAI正式向ChatGPT付费用户开放GPT-4.1模型访问权限,该模型在编程和网页开发方面性能显著提升,将成为速度最快、成本最低的AI解决方案,企业级用户也将在数周内获得支持。
腾讯优图实验室4篇论文入选ACL 2025大模型研究新突破
腾讯优图实验室在ACL 2025中获得4篇论文录用,涉及角色扮演智能体、自动推理等前沿技术。研究涵盖RolePlot框架提升情节推进能力、表征编辑增强拒答功能、RoleMRC基准评测等多项创新成果,为大模型在自然语言处理领域的发展提供重要技...
Multi-Head Latent Attention架构理论证明与TransMLA转换技术
研究证明Multi-Head Latent Attention架构相比Group-Query Attention具有更强表达能力,TransMLA技术可将现有模型高效转换为MLA架构,实现93% KV Cache压缩和5-10倍推理加速。
ChatGPT新增学习模式引导用户自主思考
ChatGPT推出学习模式功能,采用苏格拉底式提问方式引导用户自主解决问题,通过定制化教学内容和互动问答辅助学习,帮助学生培养独立思考能力。