微软开源多模态AI Agent基础模型Magma 当地时间2月25日,微软在官网开源多模态AI Agent基础模型Magma。据介绍,与传统Agent相比,Magma具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,此外,Magma还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。 新闻 2025年02月26日 0 点赞 0 评论 22 浏览
豆包:视频生成模型“VideoWorld”可仅靠视觉认知世界 现已开源 【豆包:视频生成模型“VideoWorld”可仅靠视觉认知世界 现已开源】视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于Sora 、DALL-E 、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。 目前,该项目代码与模型已开源。 新闻 2025年02月11日 0 点赞 0 评论 27 浏览
闪电快讯|3天内官宣多项战略合作,XREAL新年发力AR+AI 2月25日,国内AR领军企业XREAL宣布与显示产业龙头海信视像达成深度战略合作,并官宣双方联合研发的首款AR 高端观影产品将于今年下半年发布。据悉,作为国内首个实现多模态大模型落地并接入DeepSeek的电视企业,海信视像依托自主研发的星海大模型矩阵,在自然语言处理、计算机视觉、多模态交互等领域构建了技术壁垒。官宣合作当日,XREAL创始人兼CEO徐驰讲道:“从‘物理屏幕’到‘空间显示’,AR拐 新闻 2025年03月01日 0 点赞 0 评论 17 浏览
DeepSeek迎来最强队友!又一大模型向全球开源 据@钱江晚报2月18日消息,吉利与阶跃星辰合作研发的两款多模态大模型官宣开源,包含开源视频生成模型Step-Video-T2V,以及业内首款产品级开源语音交互大模型Step-Audio,为开源世界带来了超强的多模态大模型能力,将显著促进大模型技术的共享与创新,推动人工智能的普惠发展,为全球数字经济发展贡献吉利方案与中国力量。网友热议:来源:钱江晚报、网友评论 新闻 2025年02月23日 0 点赞 0 评论 14 浏览
当虹科技BlackEye多模态视听大模型完成DeepSeek深度融合 【当虹科技BlackEye多模态视听大模型完成DeepSeek深度融合 】《科创板日报》5日讯,当虹科技BlackEye多模态视听大模型正式融合DeepSeek-R1和DeepSeek Janus Pro,并完成视听传媒、工业与卫星、车载智能座舱等多行业垂类场景的数据调优训练。(记者 黄心怡) 新闻 2025年02月05日 0 点赞 0 评论 25 浏览
(经济观察)上海厚植沃土促大模型加速“进化” 中新社上海2月23日电 (记者 郑莹莹)2025全球开发者先锋大会于2月21日至2月23日在上海举办。记者走访发现,大模型越来越“耳聪目明”了,不仅有语音、视觉理解等多模态能力,还致力于拥有更强的推理能力。“冬天能穿多少穿多少。夏天能穿多少穿多少。(这两句)分别是什么意思?”香港科技大学校董会主席沈向洋在会上展示了一款中国语音交互大模型的实力。上述这道“中文考题”大概能难倒很多外国人,但该大模型理 新闻 2025年02月24日 0 点赞 0 评论 12 浏览
阿里云开源万相视频大模型 实现全模态、全尺寸大模型开源 新京报贝壳财经讯(记者罗亦丹)2月25日晚10点,贝壳财经记者获悉,阿里云旗下视觉生成基座模型万相2.1(Wan)开源,此次开源采用最宽松的Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace和魔搭社区下载体验。以下为生成视频截图:提示词为“一段超速POV镜头,摄像机疾驰穿越一条阳光下的 新闻 2025年02月28日 0 点赞 0 评论 19 浏览
国家广电总局广科院、当虹科技等单位发起成立DeepSeek传媒行业应用创新联盟 2月11日举办的DeepSeek大模型传媒行业应用研讨会上,当虹科技与国家广电总局广科院等多家单位联合发起成立DeepSeek传媒行业应用创新联盟,共同迈进“DeepSeek+传媒应用”深度融合的全新合作阶段。当虹科技在会上展示了深度融合DeepSeek-R1和DeepSeek Janus-Pro的BlackEye多模态视听大模型,模型推理能力和效率大幅提升,成本进一步降低。 新闻 2025年02月15日 0 点赞 0 评论 22 浏览
阿里云魔搭社区:首发阶跃星辰最新开源两款多模态模型 已上架超4万个开源模型 【阿里云魔搭社区:首发阶跃星辰最新开源两款多模态模型 已上架超4万个开源模型】财联社2月21日电,在2月21日开幕的全球开发者大会(GDC)上,阿里云魔搭社区首发阶跃星辰最新开源的两款多模态模型,包括基于300亿参数、全球参数量最大的开源视频生成模型Step-Video-T2V,以及业界首款产品级开源语音交互模型Step-Audio。截至目前,魔搭社区已上架超过4万个开源模型,涵盖LLM、对话、语 新闻 2025年02月23日 0 点赞 0 评论 26 浏览
阶跃星辰发布多模态理解大模型Step-1o Vision 节前还将上新更多模型 《科创板日报》1月21日讯(记者 黄心怡)既发布推理模型Step R-mini之后,阶跃星辰再发布Step-1o Vision多模态理解大模型。据了解,Step-1o系列是阶跃星辰研发的端到端文本、视觉、语音三模态生成理解一体化模型。一个月前,阶跃星辰发布了1o家族的首个模型Step-1o Audio,这也是国内首个千亿参数端到端语音大模型。在Step-1o Vision多模态理解大模型上线的同时 新闻 2025年01月23日 0 点赞 0 评论 32 浏览