依图天问大模型4.0重磅发布：开启感知与认知融合的新篇章

新闻动态
News Information

新闻动态 News Information

行业新闻 >> 国内 >> 依图天问大模型4.0重磅发布：开启感知与认知融合的新篇章

依图天问大模型4.0重磅发布：开启感知与认知融合的新篇章

转载依图科技上海安全防范报警协会 2024-06-25

2023年7月，依图发布了智能安防领域首个可实战可商用的多模态大模型—依图天问1.0。发布至今，依图天问大模型基座已完成了两次迭代升级，并率先在全国50多个项目中部署应用。

近日，在第十届中国（上海）国际技术进出口交易会上，依图科技最新版本的“依图天问大模型4.0”正式发布，以全新的交互体验、超高的进化能力，重新定义了多模态大模型在智能安防领域的应用边界。

此次发布的依图天问大模型4.0实现了众多功能的跨越式升级：融合自然语言与视觉信息，大幅提升视频内容的模糊检索能力；支持多条件组合场景布控，实现精细化布控和风险管理；依图天问4.0升级后的预训练模型支持算法极少样本冷启动，通过Agent代理辅助训练，真正实现了“想法既算法”的智能飞跃。

视频理解更细微，语义检索更丰富

语言交互的模糊性来源于语境的多样性。依图天问4.0引入多模态视觉搜索技术，将自然语言与视觉信息融合，以“用户”为主，深刻理解语境中的细微差别，例如：当需要搜索“骑电动车带多个煤气罐”的视频内容时，用户只需用日常语言描述需求，系统便可呈现出最贴近意图的搜索结果。同时，还可以针对视频内容里细小目标做模糊化检索。这些能力极大地提升了城市管理者日常运营和决策调度中的工作效率，降低了沟通成本。

上图示例：“前灯破损的汽车”，系统不仅能理解抽象的描述，还迅速反馈出精确的图像结果ww.jpg

（上图示例：“前灯破损的汽车”，系统不仅能理解抽象的描述，还迅速反馈出精确的图像结果）

全要素理解、多条件布控更全面

高精度的视频内容理解，解锁了复杂视频场景布控的可能。机器可以代替人去看视频，像人一样看"懂"视频，对视频内容进行全场景、全要素的理解，就可以对典型的场景目标和规则进行精准布控，提前预警潜在风险，科学高效地辅助决策。依图天问4.0支持多条件组合的场景布控，可帮助管理者进行精细化风险防控和管理。在城市管理、环境监测、公共安全等领域，这项技术展现出极高的实战应用价值。

上图示例：城市摄像机对“严重积水的涵洞”的历史事件进行搜索的结果ww.jpg

（上图示例：城市摄像机对“严重积水的涵洞”的历史事件进行搜索的结果）

样本更少更高效，现场训练更灵活

智能系统的一大特征是可以根据环境和需求的变化快速适配。传统的机器学习模型面对新的算法任务，需重新收集数据、训练模型，至少要1-3个月。依图天问4.0升级了预训练模型，可实现1分钟内对极少样本的新算法进行冷启动，1小时内完成在线标注训练，1天内快速部署上线。通过日常工作过程中快速积累的数据飞轮，操作人员每天花几分钟对齐数据、简单点击对错，几天时间就可让算法达到超过90%的准确率，展现出前所未有的智能化和灵活性，充分满足业务系统的敏捷性和管理的时效性。

上图示例：排查“烈性犬”，少样本对齐烈性犬，吉娃娃、拉布拉多、田园犬则极少出现ww.jpg

（上图示例：排查“烈性犬”，少样本对齐烈性犬，吉娃娃、拉布拉多、田园犬则极少出现）

想法即算法，Agent辅助更智能

Agent（代理）在多模态大模型体系里扮演着至关重要的角色。AI Agent能够基于历史交互记录和现有的算法能力，做出更为精准的决策辅助。依图天问4.0可辅助逐步对齐认知，解构重组算法。例如：当我们想训练一个“大型仓库里的小型叉车”，Agent会针对“大型仓库”和“小型叉车”的语义做对齐，从而使得用户的想法可以快速转化为直观的算法，让用户的每一个想法都能即时转化为直观的操作指令，实现“想法即算法”的飞跃，呈现出工作助手、智能体的灵动与高效特征。

上图示例：训练“大型仓库里的小型叉车”，Agent对“大型仓库”“小型叉车”的语义做对齐ww.jpg

（上图示例：训练“大型仓库里的小型叉车”，Agent对“大型仓库”“小型叉车”的语义做对齐）

* 版权声明 *
本文来源上海安防网，经上海安全防范报警协会授权发布，版权归原作者所有。
上海安全防范报警协会成立于1992年，目前协会共有会员单位700余家。会员单位包括从事安全技术防范产品科研、开发、生产、经营、推广应用、技术培训、信息服务、安全技术防范工程设计、施工、维修等技术服务和安全防范行业宣传教育、出版、印刷等的企事业单位，其中60多家会员单位为外资和中外合资企业。