紫东太初大模型
新一代多模态大模型
中国科学院自动化研究所
武汉人工智能研究院
支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务,拥有更强的认知、理解、 创作能力,带来全新互动体验。
立即对话
深度优化 显著领先
多模态能力
智能体能力
多模态检索增强
语言能力
中文推理能力达到GPT-4o的95%,中文写作能力相对于GPT-4o超出3%。支持128K长文本。
视觉语言能力
中文视觉对话能力相对于GPT-4o超出2%,OCR类能力相对于GPT-4o超出3%,视觉定位能力超越专有模型。
图文音能力
零样本语音情感识别能力达到领先水平,图文音混合理解能力相比Gemini-1.5-pro 超出6%。
理解能力
首次实现多模态复杂任务规划与智能求解,更接近人类的理解能力。
交互能力
通过准确的多步任务拆解和高效的工具调用,支持跨模态信息协同合作,提升理解和交互能力。
同步调度能力
在简单任务规划方面,超越gpt-4o 5%,在多模态复杂任务方面,首次突破图文音同步调度
多模态编码能力
通过多模态统一编码,支持图像、文本查询。各模块协同配合,自适应调度,支持多种类型文档与提问。
检索增强与溯源能力
针对答案,支持多模态类内容精准溯源。针对问题,支持复杂查询的拆解与改写。
紫东太初可以做什么
紫东太初可以理解三维场景、信号等数字物联时代的重要信息,完成了音乐、图片和视频等数据之间的跨模态对齐,能够处理音乐视频分析、三维导航等多模态关联应用需求,并可实现音乐、视频等多模态内容理解和生成
知识问答
专属知识库和联网搜索实现大模型检索增强,有效缓解幻觉,加速知识学习,使得大模型更加实用和可信。
多模态理解
关注图文音三模态数据之间的关联特性,支持图文问答、视觉定位、视觉指代、OCR问答、音乐理解。
多模态内容生成
多种艺术风格的AI作画,精准控制绘画细节;文本指令可智能作曲生成音乐片段。
3D理解
基于点云数据的3D场景理解和物体感知能力。
信号分析
支持雷达信号鉴别与知识交互,可借助模型快速掌握信号基本来源及参数等。
知识问答
专属知识库和联网搜索实现大模型检索增强,有效缓解幻觉,加速知识学习,使得大模型更加实用和可信。
多模态理解
关注图文音三模态数据之间的关联特性,支持图文问答、视觉定位、视觉指代、OCR问答、音乐理解。
多模态内容生成
多种艺术风格的AI作画,精准控制绘画细节;文本指令可智能作曲生成音乐片段。
3D理解
基于点云数据的3D场景理解和物体感知能力。
信号分析
支持雷达信号鉴别与知识交互,可借助模型快速掌握信号基本来源及参数等。
紫东太初3.0开启多模态智能体时代
紫气东来 混沌初开
联系我们
Copyright © 中国科学院自动化研究所 -  京公网安备11010802042913号