紫东太初

紫东太初大模型

新一代多模态大模型

中国科学院自动化研究所

武汉人工智能研究院

支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务，拥有更强的认知、理解、创作能力，带来全新互动体验。

立即对话

深度优化显著领先

多模态能力

智能体能力

多模态检索增强

语言能力

中文推理能力达到GPT-4o的95%,中文写作能力相对于GPT-4o超出3%。支持128K长文本。

视觉语言能力

中文视觉对话能力相对于GPT-4o超出2%，OCR类能力相对于GPT-4o超出3%，视觉定位能力超越专有模型。

图文音能力

零样本语音情感识别能力达到领先水平,图文音混合理解能力相比Gemini-1.5-pro 超出6%。

理解能力

首次实现多模态复杂任务规划与智能求解，更接近人类的理解能力。

交互能力

通过准确的多步任务拆解和高效的工具调用,支持跨模态信息协同合作,提升理解和交互能力。

同步调度能力

在简单任务规划方面，超越gpt-4o 5%,在多模态复杂任务方面，首次突破图文音同步调度

多模态编码能力

通过多模态统一编码，支持图像、文本查询。各模块协同配合，自适应调度，支持多种类型文档与提问。

检索增强与溯源能力

针对答案，支持多模态类内容精准溯源。针对问题，支持复杂查询的拆解与改写。

紫东太初可以做什么

紫东太初可以理解三维场景、信号等数字物联时代的重要信息，完成了音乐、图片和视频等数据之间的跨模态对齐，能够处理音乐视频分析、三维导航等多模态关联应用需求，并可实现音乐、视频等多模态内容理解和生成

知识问答

专属知识库和联网搜索实现大模型检索增强，有效缓解幻觉，加速知识学习，使得大模型更加实用和可信。

多模态理解

关注图文音三模态数据之间的关联特性，支持图文问答、视觉定位、视觉指代、OCR问答、音乐理解。

多模态内容生成

多种艺术风格的AI作画，精准控制绘画细节；文本指令可智能作曲生成音乐片段。

3D理解

基于点云数据的3D场景理解和物体感知能力。

信号分析

支持雷达信号鉴别与知识交互，可借助模型快速掌握信号基本来源及参数等。