盘古大模型

盘古行业大模型

5大盘古行业Thinking大模型上线,行业场景一触及达

5大盘古行业Thinking大模型上线,行业场景一触及达

医学Thinking大模型

千亿医学数据增训,可胜任复杂医疗任务

金融Thinking大模型

智能投研、实时风控、精准营销,金融大模型驱动业务增长

政务Thinking大模型

赋能政策研判、民生服务与城市治理,助力数字政府建设

工业Thinking大模型

聚焦矿山、钢铁、电力、油气4大垂直领域,引领智能化升级

汽车Thinking大模型

让研发更高效,让生产更智能,让服务更贴心

应用场景

应用场景

医学大模型 | 病历生成助手

基于盘古医学大模型的医学信息理解能力和抽取能力,可实现生成规范的电子病历。AI病历生成技术可以应用于不同的医疗服务模式,满足门诊、住院、互联网医院、健康管理各种场景的医疗需求场景,提升医疗接诊效率。

金融大模型 | 金融智能投顾

依托盘古金融大模型对宏观经济、市场动态、公司财报、舆情信息等多源异构金融数据的深度理解与实时分析能力,为个人及机构投资者提供个性化资产配置方案、动态投资组合优化、智能风险评估、市场洞察解读等核心服务。

汽车大模型 | 测试设计助手

工业大模型 | 矿采安全助手

政务大模型 | 政务办公助手

赋能智慧政务。基于盘古政务大模型核心能力,实现公文智能生成、材料高效整理、审批流程辅助、会议管理优化,全面支撑政策研究与数据分析,提升政府办公效率与决策精准度。

使能百模千态,加速千行万业走向智能化

使能百模千态,加速千行万业走向智能化

模型评测

模型评测

FinanceIQ是一个专注于金融领域的中文评估数据集,重点评估大语言模型在金融场景下的知识和推理能力,包含注册会计师(CPA)、银行从业资格、基金从业资格、证券从业资格等多项金融领域考试

FinanceIQ是一个专注于金融领域的中文评估数据集,重点评估大语言模型在金融场景下的知识和推理能力,包含注册会计师(CPA)、银行从业资格、基金从业资格、证券从业资格等多项金融领域考试

评估类型

Pangu-Finance-NLP-N2-128k

Deepseek-R1

Qwen3-32B

保险从业资格CICE

86.96

81.88

86.23

基金从业资格

90.71

86.12

86.24

期货从业资格

92.15

84.99

87.76

注册会计师(CPA)

91.00

81.01

81.46

理财规划师

89.49

82.03

80.00

税务师

87.91

74.80

83.81

精算师-金融数学

71.59

34.09

79.55

经济师

95.96

92.12

92.88

证券从业资格

88.27

83.25

81.63

银行从业资格

91.48

88.02

87.06

加权汇总

90.39

83.53

84.69

评估类型

Pangu-Finance-NLP-N2-128k

Deepseek-R1

Qwen3-32B

保险从业资格CICE

86.96

81.88

86.23

基金从业资格

90.71

86.12

86.24

期货从业资格

92.15

84.99

87.76

注册会计师(CPA)

91.00

81.01

81.46

理财规划师

89.49

82.03

80.00

税务师

87.91

74.80

83.81

精算师-金融数学

71.59

34.09

79.55

经济师

95.96

92.12

92.88

证券从业资格

88.27

83.25

81.63

银行从业资格

91.48

88.02

87.06

加权汇总

90.39

83.53

84.69

* 以上数据集均使用了 \\boxed 指令控制模型输出,通过严格的 rule-based verifier 精确判定模型输出结果的正误

OpenFinData是由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求,其金融场景覆盖较全且专业性质深

OpenFinData是由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求,其金融场景覆盖较全且专业性质深

评估类型

Pangu-Finance-NLP-N2-128k

Deepseek-R1

Qwen3-32B

data_inspection

85.00

81.67

78.33

emotion_identification

89.33

86.67

78.67

entity_disambiguation

73.33

78.67

72.00

entity_recognition

74.67

81.33

86.67

financial_facts

97.33

80.00

48.00

financial_terminology

90.67

64.00

22.67

intent_understanding

94.67

92.00

97.33

metric_calculation

94.29

70.00

92.86

value_extraction

98.57

95.71

95.71

加权汇总

88.62

81.07

74.31

评估类型

Pangu-Finance-NLP-N2-128k

Deepseek-R1

Qwen3-32B

data_inspection

85.00

81.67

78.33

emotion_identification

89.33

86.67

78.67

entity_disambiguation

73.33

78.67

72.00

entity_recognition

74.67

81.33

86.67

financial_facts

97.33

80.00

48.00

financial_terminology

90.67

64.00

22.67

intent_understanding

94.67

92.00

97.33

metric_calculation

94.29

70.00

92.86

value_extraction

98.57

95.71

95.71

加权汇总

88.62

81.07

74.31

* 以上数据集均使用了 \\boxed 指令控制模型输出,通过严格的 rule-based verifier 精确判定模型输出结果的正误

CFLUE 是中国金融语言理解评估基准,旨在评估大型语言模型(LLMs)在各个维度上的能力,它提供了针对知识评估和应用评估量身定制的数据集

CFLUE 是中国金融语言理解评估基准,旨在评估大型语言模型(LLMs)在各个维度上的能力,它提供了针对知识评估和应用评估量身定制的数据集

评估类型

Pangu-Finance-NLP-N2-128k

Deepseek-R1

Qwen3-32B

注册会计师

92.76

80.04

82.24

证券从业资格

89.54

85.62

83.66

基金从业资格

94.35

93.45

92.86

反假货币知识

91.67

80.00

85.00

银从中级资格

89.39

79.25

81.13

初级会计职称

96.49

88.07

90.88

银行初级资格

91.17

84.11

84.99

初级经济师

89.76

83.41

82.68

金融理财师(AFP)

85.62

76.03

86.30

证券专项考试

93.39

86.78

86.78

期货从业资格

86.21

77.59

83.62

中级经济师

88.89

82.77

81.80

黄金从业资格

78.82

65.88

60.00

保险从业资格

92.75

84.06

78.26

中国精算师

69.23

46.15

84.62

加权汇总

90.50

82.76

83.90

评估类型

Pangu-Finance-NLP-N2-128k

Deepseek-R1

Qwen3-32B

注册会计师

92.76

80.04

82.24

证券从业资格

89.54

85.62

83.66

基金从业资格

94.35

93.45

92.86

反假货币知识

91.67

80.00

85.00

银从中级资格

89.39

79.25

81.13

初级会计职称

96.49

88.07

90.88

银行初级资格

91.17

84.11

84.99

初级经济师

89.76

83.41

82.68

金融理财师(AFP)

85.62

76.03

86.30

证券专项考试

93.39

86.78

86.78

期货从业资格

86.21

77.59

83.62

中级经济师

88.89

82.77

81.80

黄金从业资格

78.82

65.88

60.00

保险从业资格

92.75

84.06

78.26

中国精算师

69.23

46.15

84.62

加权汇总

90.50

82.76

83.90

* 以上数据集均使用了 \\boxed 指令控制模型输出,通过严格的 rule-based verifier 精确判定模型输出结果的正误

Fin-eval是由蚂蚁集团、上海财经大学联合推出金融评测集覆盖财富管理、保险、投资研究等多个金融场景以及金融专业主题学科

Fin-eval是由蚂蚁集团、上海财经大学联合推出金融评测集覆盖财富管理、保险、投资研究等多个金融场景以及金融专业主题学科

评估类型

Pangu-Finance-NLP-N2-128k

Deepseek-R1

Qwen3-32B

accounting

91.57

86.52

88.76

finance

90.30

82.34

83.83

economy

89.45

90.30

93.67

certificate

88.62

86.23

90.12

加权汇总

89.83

85.75

88.44

评估类型

Pangu-Finance-NLP-N2-128k

Deepseek-R1

Qwen3-32B

accounting

91.57

86.52

88.76

finance

90.30

82.34

83.83

economy

89.45

90.30

93.67

certificate

88.62

86.23

90.12

加权汇总

89.83

85.75

88.44

* 以上数据集均使用了 \\boxed 指令控制模型输出,通过严格的 rule-based verifier 精确判定模型输出结果的正误