Skip to the content.
英文

SHUISHAN DATASETS

LICENSE

一个基于水杉在线学习平台的开源数据集库

介绍

这个仓库用于公开我们从水杉在线学习平台收集的数据集,您可以下载并使用它们进行您的研究。所有数据集均对特殊字段进行了脱敏(所以如果您想进行特定人群的研究,这份数据集可能并不适合您),涵盖课程资源、学生行为以及其它数据。

数据集

以下是我们目前公开的数据集(暂时只有 SHUISHAN-CLAD ):

下载

我们提供了以下多种下载方式:

1.下载链接:

2. wget 命令:

wget https://shuishan-dataset.oss-accelerate.aliyuncs.com/SHUISHAN-CLAD.zip --no-check-certificate
unzip SHUISHAN-CLAD.zip
注: 我们建议使用 wget 命令或阿里云 OSS 链接进行下载,因为这些通常是最新的选项。云存储链接可能不会频繁更新。

联系我们

如需使用我们的数据集进行研究,请通过电子邮件( 51265903105@stu.ecnu.edu.cn )联系我们以获取授权。若在论文致谢中提及我们的贡献,我们将不胜感激。

如有任何疑问或建议,欢迎通过邮件联系我们,或者建立 GitHub issues

数据描述

1. SHUISHAN-CLAD: 课程学习行为数据集

这个数据集包含了 1,131,000+ 条课程学习行为记录,包括学生学习活动,例如观看视频、阅读文章和完成练习。数据集是从 168 余门课程中收集,涵盖 23,600 余名不同学生的行为数据。

我们的数据以json格式存储,具体字段及含义见下文:

SHUISHAN-CLAD 数据集的详细统计信息:

course_id teachclass_count video_records exam_records homework_records student_records attendance_records
数据挖掘 1 0 0 335 957 0
数据挖掘 2026春 1 0 0 45 188 0
人工智能基础与科学探索实践-郑凯 2 0 0 0 57 0
大数据与人工智能 1 0 0 12 0 171
专业英语 1 0 0 244 558 0
Python编程基础 5 0 1032 2589 9144 3860
专业英语-2025 1 0 0 0 627 0
人工智能与科学探索实践-陈优广 4 2344 2213 1028 8076 2411
数字化创新与实践A 2 0 0 7 284 605
AIGC在文化教学中的应用 3 85 0 4 214 0
数字媒体与AI创作实践 7 8878 0 19582 6666 4399
编程思维与实践(体育学院) 4 0 1135 1354 5063 303
汉语口语 1 0 0 0 0 0
2026编程三剑客图形化 1 1585 0 0 489 0
HSK标准教程3 1 0 1 0 4 0
编程三剑客之C++ 1 6081 0 0 1422 0
概率论与数理统计 3 206 0 2606 8700 0
ECNU三级能力测评 1 0 8 0 27 0
计算机通识课 1 427 31 8 210 0
数字媒体与AI创作实践 杨 2 0 0 795 610 1802
学术英语读写课程 1 3 364 0 603 0
设计思维-拔尖班 1 0 0 0 0 51
数据与编程 1 19 0 0 44 0
数据科学与工程专题选讲 2 0 0 0 0 0
数据安全 1 0 0 0 204 0
编程思维与实践(下)——探索数据的世界 1 0 0 0 42 461
数据思维与实践-刘小平 4 11 6 0 1647 504
开源软件通识基础 1 28 0 0 10 0
计算机与程序设计基础(D) 7 0 0 0 0 118
neXt-lab的机器学习 1 0 0 0 88 17
编程思维与实践(实验班测试) 2 0 139 0 2 0
人工智能基础与应用 33 15101 590 951 19248 3041
1-2A 汉语综合课 1 0 0 0 0 0
编程思维与实践(理科组)(陈优广) 4 1431 2500 2093 7932 2329
程序设计 12 6407 127 188 3306 0
B-PT 编程思维(刘小平) 3 0 428 123 3370 2117
计算机系统 5 0 0 217 2373 0
数据思维与实践(俞琨) 1 1 60 4 144 482
数据挖掘-2025春 1 0 0 320 1699 0
编译原理 2 0 0 0 1266 0
B-PT 编程思维 14 0 3077 0 24744 0
大语言模型应用与实践 2 0 0 50 437 166
2022年人工智能初探 2 630 61 87 556 536
说汉语3 1 0 0 0 0 0
事业启航-数据学院 2 42 0 0 614 0
AI赋能文化教学-汉语教师志愿者培训 1 1 0 0 26 0
实用人工智能(教育-外语-设计) 4 0 0 143 831 857
当代数据管理系统 12 85740 3602 2808 74421 36
计算机系统安全 1 0 0 50 183 0
社会计算 3 0 50 55 383 0
统计方法与机器学习 4 1946 0 2156 7534 243
云计算系统 1 0 0 0 0 0
XX 1 0 0 0 0 0
计算机网络(拔尖基地) 1 0 0 151 535 0
计算机文化与数字胜任力 4 0 50 0 54489 0
编程思维与实践(理科组) 56 36847 4277 2213 41825 13849
编程思维与实践(2021) 4 1322 9 0 454 0
开源软件设计与开发(本科生) 1 4 6 0 4 20
B-PT 编程思维(余青松) 2 0 784 0 898 1400
数据科学与数据智能实践 37 9929 9360 8945 34675 13835
编程思维与实践 31 31844 3894 11463 48317 12970
编程三剑客之Python 2 10022 0 0 1610 0
编程三剑客之图形化 2 10188 0 97 4733 0
应用编程实践 2 0 76 50 681 956
高级汉语写作 1 0 0 34 103 0
1-1c 听力 1 0 0 0 16 0
数据系统前沿 1 0 0 0 4 0
数据思维与实践-朱晴婷 8 1072 411 523 3139 5719
2-3B听力 1 0 0 0 0 0
编程思维与实践(新版-数据智能) 7 5188 4101 3216 15540 13513
数据伦理 8 0 0 2466 1639 213
多媒体技术与应用(HA&M) 8 0 285 4135 7756 1788
编程思维与实践(实验班) 4 0 2185 564 3737 2014
人工智能与智慧教育 7 182 497 0 1406 1140
B级编程思维能力测评 3 0 3496 0 1991 0
机器学习 2 0 0 0 0 0
高性能计算与并行计算 1 0 0 45 1 42
B-PT 编程思维(白玥) 2 0 1880 0 1671 532
实用人工智能 11 0 64 653 1131 3341
信息系统与数字社会 1 11 15 0 47 0
B-PT 编程思维(王志萍) 3 0 439 387 1268 2962
新标准中文 1 0 0 0 0 0
编程思维与实践(数字媒体) 9 0 21 2467 6609 4104
B-PT 编程思维(黄岚兰) 1 0 979 0 822 273
Parliamo Cinese我们说汉语(1)(天池) 1 0 0 0 11 0
机器学习(2024) 1 0 0 0 0 684
2026编程三剑客Python 1 1525 0 0 447 0
Python语言程序设计 1 0 1 0 1 0
数字媒体与交互设计 8 0 0 0 3 771
2-3B读写课 1 0 0 8 12 0
编程思维与实践(朱晴婷) 3 0 1040 148 1583 2085
算法与人工智能 1 0 12 0 58 0
分布式计算系统 3 29962 0 0 23292 0
数字化创新与综合实践A(俞琨) 1 0 0 10 246 0
概率论与数理统计2026 1 0 0 1202 2088 0
2022高校学生人工智能训练营(英特尔-华师大) 1 0 0 117 2 0
1-3C综合(Comprehensive) 1 0 0 0 6 0
人工智能与智慧教育(文科) 5 0 36 1169 1563 1951
计算机视觉 1 0 0 0 0 0
程序设计(计算机拔尖基地) 6 823 824 2487 7634 2573
程序优化系统设计(上) 1 4 0 0 65 0
人工智能与智慧教育(体育学院) 3 0 0 2055 4009 698
数据思维与实践(文) 2 1 350 0 146 205
2022“人工智能”教学研讨班 1 322 0 0 459 0
人工智能与科学探索(蒲鹏) 3 712 557 939 6827 3048
2-3B综合课 1 0 0 0 25 0
数据思维与实践-陈优广 1 0 13 0 49 54
数据科学与工程算法基础 2 115 0 76 678 0
编程思维与实践(理科组)(郑凯) 3 0 0 8522 5670 0
Parliamo Cinese我们说汉语(1) 2 0 1 3 30 3
人工智能与科学探索实践 28 7710 967 0 16950 7536
计算机科学中的伟大思想 2 0 43 2 180 282
编程思维与实践(微专业) 1 51 0 0 64 0
中级汉语综合课 2 0 0 0 0 0
数据结构(拔尖基地) 3 0 0 76 2266 0
软件系统优化 5 176 0 1020 2525 0
数据思维与实践 1 962 0 0 364 0
数字素养 1 3 0 0 2 83
我们说汉语3 2 0 0 0 0 0
2-1听力课 2 0 0 0 0 0
数字化创新与综合实践A(郑凯) 2 0 0 35 81 0
计算机视觉(2024) 1 0 0 0 0 0
2-4班 高级口语1 1 0 0 0 23 0
中级综合课 1 0 0 0 0 0
统计与机器学习(非全) 4 112 0 532 1932 0
事业启航 2 174 0 23 51 0
数据科学与工程数学基础 1 123 0 0 35 0
数据学院2022年双创展示 1 0 0 0 2 0
数据分析与大数据 18 2495 250 0 2811 1704
人类思维与学科史论-计算机 1 0 0 0 0 0
网络与数字安全 1 0 11 0 34 0
数字化创新与综合实践B(设计) 2 0 0 200 242 405
计算机技术基础(留学生) 1 0 209 1166 2266 812
区块链系统 1 0 0 0 5 0
计算机系统(拔尖基地) 5 378 0 0 3011 0
编程思维与实践(理科组)(刘小平) 3 245 0 0 826 1729
web编程 3 0 0 1351 7987 902
Metasequoia Cup Coding Competition 4 0 0 0 0 0
开源软件开发与社区治理(研究生) 1 21 55 0 20 924
2-1E综合 1 0 0 0 4 0
当代人工智能 1 0 154 0 1 0
2026编程三剑客C++ 1 1136 0 0 273 0
编程思维与实践(曾) 2 0 2410 0 1736 1175
说汉语写汉字 — 第13课 现在几点 1 0 0 0 0 0
算法基础 1 0 0 0 0 0
计算教育学2022 1 0 14 27 1 140
程序优化系统设计(下) 1 0 0 0 10 0
云计算应用与开发 2 0 0 0 14 0
人工智能基础(上海市重点课程) 3 359 187 181 1748 1055
数据思维与实践(2024) 3 472 52 144 1110 498
软件开发管理与实践 1 0 0 5 0 0
学中文 1 0 0 0 0 0
人工智能与数学 3 984 0 0 125 0
2-2B读写课 1 0 0 0 0 0
设计思维 1 0 0 0 6 0
水杉公益 2 0 1 0 0 0
计算机编程语言 1 0 45 0 0 115
2-2A读写课 1 0 0 0 0 0
计算机视觉与多媒体信息处理 7 6564 0 0 5757 0
青少年编程教育训练营 6 0 0 70 292 329
B-PT 编程思维(陈志云) 2 0 1885 0 1563 738
计算机技术应用 1 0 60 819 807 371
汉语方言学 1 0 0 3 1 0
数据科学与工程导论 6 524 39 865 4196 129
parla e scrivi 1 0 0 0 0 0
数字化创新与综合实践(A) 杨 1 0 0 0 0 0
人工智能初探 2 395 141 1 340 0
(B2)编程思维与实践 22 0 115 0 183 2609
Total Count: 168 629 293923 57725 98519 544852 136788

致谢

特别感谢华东师范大学、华东师范大学数据科学与工程学院、水杉在线对本项目的支持和帮助。

ECNU DaSE SHUISHAN