SHUISHAN DATASETS
一个基于水杉在线学习平台的开源数据集库
介绍
这个仓库用于公开我们从水杉在线学习平台收集的数据集,您可以下载并使用它们进行您的研究。所有数据集均对特殊字段进行了脱敏(所以如果您想进行特定人群的研究,这份数据集可能并不适合您),涵盖课程资源、学生行为以及其它数据。
数据集
以下是我们目前公开的数据集(暂时只有 SHUISHAN-CLAD ):
下载
我们提供了以下多种下载方式:
1.下载链接:
2. wget 命令:
wget https://shuishan-dataset.oss-accelerate.aliyuncs.com/SHUISHAN-CLAD.zip --no-check-certificate
unzip SHUISHAN-CLAD.zip
wget 命令或阿里云 OSS 链接进行下载,因为这些通常是最新的选项。云存储链接可能不会频繁更新。
联系我们
如需使用我们的数据集进行研究,请通过电子邮件( 51265903105@stu.ecnu.edu.cn )联系我们以获取授权。若在论文致谢中提及我们的贡献,我们将不胜感激。
如有任何疑问或建议,欢迎通过邮件联系我们,或者建立 GitHub issues。
数据描述
1. SHUISHAN-CLAD: 课程学习行为数据集
这个数据集包含了 1,131,000+ 条课程学习行为记录,包括学生学习活动,例如观看视频、阅读文章和完成练习。数据集是从 168 余门课程中收集,涵盖 23,600 余名不同学生的行为数据。
我们的数据以json格式存储,具体字段及含义见下文:
SHUISHAN-CLAD 数据集的详细统计信息:
| course_id | teachclass_count | video_records | exam_records | homework_records | student_records | attendance_records |
|---|---|---|---|---|---|---|
| 数据挖掘 | 1 | 0 | 0 | 335 | 957 | 0 |
| 数据挖掘 2026春 | 1 | 0 | 0 | 45 | 188 | 0 |
| 人工智能基础与科学探索实践-郑凯 | 2 | 0 | 0 | 0 | 57 | 0 |
| 大数据与人工智能 | 1 | 0 | 0 | 12 | 0 | 171 |
| 专业英语 | 1 | 0 | 0 | 244 | 558 | 0 |
| Python编程基础 | 5 | 0 | 1032 | 2589 | 9144 | 3860 |
| 专业英语-2025 | 1 | 0 | 0 | 0 | 627 | 0 |
| 人工智能与科学探索实践-陈优广 | 4 | 2344 | 2213 | 1028 | 8076 | 2411 |
| 数字化创新与实践A | 2 | 0 | 0 | 7 | 284 | 605 |
| AIGC在文化教学中的应用 | 3 | 85 | 0 | 4 | 214 | 0 |
| 数字媒体与AI创作实践 | 7 | 8878 | 0 | 19582 | 6666 | 4399 |
| 编程思维与实践(体育学院) | 4 | 0 | 1135 | 1354 | 5063 | 303 |
| 汉语口语 | 1 | 0 | 0 | 0 | 0 | 0 |
| 2026编程三剑客图形化 | 1 | 1585 | 0 | 0 | 489 | 0 |
| HSK标准教程3 | 1 | 0 | 1 | 0 | 4 | 0 |
| 编程三剑客之C++ | 1 | 6081 | 0 | 0 | 1422 | 0 |
| 概率论与数理统计 | 3 | 206 | 0 | 2606 | 8700 | 0 |
| ECNU三级能力测评 | 1 | 0 | 8 | 0 | 27 | 0 |
| 计算机通识课 | 1 | 427 | 31 | 8 | 210 | 0 |
| 数字媒体与AI创作实践 杨 | 2 | 0 | 0 | 795 | 610 | 1802 |
| 学术英语读写课程 | 1 | 3 | 364 | 0 | 603 | 0 |
| 设计思维-拔尖班 | 1 | 0 | 0 | 0 | 0 | 51 |
| 数据与编程 | 1 | 19 | 0 | 0 | 44 | 0 |
| 数据科学与工程专题选讲 | 2 | 0 | 0 | 0 | 0 | 0 |
| 数据安全 | 1 | 0 | 0 | 0 | 204 | 0 |
| 编程思维与实践(下)——探索数据的世界 | 1 | 0 | 0 | 0 | 42 | 461 |
| 数据思维与实践-刘小平 | 4 | 11 | 6 | 0 | 1647 | 504 |
| 开源软件通识基础 | 1 | 28 | 0 | 0 | 10 | 0 |
| 计算机与程序设计基础(D) | 7 | 0 | 0 | 0 | 0 | 118 |
| neXt-lab的机器学习 | 1 | 0 | 0 | 0 | 88 | 17 |
| 编程思维与实践(实验班测试) | 2 | 0 | 139 | 0 | 2 | 0 |
| 人工智能基础与应用 | 33 | 15101 | 590 | 951 | 19248 | 3041 |
| 1-2A 汉语综合课 | 1 | 0 | 0 | 0 | 0 | 0 |
| 编程思维与实践(理科组)(陈优广) | 4 | 1431 | 2500 | 2093 | 7932 | 2329 |
| 程序设计 | 12 | 6407 | 127 | 188 | 3306 | 0 |
| B-PT 编程思维(刘小平) | 3 | 0 | 428 | 123 | 3370 | 2117 |
| 计算机系统 | 5 | 0 | 0 | 217 | 2373 | 0 |
| 数据思维与实践(俞琨) | 1 | 1 | 60 | 4 | 144 | 482 |
| 数据挖掘-2025春 | 1 | 0 | 0 | 320 | 1699 | 0 |
| 编译原理 | 2 | 0 | 0 | 0 | 1266 | 0 |
| B-PT 编程思维 | 14 | 0 | 3077 | 0 | 24744 | 0 |
| 大语言模型应用与实践 | 2 | 0 | 0 | 50 | 437 | 166 |
| 2022年人工智能初探 | 2 | 630 | 61 | 87 | 556 | 536 |
| 说汉语3 | 1 | 0 | 0 | 0 | 0 | 0 |
| 事业启航-数据学院 | 2 | 42 | 0 | 0 | 614 | 0 |
| AI赋能文化教学-汉语教师志愿者培训 | 1 | 1 | 0 | 0 | 26 | 0 |
| 实用人工智能(教育-外语-设计) | 4 | 0 | 0 | 143 | 831 | 857 |
| 当代数据管理系统 | 12 | 85740 | 3602 | 2808 | 74421 | 36 |
| 计算机系统安全 | 1 | 0 | 0 | 50 | 183 | 0 |
| 社会计算 | 3 | 0 | 50 | 55 | 383 | 0 |
| 统计方法与机器学习 | 4 | 1946 | 0 | 2156 | 7534 | 243 |
| 云计算系统 | 1 | 0 | 0 | 0 | 0 | 0 |
| XX | 1 | 0 | 0 | 0 | 0 | 0 |
| 计算机网络(拔尖基地) | 1 | 0 | 0 | 151 | 535 | 0 |
| 计算机文化与数字胜任力 | 4 | 0 | 50 | 0 | 54489 | 0 |
| 编程思维与实践(理科组) | 56 | 36847 | 4277 | 2213 | 41825 | 13849 |
| 编程思维与实践(2021) | 4 | 1322 | 9 | 0 | 454 | 0 |
| 开源软件设计与开发(本科生) | 1 | 4 | 6 | 0 | 4 | 20 |
| B-PT 编程思维(余青松) | 2 | 0 | 784 | 0 | 898 | 1400 |
| 数据科学与数据智能实践 | 37 | 9929 | 9360 | 8945 | 34675 | 13835 |
| 编程思维与实践 | 31 | 31844 | 3894 | 11463 | 48317 | 12970 |
| 编程三剑客之Python | 2 | 10022 | 0 | 0 | 1610 | 0 |
| 编程三剑客之图形化 | 2 | 10188 | 0 | 97 | 4733 | 0 |
| 应用编程实践 | 2 | 0 | 76 | 50 | 681 | 956 |
| 高级汉语写作 | 1 | 0 | 0 | 34 | 103 | 0 |
| 1-1c 听力 | 1 | 0 | 0 | 0 | 16 | 0 |
| 数据系统前沿 | 1 | 0 | 0 | 0 | 4 | 0 |
| 数据思维与实践-朱晴婷 | 8 | 1072 | 411 | 523 | 3139 | 5719 |
| 2-3B听力 | 1 | 0 | 0 | 0 | 0 | 0 |
| 编程思维与实践(新版-数据智能) | 7 | 5188 | 4101 | 3216 | 15540 | 13513 |
| 数据伦理 | 8 | 0 | 0 | 2466 | 1639 | 213 |
| 多媒体技术与应用(HA&M) | 8 | 0 | 285 | 4135 | 7756 | 1788 |
| 编程思维与实践(实验班) | 4 | 0 | 2185 | 564 | 3737 | 2014 |
| 人工智能与智慧教育 | 7 | 182 | 497 | 0 | 1406 | 1140 |
| B级编程思维能力测评 | 3 | 0 | 3496 | 0 | 1991 | 0 |
| 机器学习 | 2 | 0 | 0 | 0 | 0 | 0 |
| 高性能计算与并行计算 | 1 | 0 | 0 | 45 | 1 | 42 |
| B-PT 编程思维(白玥) | 2 | 0 | 1880 | 0 | 1671 | 532 |
| 实用人工智能 | 11 | 0 | 64 | 653 | 1131 | 3341 |
| 信息系统与数字社会 | 1 | 11 | 15 | 0 | 47 | 0 |
| B-PT 编程思维(王志萍) | 3 | 0 | 439 | 387 | 1268 | 2962 |
| 新标准中文 | 1 | 0 | 0 | 0 | 0 | 0 |
| 编程思维与实践(数字媒体) | 9 | 0 | 21 | 2467 | 6609 | 4104 |
| B-PT 编程思维(黄岚兰) | 1 | 0 | 979 | 0 | 822 | 273 |
| Parliamo Cinese我们说汉语(1)(天池) | 1 | 0 | 0 | 0 | 11 | 0 |
| 机器学习(2024) | 1 | 0 | 0 | 0 | 0 | 684 |
| 2026编程三剑客Python | 1 | 1525 | 0 | 0 | 447 | 0 |
| Python语言程序设计 | 1 | 0 | 1 | 0 | 1 | 0 |
| 数字媒体与交互设计 | 8 | 0 | 0 | 0 | 3 | 771 |
| 2-3B读写课 | 1 | 0 | 0 | 8 | 12 | 0 |
| 编程思维与实践(朱晴婷) | 3 | 0 | 1040 | 148 | 1583 | 2085 |
| 算法与人工智能 | 1 | 0 | 12 | 0 | 58 | 0 |
| 分布式计算系统 | 3 | 29962 | 0 | 0 | 23292 | 0 |
| 数字化创新与综合实践A(俞琨) | 1 | 0 | 0 | 10 | 246 | 0 |
| 概率论与数理统计2026 | 1 | 0 | 0 | 1202 | 2088 | 0 |
| 2022高校学生人工智能训练营(英特尔-华师大) | 1 | 0 | 0 | 117 | 2 | 0 |
| 1-3C综合(Comprehensive) | 1 | 0 | 0 | 0 | 6 | 0 |
| 人工智能与智慧教育(文科) | 5 | 0 | 36 | 1169 | 1563 | 1951 |
| 计算机视觉 | 1 | 0 | 0 | 0 | 0 | 0 |
| 程序设计(计算机拔尖基地) | 6 | 823 | 824 | 2487 | 7634 | 2573 |
| 程序优化系统设计(上) | 1 | 4 | 0 | 0 | 65 | 0 |
| 人工智能与智慧教育(体育学院) | 3 | 0 | 0 | 2055 | 4009 | 698 |
| 数据思维与实践(文) | 2 | 1 | 350 | 0 | 146 | 205 |
| 2022“人工智能”教学研讨班 | 1 | 322 | 0 | 0 | 459 | 0 |
| 人工智能与科学探索(蒲鹏) | 3 | 712 | 557 | 939 | 6827 | 3048 |
| 2-3B综合课 | 1 | 0 | 0 | 0 | 25 | 0 |
| 数据思维与实践-陈优广 | 1 | 0 | 13 | 0 | 49 | 54 |
| 数据科学与工程算法基础 | 2 | 115 | 0 | 76 | 678 | 0 |
| 编程思维与实践(理科组)(郑凯) | 3 | 0 | 0 | 8522 | 5670 | 0 |
| Parliamo Cinese我们说汉语(1) | 2 | 0 | 1 | 3 | 30 | 3 |
| 人工智能与科学探索实践 | 28 | 7710 | 967 | 0 | 16950 | 7536 |
| 计算机科学中的伟大思想 | 2 | 0 | 43 | 2 | 180 | 282 |
| 编程思维与实践(微专业) | 1 | 51 | 0 | 0 | 64 | 0 |
| 中级汉语综合课 | 2 | 0 | 0 | 0 | 0 | 0 |
| 数据结构(拔尖基地) | 3 | 0 | 0 | 76 | 2266 | 0 |
| 软件系统优化 | 5 | 176 | 0 | 1020 | 2525 | 0 |
| 数据思维与实践 | 1 | 962 | 0 | 0 | 364 | 0 |
| 数字素养 | 1 | 3 | 0 | 0 | 2 | 83 |
| 我们说汉语3 | 2 | 0 | 0 | 0 | 0 | 0 |
| 2-1听力课 | 2 | 0 | 0 | 0 | 0 | 0 |
| 数字化创新与综合实践A(郑凯) | 2 | 0 | 0 | 35 | 81 | 0 |
| 计算机视觉(2024) | 1 | 0 | 0 | 0 | 0 | 0 |
| 2-4班 高级口语1 | 1 | 0 | 0 | 0 | 23 | 0 |
| 中级综合课 | 1 | 0 | 0 | 0 | 0 | 0 |
| 统计与机器学习(非全) | 4 | 112 | 0 | 532 | 1932 | 0 |
| 事业启航 | 2 | 174 | 0 | 23 | 51 | 0 |
| 数据科学与工程数学基础 | 1 | 123 | 0 | 0 | 35 | 0 |
| 数据学院2022年双创展示 | 1 | 0 | 0 | 0 | 2 | 0 |
| 数据分析与大数据 | 18 | 2495 | 250 | 0 | 2811 | 1704 |
| 人类思维与学科史论-计算机 | 1 | 0 | 0 | 0 | 0 | 0 |
| 网络与数字安全 | 1 | 0 | 11 | 0 | 34 | 0 |
| 数字化创新与综合实践B(设计) | 2 | 0 | 0 | 200 | 242 | 405 |
| 计算机技术基础(留学生) | 1 | 0 | 209 | 1166 | 2266 | 812 |
| 区块链系统 | 1 | 0 | 0 | 0 | 5 | 0 |
| 计算机系统(拔尖基地) | 5 | 378 | 0 | 0 | 3011 | 0 |
| 编程思维与实践(理科组)(刘小平) | 3 | 245 | 0 | 0 | 826 | 1729 |
| web编程 | 3 | 0 | 0 | 1351 | 7987 | 902 |
| Metasequoia Cup Coding Competition | 4 | 0 | 0 | 0 | 0 | 0 |
| 开源软件开发与社区治理(研究生) | 1 | 21 | 55 | 0 | 20 | 924 |
| 2-1E综合 | 1 | 0 | 0 | 0 | 4 | 0 |
| 当代人工智能 | 1 | 0 | 154 | 0 | 1 | 0 |
| 2026编程三剑客C++ | 1 | 1136 | 0 | 0 | 273 | 0 |
| 编程思维与实践(曾) | 2 | 0 | 2410 | 0 | 1736 | 1175 |
| 说汉语写汉字 — 第13课 现在几点 | 1 | 0 | 0 | 0 | 0 | 0 |
| 算法基础 | 1 | 0 | 0 | 0 | 0 | 0 |
| 计算教育学2022 | 1 | 0 | 14 | 27 | 1 | 140 |
| 程序优化系统设计(下) | 1 | 0 | 0 | 0 | 10 | 0 |
| 云计算应用与开发 | 2 | 0 | 0 | 0 | 14 | 0 |
| 人工智能基础(上海市重点课程) | 3 | 359 | 187 | 181 | 1748 | 1055 |
| 数据思维与实践(2024) | 3 | 472 | 52 | 144 | 1110 | 498 |
| 软件开发管理与实践 | 1 | 0 | 0 | 5 | 0 | 0 |
| 学中文 | 1 | 0 | 0 | 0 | 0 | 0 |
| 人工智能与数学 | 3 | 984 | 0 | 0 | 125 | 0 |
| 2-2B读写课 | 1 | 0 | 0 | 0 | 0 | 0 |
| 设计思维 | 1 | 0 | 0 | 0 | 6 | 0 |
| 水杉公益 | 2 | 0 | 1 | 0 | 0 | 0 |
| 计算机编程语言 | 1 | 0 | 45 | 0 | 0 | 115 |
| 2-2A读写课 | 1 | 0 | 0 | 0 | 0 | 0 |
| 计算机视觉与多媒体信息处理 | 7 | 6564 | 0 | 0 | 5757 | 0 |
| 青少年编程教育训练营 | 6 | 0 | 0 | 70 | 292 | 329 |
| B-PT 编程思维(陈志云) | 2 | 0 | 1885 | 0 | 1563 | 738 |
| 计算机技术应用 | 1 | 0 | 60 | 819 | 807 | 371 |
| 汉语方言学 | 1 | 0 | 0 | 3 | 1 | 0 |
| 数据科学与工程导论 | 6 | 524 | 39 | 865 | 4196 | 129 |
| parla e scrivi | 1 | 0 | 0 | 0 | 0 | 0 |
| 数字化创新与综合实践(A) 杨 | 1 | 0 | 0 | 0 | 0 | 0 |
| 人工智能初探 | 2 | 395 | 141 | 1 | 340 | 0 |
| (B2)编程思维与实践 | 22 | 0 | 115 | 0 | 183 | 2609 |
| Total Count: 168 | 629 | 293923 | 57725 | 98519 | 544852 | 136788 |
致谢
特别感谢华东师范大学、华东师范大学数据科学与工程学院、水杉在线对本项目的支持和帮助。