研助起航计划】数据科学与人工智能:基于SQL和Python的数据挖掘、计算与分析研究
开始日期: 2026-05-16
课时安排: 6周在线小组科研+6周研究助理经历训练+5周论文指导
Prerequisites适合人群
适合年级 (Grade): 大学生及以上
适合专业 (Major): 对数据挖掘、人工智能、机器学习、深度学习、数据库及对相关专业感兴趣的大学生,建议具备Python基础
需要有自主研究的兴趣和热情
Instructor Introduction导师介绍
K老师
香港科技大学终身正教授
香港科技大学
K老师 终身正教授 博士生导师
U.S. News美国Top10大学 博士
入选ACM杰出科学家名单
研究方向:数据库理论与算法、数据安全和隐私
在核心期刊发表论文百余篇。曾获数据库领域国际顶级会议最佳论文奖、最佳系统演示奖。研究成果见诸顶尖学术期刊及国际会议,并担任美国计算机学会汇刊和IEEE汇刊的副主编。
Program Outcome项目收获
6周【在线小组科研+全球就业力大师课】+6周研究助理经历+5周论文指导,共135课时
1500字左右的项目报告
优秀学员获得主导师推荐信(8封网推)
项目结业证书
研究助理经历证书
EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等级别索引国际会议全文投递与发表指导或者CNKI检索的英文普刊全文投递与发表指导
Project Description项目介绍
Hadoop和Spark是当前处理大数据计算问题应用最为广泛的系统及编程框架,具有快速、通用、鲁棒、分布式等特点,支持多种编程语言和数据源,并提供多个可扩展的组件库如机器学习、图处理、流处理等。
本课程将通过大量实例让学生对Hadoop及Spark有充分了解,并能够动手编写程序,为未来面向大数据的科研工作打下良好基础。
Syllabus项目大纲
PBL小组科研6周课纲
MapReduce and Hadoop:简介大数据处理的挑战和方法、介绍MapReduce编程模型、介绍Hadoop生态系统的基本概念和架构
Spark基础与RDD:介绍Spark的概念和特点、深入研究弹性分布式数据集(RDD)的概念和原理、学习如何使用Spark进行数据处理和转换操作、实践编写基于RDD的Spark应用程序
SparkSQL和MLlib:介绍SparkSQL的基本概念和功能、学习如何使用SparkSQL进行数据查询和分析、探索Spark的机器学习库(MLlib)的功能和使用方法、实践构建和训练Spark的机器学习模型
大数据系统的算法设计:学习大数据系统中的算法设计方法、探讨分布式算法设计的最佳实践、实践运用算法设计解决实际大数据问题
GraphX/GraphFrames:介绍图数据处理的基本概念和应用场景、学习使用Spark的图处理库GraphX/GraphFrames进行图计算和分析、探索图算法的实现和优化策略、实践构建和分析大规模图数据
项目答辩与点评
Research Training Task研助起航任务安排(参考)
研究助理经历训练6周任务安排(参考)
Week 1: 研究聚焦与深化方向锁定
基于科研报告及导师点评,提炼报告核心亮点,锁定深化研究方向
任务指引:梳理科研报告中的核心观点、案例分析结论,结合导师点评建议,识别报告中最具创新性、或最值得深入验证的1-2个核心发现或观点
任务输出:将上述核心发现转化为一个清晰、可验证的科学假设
制定验证路径:结合科研阶段所学的大数据知识,确定验证所需的核心数据
研讨会重点:教授指导学生评估各人假设的科学性与可行性,确保研究方向明确且资源可及
Week 2: 针对性文献补充搜集与整合
数据收集:根据上周假设,补充科研阶段未覆盖的规模化数据或通过公开数据集扩充数据量
文献拓展:围绕假设检索6-8篇前沿研究文献,重点分析同类大数据计算优化、隐私保护的技术方案
初步分析:整合数据与文献,设计基础优化方案
研讨会重点:指导文献批判性阅读技巧,解决学生在数据获取和解读中的共性问题
Week 3: 分析建模与机制初探
方案落地:将验证路径细化为可执行的实操流程,明确优化变量
初步验证实施:按方案开展分布式计算或模型训练实验,严格记录实验过程
识别缺口:明确当前分析尚不能完全证实假设的“证据缺口”是什么。
Week 4: 研究设计拓展与论证
方案迭代:为填补“证据缺口”,设计一个(或一系列)虚拟的、但方法学上完整的实验方案
论证预期结果:明确实验预期与意义,简单说明“实验要验证什么、结果能说明什么”。
整合论证框架:整合基础论证逻辑,用“假设→Week2数据(初步支撑)→Week4虚拟实验(补全证据)” 的逻辑链。
研讨会重点:聚焦于研究设计的严谨性与创新性,训练学生的实验思维和方案撰写能力。
Week 5: 学术写作与成果整合
撰写核心章节:开始撰写深度研究报告的核心部分(引言、方法、结果、讨论),重点是将前四周的工作(假设、证据、分析、实验设计)用学术语言进行逻辑化呈现。
图表制作:将关键数据和分析结果制作成符合学术规范的图表。
初稿形成:整合各部分内容,形成报告完整初稿。
Week 6: 成果汇报、修改与提炼
准备汇报:基于深度研究报告,准备一份10-15分钟的答辩演示文稿,清晰讲述“研究问题-假设-验证路径-发现/设计-意义”的全过程。
参与最终答辩研讨会:进行演示并接受教授和同行的提问
上一篇:数字媒体与智能传播:人工智能视域下数字媒体传播的变革与应对 探究“被数据化的个体”与“被媒介化的生存”
下一篇:返回列表
直接添加小助手阿星
微信号:nan2xing