当前位置: 首页 > 通知公告 > 正文

北京大学王汉生教授到访数据科学研究院并作学术报告

【 发布日期:2024-06-27 】

6月19日下午,由数据科学研究院及山东系统与计算法学研究中心联合举办的数据科学系列学术报告在明德楼C座702会议室举行,北京大学王汉生教授应邀到访并作题为“Mixture Conditional Regression with Ultrahigh Dimensional Text Data for Estimating Extralegal Factor Effects”的学术报告。报告由数据科学研究院副院长王芳教授主持,数据科学研究院青年教师、博士研究生、硕士研究生参加了本次报告。

王汉生教授从司法公正性问题出发,指出检验司法公正性是法律实证研究中一个至关重要的问题,但常用的回归方法难以处理超高维控制变量。为了解决这个问题,王汉生教授团队开发了混合条件回归(Mixture Conditional Regression)方法实现对上述场景的建模。该方法将整个样本分为若干类别,在每个类别中,可以使用标准线性回归模型来模拟结果与关键特征向量之间的关系。案件样本的类别由犯罪事实决定,而犯罪事实在判决书中是大段文本形式,那么如何处理超高维的非结构化文本数据是一个关键问题。团队使用的是文本分词的方法,得到了数目非常多的控制变量。为了使用这个超高维控制变量来确定案件潜在的类别,研究使用了朴素贝叶斯模型。朴素贝叶斯可以允许控制变量的维度在一定范围内非常大,与样本量相当甚至超过样本量。对于整体方法,团队开发了一种EM算法来实现模型参数估计。同时,团队证明了提出的估计量的良好统计学理论性质。最后,王汉生教授展示了基于我国盗窃罪数据集的分析结果,表明该方法在实际数据上获得了更好的估计结果,可以将更多控制变量纳入考虑,其预测准确度相较传统线性回归模型取得了明显的提升。

报告结束后,老师、同学们积极提问,就报告内容进行了广泛交流和探讨,现场讨论气氛十分热烈。

王汉生教授到访期间,与数据科学研究院师生们就统计学等相关学术领域进行深入探讨,不仅使学院师生对相关研究有了更为全面深刻的理解,也为与会师生找准研究方向、拓展研究空间、搭建研究体系提供了重要借鉴。

报告人简介:

王汉生,北京大学光华管理学院商务统计与经济计量系,教授,博导。国家杰出青年基金获得者,教育部长江学者特聘教授,全国工业统计学教学研究会青年统计学家协会创始会长,美国数理统计协会(IMS)Fellow,美国统计学会(ASA)Fellow,国际统计协会(ISI)Elected Member。先后历任10个国际学术期刊副主编(Associate Editor / Editor)。国内外各种专业杂志上发表文章180+篇,并合著有英文专著共1本,(合)著中文教材4本。爱思唯尔中国高被引学者学者(数学类:2014—2019;应用经济学类:2020;统计学类:2021—2023)。