2019年4月19日下午15:00002cc白菜资讯422会议室,北京大学数学科学学院统计学教研室主任、教授、博士生导师艾明要应邀作了题为“大数据广义线性模型的最优次采样算法”的学术报告,002cc白菜资讯多名教授及研究生出席该次讲座。
艾明要教授采用广义线性模型(GLM)中A-最优准则下的最优次采样方法,解决了如何用大量的数据快速预估MLE的问题。首先艾明要教授以大数据的难操作性和重要性来点名本次讲座的主题,大数据分析会占用许多电脑内存、花费较长的时间、会使可视化变得凌乱,因此目前的大数据分析技术还不太成熟,一般我们可以采用在巨型计算机上进行操作、将用于分布式分析的数据集进行拆分、以不同的方法访问数据等方法来解决这一问题。而由于最优次采样概率依赖于全数据估计,艾明要教授提出了一个自适应的两步算法,他先在一般子抽样算法下建立估计量的一致性和渐进正态性,再在A-和L-最优性准则下得出最优次采样概率,此外,他利用Frobenius范数矩阵集中不等式还导出了基于最优次采样概率下的子抽样估计的有限样本性质。最后他通过模拟数据集和真实数据集对这一算法进行了检验,并对该方法进行了说明和评价:这一算法能在不降低计算精度的前提下,将大数据进行分布计算。
讲座过程中,老师与同学都展现出了十分的热忱与好奇心,艾明要教授也对大家的疑问一一进行了解答,现场反响热烈。此次讲座不仅帮助我们对计量算法与大数据有了更深入的了解、从理论上丰富了大家的专业知识,而且还激发了同学们不断研究探索的热情。