2021中国在线数据马拉松大赛

2021数据马拉松初赛测评例题

Linear Modeling(线性建模）

有N个数据点p1，p2，…，pN，每一个数据点包含了m个协变量x1，x2，…，xm和一个反应变量y。用这N个数据点，根据x1，x2，…，xm和对应的系数b1，b2，…，bm，你估算一个变量y的线性回归模型。假设你复制所有pj（1 <= j <=N ）得到2N个数据点，那么相比于原来的线性回归模型，下面的那个选项最精确地描述了新的线性模型？

A) 它将有相同的R2值和bi上相同的置信度为95%的置信区间

B) 它将有一个更高的R2值和bi上相同的置信度为95%的置信区间

C) 它将有相同的R2值和bi上更窄的置信度为95%的置信区间

D) 它将有一个更高的R2值和bi上更窄的置信度为95%的置信区间

E) 以上描述都不正确

Clustering Models（聚类模型）

有N个数据点p1，p2，…，pN，每一个数据点包含了m个协变量x1，x2，…，xm和一个反应变量y。用这N个数据点，根据x1，x2，…，xm和对应的系数b1，b2，…，bm，你估算一个变量y的线性回归模型。假设你复制所有pj（1 <= j <=N ）得到2N个数据点，那么相比于原来的线性回归模型，下面的那个选项最精确地描述了新的线性模型？

A) 它将有相同的R2值和bi上相同的置信度为95%的置信区间

B) 它将有一个更高的R2值和bi上相同的置信度为95%的置信区间

C) 它将有相同的R2值和bi上更窄的置信度为95%的置信区间

D) 它将有一个更高的R2值和bi上更窄的置信度为95%的置信区间

E) 以上描述都不正确

Python

在Python里，你有一个pandas二维表df ，其中特征a有一些数据丢失。你想要将丢失的数值设置成已有数据的中位数。请问下面的哪行代码可以实现这个目标？

A) df['a'].fillna('a').median()

B) df['a'].fillna('a', method = 'median')

C) df.fillna('a', method = 'median')

D) df['a'] = df['a'].fillna(df['a'].median())

E) df['a'] = df.fillna(df['a'], value = median())

返回首页

活动解释权归主办方所有

无忧工作网版权所有©1999-