2021数据马拉松初赛测评例题

Linear Modeling(线性建模)

有N个数据点p1,p2,…,pN,每一个数据点包含了m个协变量x1,x2,…,xm和一个反应变量y。用这N个数据点,根据x1,x2,…,xm和对应的系数b1,b2,…,bm,你估算一个变量y的线性回归模型。假设你复制所有pj(1 <= j <=N )得到2N个数据点,那么相比于原来的线性回归模型,下面的那个选项最精确地描述了新的线性模型?
A) 它将有相同的R2值和bi上相同的置信度为95%的置信区间
B) 它将有一个更高的R2值和bi上相同的置信度为95%的置信区间
C) 它将有相同的R2值和bi上更窄的置信度为95%的置信区间
D) 它将有一个更高的R2值和bi上更窄的置信度为95%的置信区间
E) 以上描述都不正确

Clustering Models(聚类模型)

有N个数据点p1,p2,…,pN,每一个数据点包含了m个协变量x1,x2,…,xm和一个反应变量y。用这N个数据点,根据x1,x2,…,xm和对应的系数b1,b2,…,bm,你估算一个变量y的线性回归模型。假设你复制所有pj(1 <= j <=N )得到2N个数据点,那么相比于原来的线性回归模型,下面的那个选项最精确地描述了新的线性模型?
A) 它将有相同的R2值和bi上相同的置信度为95%的置信区间
B) 它将有一个更高的R2值和bi上相同的置信度为95%的置信区间
C) 它将有相同的R2值和bi上更窄的置信度为95%的置信区间
D) 它将有一个更高的R2值和bi上更窄的置信度为95%的置信区间
E) 以上描述都不正确

Python

在Python里,你有一个pandas二维表df ,其中特征a有一些数据丢失。你想要将丢失的数值设置成已有数据的 中位数。请问下面的哪行代码可以实现这个目标?
A) df['a'].fillna('a').median()
B) df['a'].fillna('a', method = 'median')
C) df.fillna('a', method = 'median')
D) df['a'] = df['a'].fillna(df['a'].median())
E) df['a'] = df.fillna(df['a'], value = median())
返回首页