描述统计与回归分析概述

Nov 6, 2024, 5:28 AM

想要描述统计和回归性分析

描述统计
描述统计是用于总结和描述数据集的基本特征的一组统计方法。它们提供了数据的简单概述,通常包括以下几个方面:
  1. 集中趋势
    • 均值 (Mean):数据的平均值。
    • 中位数 (Median):将数据排序后位于中间的值。
    • 众数 (Mode):数据集中出现频率最高的值。
  2. 离散程度
    • 方差 (Variance):数据的离散程度的度量。
    • 标准差 (Standard Deviation):方差的平方根,表示数据的平均偏离程度。
    • 范围 (Range):数据集中最大值与最小值的差。
  3. 分布形状
    • 偏度 (Skewness):描述数据分布的对称性。
    • 峰度 (Kurtosis):描述数据分布的尖峰程度。
描述统计帮助我们快速了解数据的基本特征和分布情况。

回归分析
回归分析是一种统计方法,用于研究因变量(目标变量)和一个或多个自变量(预测变量)之间的关系。它的主要目的是预测因变量的值,并解释自变量对因变量的影响。常见的回归分析方法包括:
  1. 线性回归 (Linear Regression)
    • 假设因变量和自变量之间的关系是线性的。
    • 通过最小二乘法拟合一条直线来预测因变量。
  2. 多元线性回归 (Multiple Linear Regression)
    • 扩展线性回归,考虑多个自变量。
  3. 逻辑回归 (Logistic Regression)
    • 用于二分类问题,预测因变量为某一类别的概率。
  4. 多项式回归 (Polynomial Regression)
    • 适用于因变量和自变量之间的关系为非线性的情况。
回归分析在经济学、工程学、社会科学等领域有广泛应用,帮助我们理解变量之间的关系并进行预测。

286802743_按序号_“网红”参与企业社会责任倡议对消费者行为的影响_207_206(1).xlsx

Missing file

分析这个

The descriptive statistics for the dataset have been calculated. Here are some key insights:
  • Mean (Average) Scores: The average score across all respondents is approximately 34.86.
  • Age: The average age category is around 2.72, indicating most respondents are likely in the younger age brackets.
  • Gender: The average gender value is 1.68, suggesting a balanced gender distribution.
  • Social Media Usage: On average, respondents spend about 2.96 hours on social media daily.
  • Familiarity with Influencers: The average familiarity score is 1.44, indicating that many respondents are familiar with influencers.
Next, let's perform a regression analysis to understand the relationship between the variables. We will use linear regression to see how different factors influence the total score.
The dataset contains a variety of columns related to consumer behavior and perceptions regarding Nike's CSR initiatives and influencer marketing. Here are some key columns:
  • 总分: Total score given by the respondents.
  • 1、您的性别:: Gender of the respondent.
  • 2、您的年龄:: Age of the respondent.
  • 3、您的教育背景:: Educational background of the respondent.
  • 4、您每天使用社交媒体的时间是:: Daily social media usage time.
  • 5、请问您是否有熟悉的网红达人?: Familiarity with influencers.
  • 6、请问您对“企业社会责任”这一概念的了解程度是?: Understanding of corporate social responsibility.
  • 21、我愿意为耐克运动鞋支付比其他品牌更多的费用。: Willingness to pay more for Nike shoes compared to other brands.
Next, let's perform a regression analysis to understand how these factors influence the total score. We will use linear regression to see how different factors influence the total score.
The linear regression analysis has been completed. Here are the results:
  • R-squared Value: The R-squared value is approximately 0.299, indicating that about 29.9% of the variability in the total score can be explained by the model.
  • Coefficients:
    • Gender: 0.117
    • Age: 0.262
    • Education: -0.478
    • Social Media Usage: 0.258
    • Familiarity with Influencers: -1.915
    • Understanding of CSR: 3.414
These coefficients suggest that understanding of CSR has the most significant positive impact on the total score, while familiarity with influencers has a negative impact.
If you have any more questions or need further analysis, feel free to ask!

我的研究主题是网红参与企业社会责任倡议对消费者行为的影响,帮我从数据里分析相关的部分,生成图表以及用中文版表达

我们已经生成了一个相关矩阵图表,以分析网红参与企业社会责任倡议对消费者行为的影响。以下是一些关键点:
  • 总分与各个变量之间的相关性:
    • 熟悉网红达人与总分的相关性较低。
    • 对企业社会责任的了解程度与总分有较高的正相关性。
    • 网红形象的吸引力、可信度和专业性也与总分有一定的正相关性。
这个图表帮助我们理解不同因素之间的关系,尤其是网红的形象和企业社会责任对消费者行为的影响。
如果您需要进一步的分析或其他图表,请随时告诉我!

图表分开生成,要回归性分析和验证。

我们已经生成了多个图表来分析网红参与企业社会责任倡议对消费者行为的影响:
  1. 熟悉网红达人 vs 总分:显示了消费者对网红达人的熟悉程度与其总评分之间的关系。
  2. 了解企业社会责任 vs 总分:展示了消费者对企业社会责任的了解程度与总评分之间的关系。
  3. 网红吸引力 vs 总分:分析了网红的吸引力与消费者总评分之间的关系。
  4. 网红可信度 vs 总分:展示了网红的可信度与总评分之间的关系。
  5. 网红专业性 vs 总分:分析了网红的专业性与消费者总评分之间的关系。
这些图表帮助我们更直观地理解不同因素对消费者行为的影响。
接下来,我们可以进行回归分析来验证这些关系的显著性。

想要每个与主题相关的部分和问题单独分析并独立的生成图表

对这个结果进行检验分析

我们对回归模型的预测结果进行了检验分析,得到以下结果:
  • 均方误差 (MSE): 34.39
  • 平均绝对误差 (MAE): 4.86
这些误差指标帮助我们评估模型的预测准确性。较低的误差值通常表示模型的预测能力较好。在这种情况下,模型的误差值表明预测与实际值之间存在一定的偏差。
如果您有更多问题或需要进一步的分析,请随时告诉我!

帮我做更详细的回归检验并得出结论

我们进行了详细的回归分析,以下是结果的总结:

回归模型结果

  • R-squared: 0.852
    • 这表明模型解释了约85.2%的总分变异。
  • 调整后的R-squared: 0.848
    • 调整后的R-squared值考虑了模型中变量的数量,略低于R-squared。
  • F-statistic: 229.5, Prob (F-statistic): 8.45e-81
    • F统计量及其对应的p值表明模型整体显著。

各变量的系数和显著性

  • 熟悉网红达人: 0.9403, p-value: 0.000
    • 该变量对总分有显著正向影响。
  • 了解企业社会责任: 1.3817, p-value: 0.000
    • 该变量对总分有显著正向影响。
  • 网红吸引力: 1.7739, p-value: 0.000
    • 该变量对总分有显著正向影响。
  • 网红可信度: 2.8563, p-value: 0.000
    • 该变量对总分有显著正向影响。
  • 网红专业性: 3.0441, p-value: 0.000
    • 该变量对总分有显著正向影响。

结论

所有变量在统计上都显著影响总分,且均为正向影响。这表明消费者对网红的熟悉程度、对企业社会责任的了解、以及对网红的吸引力、可信度和专业性评价越高,其总评分越高。
如果您有任何进一步的问题或需要其他分析,请告诉我!
Get started with Vizly