数据科学中的探索性

admin 2025-08-25 阅读:69 评论:0
数据科学中的探索性数据分析(DEA)介绍 数据科学爱好者知道,在将原始数据输入到机器学习模型以解决实际问题之前,需要对其进行大量处理。为此,需要遵循一系列步骤来准备和格式化数据whatsapp登录,具体取决于手头问题的类型(回归或分类)。这...

数据科学中的探索性数据分析(DEA)介绍

数据科学爱好者知道,在将原始数据输入到机器学习模型以解决实际问题之前,需要对其进行大量处理。为此,需要遵循一系列步骤来准备和格式化数据whatsapp登录,具体取决于手头问题的类型(回归或分类)。这个过程的一个主要部分涉及以所有可能的方式评估数据集,以找到有价值的相关性(彼此和目标之间的特征依赖性)并排除噪声(不一致或异常值,即不合格的数据点)。要探索任何数据集,Python 是可用的最强大的数据分析工具之一,此外,还有同样强大的 Python 库可以更好地可视化数据。

因此,为了使数据更有意义或从可用数据中提取更多价值,必须快速解释和分析它。这是 Python 的数据可视化库通过生成图形表示和让数据说话来节省一天的地方。通过这种方式,我们可以发现大量数据背后所有可能的趋势和模式。

今天,数据科学和机器学习不仅仅适用于具有强大计算机科学背景的人。相反,欢迎来自不同行业的专业人士对数据有着相同的热情,尽管他们具有一些统计知识,但这种趋势正在增加。这就是为什么来自不同背景和教育背景的人倾向于尝试数据科学和人工智能必须提供的东西。

但是对于刚刚开始使用机器学习的初学者来说whatsapp官网,理解数据的选择太多是具有挑战性的,有时甚至是压倒性的。我们都希望我们的数据看起来很漂亮并且可以展示,以便更快地做出决策。总体而言,EDA 可能是一个耗时的过程,因为我们仔细查看多个图以找出哪些特征是重要的并对结果产生重大影响。此外,我们寻找方法来处理缺失值和/或异常值、修复数据集中的不平衡以及许多此类具有挑战性的任务。因此,在选择满足 EDA 需求的最佳库时,这是一个艰难的选择。因此,对于任何开始机器学习之旅的人来说,从自动化 EDA 库开始都是一种很好的学习体验。这些库提供了良好的数据整体视图,并且易于使用。只需几行简单的 Python 代码,这些库就可以节省时间,并使新手能够更加专注于了解如何使用这些不同的图来理解数据。但是,初学者肯定需要对这些库生成的图有基本的了解。

在本文中,我们将为初学者讨论三个有趣的自动 EDA Python 库。对于这个初学者友好的教程,我们将使用来自 sklearn 的内置“iris”数据集。

我们将首先导入包和库

#loading the dataset
from sklearn import datasets
import pandas as pd
print("pandas:",pd.__version__)

pandas: 1.3.2

data = datasets.load_iris()
df = pd.Datafr ame(data.data,columns=data.feature_names)
df['target'] = pd.Series(data.target)
df.head()

sepal length (cm)sepal width (cm)petal length (cm)petal width (cm)target

5.1

3.5

1.4

0.2

4.9

3.0

1.4

0.2

4.7

3.2

1.3

0.2

4.6

3.1

1.5

0.2

5.0

3.6

1.4

0.2

如果我们不使用 AutoEDA,这里有一个通常用于 EDA 的命令列表,用于打印有关 Datafr ame/数据集的不同信息(不一定按相同的顺序)。

df.head() – 前五行

df.tail() – 最后五行

df.describe() – 有关数据集的百分位数、平均值、标准偏差等的基本统计信息

df.info() – 数据集摘要

df.shape() – 数据集中的观察值和变量的数量,即数据的维度

df.dtypes() – 变量的数据类型(int、float、ob ject、datetime)

df.unique()/df.target.unique() – 数据集/目标列中的唯一值

df

‘target’

.value_counts() – 分类问题的目标变量分布

df.isnull().sum()- 计算数据集中的空值

df.corr() – 相关信息

等等…

查看我们必须使用多少命令才能在数据中找到洞察力。AutoEDA 库可以通过几行 Python 代码快速完成所有这些以及更多工作。但在我们开始之前,让我们先检查安装的 Python 版本,因为这些库需要 Python >=3.6。要获取版本信息,请在 Colab 中使用以下命令。,

# python version
import sys
sys.version

'3.7.6 (default, Jan  8 2020, 19:59:22) \n[GCC 7.3.0]'

确认好了符合条件的Python 版本,现在就可以自动进行EDA探索数据分析。

1. Pandas Profiling 3.0.0

import pandas_profiling
print("pandas_profiling:",pandas_profiling.__version__)

pandas_profiling: 3.0.0

从报告中,初学者可以很容易地理解 iris 数据集中有 5 个变量——4 个数字变量,结果变量是分类变量。此外,数据集中有 150 个样本并且没有缺失值。

#Generating PandasProfiling Report
report = pandas_profiling.ProfileReport(df)
report

2. Sweetviz 2.1.3

这也是一个开源 Python 库,仅使用两行代码即可执行深入风格的 EDA。该库为数据集生成的报告以 .html 文件形式提供,可以在任何浏览器中打开。使用 Sweetviz,我们可以检查 –

数据集特征如何与目标值相关联

可视化测试和训练数据并比较它们。我们可以使用analyze()、compare() 或compare_intra() 来评估数据并生成报告。

绘制数值和分类变量的相关性

总结有关缺失值、重复数据条目和频繁条目的信息以及数值分析whatsapp网页版登录,即解释统计值

与前面的部分类似,我们将首先导入 pandas 来读取和处理数据集。

接下来,我们只需导入 sweetviz 来探索数据。

import sweetviz as sv
print("sweetviz :",sv.__version__)

sweetviz : 2.1.3

这就是经典的的 Sweetviz 报告的样式

#Generating Sweetviz report
report = sv.analyze(df)
report.show_html("iris_EDA_report.html") # specify a name for the report

                                             |          | [  0%]   00:00 -> (? left)
Report iris_EDA_report.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.

生成的这些 .html 报告您可以在当前目录下找到,然后可以在浏览器中打开报告。

3. AutoViz 0.0.83

另一个开源 Python EDA 库,只需一行代码即可快速分析任何数据。

# pip install autoviz
# pip install wordcloud

from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()

Imported AutoViz_Class version: 0.0.84. Call using:
    AV = AutoViz_Class()
    AV.AutoViz(filename, sep=',', depVar='', dfte=None, header=0, verbose=0,
                            lowess=False,chart_format='svg',max_rows_analyzed=150000,max_cols_analyzed=30)
Note: verbose=0 or 1 generates charts and displays them in your local Jupyter notebook.
      verbose=2 does not show plot but creates them and saves them in AutoViz_Plots directory in your local machine.

由于我们使用的是库中的数据集,因此我们使用 ‘dfte’ 选项而不是 EDA 的文件名。

#Generating AutoViz Report #this is the default command when using a file for the dataset
filename = ""
sep = ","
dft = AV.AutoViz(
    filename,
    sep=",",
    depVar="",
    dfte=None,
    header=0,
    verbose=0,
    lowess=False,
    chart_format="svg",
    max_rows_analyzed=150000,
    max_cols_analyzed=30,
    )

Dataname input must be a filename with path to that file or a Datafr ame
Not able to read or load file. Please check your inputs and try again...

#Generating AutoViz Report
filename = "" # empty string ("") as filename since no file is being used for the data
sep = ","
dft = AV.AutoViz(
    '',
    sep=",",
    depVar="",
    dfte=df,
    header=0,
    verbose=0,
    lowess=False,
    chart_format="svg",
    max_rows_analyzed=150000,
    max_cols_analyzed=30,
     )

Shape of your Data Set loaded: (150, 5)
############## C L A S S I F Y I N G  V A R I A B L E S  ####################
Classifying variables in data set...
    Number of Numeric Columns =  4
    Number of Integer-Categorical Columns =  1
    Number of String-Categorical Columns =  0
    Number of Factor-Categorical Columns =  0
    Number of String-Boolean Columns =  0
    Number of Numeric-Boolean Columns =  0
    Number of Discrete String Columns =  0
    Number of NLP String Columns =  0
    Number of Date Time Columns =  0
    Number of ID Columns =  0
    Number of Columns to Delete =  0
    5 Predictors classified...
        This does not include the Target column(s)
        No variables removed since no ID or low-information variables found in data set
Number of All Scatter Plots = 10

exploratory data analysis python libraries_automated eda tools for beginners_什么是探索性数据分析

什么是探索性数据分析_exploratory data analysis python libraries_automated eda tools for beginners

automated eda tools for beginners_什么是探索性数据分析_exploratory data analysis python libraries

什么是探索性数据分析_exploratory data analysis python libraries_automated eda tools for beginners

automated eda tools for beginners_什么是探索性数据分析_exploratory data analysis python libraries

什么是探索性数据分析_automated eda tools for beginners_exploratory data analysis python libraries

Time to run AutoViz (in seconds) = 6.979
 ###################### VISUALIZATION Completed ########################

AutoViz 报告包括有关数据集形状的信息以及所有可能的图表,包括条形图、小提琴图、相关矩阵(热图)、配对图等。所有这些信息与一行代码肯定对任何初学者都有用。

因此,我们使用三个 AutoEDA 库以最少的代码自动化了一个小数据集的数据分析。以上所有代码都可以在原文链接中访问。

结语

从初学者的角度来看,Pandas Profiling、Sweetviz 和 AutoViz 似乎是最简单的生成报告以及呈现数据集洞察力的工具。在开始做数据探索时,我经常使用这些库以最少的代码快速发现有趣的数据规律和趋势。

希望对你有用!

参考:

https://pypi.org/project/pandas-profiling/

by:2021.8.9

https://pypi.org/project/sweetviz/

by:2021.8.9

https://pypi.org/project/autoviz/

by:2021.8.9

相关帖子DA内容精选

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

3502文章数 0评论数
热门文章
  • 详细指南:WhatsApp国内使用方法全攻略-下载安装、注册登录及功能使用攻略

    详细指南:WhatsApp国内使用方法全攻略-下载安装、注册登录及功能使用攻略
    一、下载与安装WhatsApp WhatsApp是一款全球使用范围极广的即时通讯软件,不仅可以实现文本聊天,还能进行语音、视频通话WhatsApp中文版,发送文件等功能。由于众所周知的原因,国内用户想要下载和安装WhatsApp可能会遇到一些困难。不过,只要按照以下步骤操作,就能顺利完成WhatsApp的下载和安装。 首先,我们需要解决的是下载问题。由于WhatsApp在国内的应用商店无法直接下载,所以我们需要寻找其他的下载途径。Android用户可以选择到各大安卓市场搜索下...
  • 苹果IOS5.1.1机完美越狱

    苹果IOS5.1.1机完美越狱
    越狱工具下载:(需手动复制: http://bbs./read-htm-tid-4804612.html ) 详细的越狱教程: Absinthe 2.0.4的越狱方法与Absinthe 1.0的越狱方法完全一样,非常简单的“傻瓜一键式”。不过这里绿毒有说明,最好重新刷固件。支持越狱设备IOS5.1.1的固件下载地址请点击本站的IOS固件下载,看下图: 下载完固件之后,把设备连接iTunes,开始刷固件。你也可以选择不刷,但是在越狱的过程之中,新的系统在越狱时会比较的顺利,...
  • 电脑微信的聊天照片文件在哪里微信图片保存电脑哪个文件夹

    电脑微信的聊天照片文件在哪里微信图片保存电脑哪个文件夹
    1. 怎么找到微信聊天图片在哪个文件夹里 图片保存路径:/storage/emulated/tencent/MicroMsg/WeiXin/文件夹,这个是完整路径。而在文件夹中只需要找到/tencent/MicroMsg/WeiXinWhatsApp中文版,就可以了,前面两个文件夹是系统根目录。以下是保存及查找图片的方法步骤介绍。 第一步、找到桌面的微信APP,直接点击打开这个微信的APP。 2. 电脑微信图片保存在哪个文件夹 个人微信文件夹。 电脑版微信聊天的图片,都保存到...
  • Windows 11版WhatsApp将从UWP/Native切换回WebView2打包模式

    Windows 11版WhatsApp将从UWP/Native切换回WebView2打包模式
    Meta(最近更名为 Meta AI)悄然宣布,WhatsApp 将在 Windows 11 上放弃 UWP(WinUI)WhatsApp中文版,退回采用基于 Chromium 的容器。这意味着 WhatsApp 又回到了几年前的样子。由于 web.whatsapp.com 一直领先于 Windows 应用开发,它确实拥有一些新功能,但速度更慢,占用更多内存。 如果独立开发者因为无力维护所有平台的代码库而选择 Web 应用程序,那是一回事,但当像 Meta 这样价值万亿美元...
  • 小米下載WhatsApp的完整指南:安装与使用注意事项

    小米下載WhatsApp的完整指南:安装与使用注意事项
    综上所述,确保您的小米手机具备以上条件,将有助于您顺利下载和安装WhatsApp,享受便捷的通讯服务。在满足这些条件后,您就可以按照后续步骤进行WhatsApp的下载和安装。 2. 下载和安装WhatsApp的具体步骤 在小米手机上下载和安装WhatsApp的具体步骤相对简单,但需注意一些特殊情况。首先,确保你的手机系统已更新到最新版本,以保证最佳的兼容性。由于安卓手机商店内无法直接找到WhatsApp,你可以通过APKPure等第三方应用商店进行下载。打开APKPure应用...