Facets - 了解你的数据

更好的数据引出更好的模型。

机器学习的力量来源于其从大量数据中总结模式的能力。了解你的数据对于建立一个强大的机器学习系统是至关重要的。

一个例子:使用Facets Overview和Facets Dive分析UCI人口普查收入数据集,预测个人收入是否超过年收入5万美元。这个人口普查数据包括年龄、受教育程度、职业等特征。(见注释1

Facets Overview

Overview 可从任何数量的数据集提取输入的特征数据,分析一个个特征并且把这些分析可视化。

Overview 可让用户快速了解他们的数据集中特征值的分布情况,揭露一些不常见和常见的问题,比如非预期的特征值、在大规模观测值中丢失的特征值、训练值和服务值的歪曲值以及训练/测试/合法集的歪曲值。

试一下
Facets Overview 总结了每个特征的统计数据并比较了训练和测试数据集。在两个数据集中都会容易地了解到值在6个数字的和9个类别的特质的分布情况。
用“排序”下拉菜单可以使特征按“分布距离”来排序。这种排序会把两个数据集中差别最大的特征排在表格最上面。“目标”是类别类特征表格中第一个特征。这个特征的图表显示了训练和测试数据集实际上使用了有轻微差别的标签(训练数据使用了“>50K” 而测试数据使用了 “>50K.” 请注意这一串期间)。这帮助我们发现了一个意料之外的训练数据和测试数据之间的差别。

导入本地数据

导入一个或多个以你的表头信息作为第一行的CSV文件

Facets Dive

Dive 是一种同时间进行大量数据点互动探索的工具。

Dive 提供了一个互动的相互作用点,可以探索一个数据集内所有不同特征的数据点之间的关系。可视化中的每个个体项目代表一个数据点。按照“面”放置项目或者按它们的特征值在不同维度归置这些项目。成功运用Dive的情况包括检测到分类失败、辨识出系统错误、评价真实情况和潜在的排序新信号。

试一下
Dive 可视化显示了在训练数据集中的每一个单独项目。点击一个单独项目可以展现代表该记录的特征的线索/值配对;值可以是串或数字。
通过使用左边的菜单,你可以改变数据整理的方式、从而深入了解这个数据集。使用“Faceting”菜单可以对一排“Faceting”进行“Education-num”排序。使用“Color”菜单可以按“Target”进行颜色标示。这显示出更高水平的受教育程度是如何与个人是否达成年收入5万美金相关联的。

导入本地数据

导入一个或多个以你的表头信息作为第一行的CSV文件

FACETS DIVE x QUICK, DRAW!

Facets Dive x Quickdraw

注释

Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml/datasets/Census+Income]. Irvine, CA: University of California, School of Information and Computer Science


Quick, Draw! Dataset has been made available by Google, Inc. under the Creative Commons Attribution 4.0 International license.