机器学习的力量来源于其从大量数据中总结模式的能力。了解你的数据对于建立一个强大的机器学习系统是至关重要的。
一个例子:使用Facets Overview和Facets Dive分析UCI人口普查收入数据集,预测个人收入是否超过年收入5万美元。这个人口普查数据包括年龄、受教育程度、职业等特征。(见注释1)
Overview 可让用户快速了解他们的数据集中特征值的分布情况,揭露一些不常见和常见的问题,比如非预期的特征值、在大规模观测值中丢失的特征值、训练值和服务值的歪曲值以及训练/测试/合法集的歪曲值。
Dive 提供了一个互动的相互作用点,可以探索一个数据集内所有不同特征的数据点之间的关系。可视化中的每个个体项目代表一个数据点。按照“面”放置项目或者按它们的特征值在不同维度归置这些项目。成功运用Dive的情况包括检测到分类失败、辨识出系统错误、评价真实情况和潜在的排序新信号。
Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml/datasets/Census+Income]. Irvine, CA: University of California, School of Information and Computer Science
Quick, Draw! Dataset has been made available by Google, Inc. under the Creative Commons Attribution 4.0 International license.