Python机器学习及实践

  • 机器学习是人工智能的分支

Tom Mitchell

如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认定为是“具备学习能力的”,那么他一定需要展现出:利用现有的经验(E),不段改善其完成既定任务(T)的性能的特质(P)
经典的三个术语:任务(Task),经验(Experience),性能(Performance)

Generalization(泛化力):对未知的预测能力

Task

两类经典的任务:
Supervised Learning & Unsupervised Learning

监督学习:通常关注对事物未知表现的预测,分类问题(Classification)和回归问题(Regression)
无监督学习:倾向于对事物本身特性的分析,数据降维(Dimensionality Reduction)和聚类(Clustering)

Experience

一般情况下,数据被看作经验。但实际情况是对学习任务有用的特定信息才会有用
相关概念有特征、训练集
特征:反映数据内在规律的信息

经验包括特征和标记(或者目标) Feature和Label(Target)
无监督学习的经验没有Label

原始数据到特征向量:类别型(Categorical)特征、数值型(numerical)特征,甚至Missing Value缺失值

Performance

评价任务完成质量的指标,测试集的作用
分类可能关注准确度,回归可以关心偏差

对于机器学习来说,数据预处理最浪费时间,所以一些好用的包:pandas、numpy、matplotlib、scikit-learn、Scipy

发表评论

电子邮件地址不会被公开。