如何用Python在10分钟内建立一个预测模型

供稿：hz-xin.com 日期：2025-01-14

Python用户数量上涨及其本身的简洁性，使得这个工具包对数据科学世界的Python专家们变得有意义。本文将帮助你更快更好地建立第一个预测模型。
绝大多数优秀的数据科学家和kagglers建立自己的第一个有效模型并快速提交。这不仅仅有助于他们领先于排行榜，而且提供了问题的基准解决方案。

　　预测模型的分解过程
　　我总是集中于投入有质量的时间在建模的初始阶段，比如，假设生成、头脑风暴、讨论或理解可能的结果范围。所有这些活动都有助于我解决问题，并最终让我设计出更强大的商业解决方案。为什么你要在前面花费这段时间，这有充分的理由：
　　你有足够的时间投入并且你是无经验的（这是有影响的）
　　你不带有其它数据观点或想法的偏见（我总是建议，在深入研究数据之前做假设生成）
　　在后面的阶段，你会急于完成该项目而没有能力投入有质量的时间了。
　　这个阶段需要投入高质量时间，因此我没有提及时间表，不过我建议你把它作为标准的做法。这有助于你建立建立更好地预测模型，在后面的阶段的只需较少的迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表：
　　数据描述性分析——50%的时间
　　数据预处理（缺失值和异常值修复）——40%的时间
　　数据建模——4%的时间
　　性能预测——6%的时间
　　让我们一步一步完成每个过程（每一步投入预测的时间）：
　　阶段1：描述性分析/数据探索
　　在我刚开始成为数据科学家的时候，数据探索占据了我大量的时间。不过，随着时间的推移，我已经把大量的数据操作自动化了。由于数据准备占据建立第一个模型工作量的50%，自动化的好处是显而易见的。
　　这是我们的第一个基准模型，我们去掉任何特征设计。因此，描述分析所需的时间仅限于了解缺失值和直接可见的大的特征。在我的方法体系中，你将需要2分钟来完成这一步（假设，100000个观测数据集）。
　　我的第一个模型执行的操作：
　　确定ID，输入特征和目标特征
　　确定分类和数值特征
　　识别缺失值所在列
　　阶段2：数据预处理（缺失值处理）
　　有许多方法可以解决这个问题。对于我们的第一个模型，我们将专注于智能和快速技术来建立第一个有效模型。
　　为缺失值创建假标志：有用，有时缺失值本身就携带了大量的信息。
　　用均值、中位数或其它简单方法填补缺失值：均值和中位数填补都表现良好，大多数人喜欢用均值填补但是在有偏分布的情况下我建议使用中位数。其它智能的方法与均值和中位数填补类似，使用其它相关特征填补或建立模型。比如，在Titanic生存挑战中，你可以使用乘客名字的称呼，比如：“Mr.”, “Miss.”,”Mrs.”,”Master”，来填补年龄的缺失值，这对模型性能有很好的影响。
　　填补缺失的分类变量：创建一个新的等级来填补分类变量，让所有的缺失值编码为一个单一值比如，“New_Cat”，或者，你可以看看频率组合，使用高频率的分类变量来填补缺失值。
　　由于数据处理方法如此简单，你可以只需要3到4分钟来处理数据。
　　阶段3：数据建模
　　根据不同的业务问题，我推荐使用GBM或RandomForest技术的任意一种。这两个技术可以极其有效地创建基准解决方案。我已经看到数据科学家通常把这两个方法作为他们的第一个模型同时也作为最后一个模型。这最多用去4到5分钟。
　　阶段4：性能预测
　　有各种各样的方法可以验证你的模型性能，我建议你将训练数据集划分为训练集和验证集（理想的比例是70：30）并且在70%的训练数据集上建模。现在，使用30%的验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要1到2分钟执行和记录结果。
　　本文的目的不是赢得比赛，而是建立我们自己的基准。让我们用python代码来执行上面的步骤，建立你的第一个有较高影响的模型。
　　让我们开始付诸行动
　　首先我假设你已经做了所有的假设生成并且你擅长使用python的基本数据科学操作。我用一个数据科学挑战的例子来说明。让我们看一下结构：
　　步骤1：导入所需的库，读取测试和训练数据集。
　　#导入pandas、numpy包，导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数
　　import pandas as pd
　　import numpy as np
　　fromsklearn.preprocessing import LabelEncoder
　　import random
　　fromsklearn.ensemble import RandomForestClassifier
　　from sklearn.ensembleimport GradientBoostingClassifier
　　#读取训练、测试数据集
　　train=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv')
　　test=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv')
　　#创建训练、测试数据集标志
　　train='Train'
　　test='Test'
　　fullData =pd.concat(,axis=0) #联合训练、测试数据集
　　步骤2：该框架的第二步并不需要用到python，继续下一步。
　　步骤3：查看数据集的列名或概要
　　fullData.columns # 显示所有的列名称
　　fullData.head(10) #显示数据框的前10条记录
　　fullData.describe() #你可以使用describe()函数查看数值域的概要
　　步骤4：确定a)ID变量 b)目标变量 c)分类变量 d)数值变量 e)其他变量。
　　ID_col =
　　target_col =
　　cat_cols =
　　num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))
　　other_col= #为训练、测试数据集设置标识符
　　步骤5：识别缺失值变量并创建标志
　　fullData.isnull().any()#返回True或False，True意味着有缺失值而False相反
　　num_cat_cols = num_cols+cat_cols # 组合数值变量和分类变量
　　#为有缺失值的变量创建一个新的变量
　　# 对缺失值标志为1，否则为0
　　for var in num_cat_cols:
　　if fullData.isnull().any()=True:
　　fullData=fullData.isnull()*1
　　步骤6：填补缺失值
　　#用均值填补数值缺失值
　　fullData = fullData.fillna(fullData.mean(),inplace=True)
　　#用-9999填补分类变量缺失值
　　fullData = fullData.fillna(value = -9999)
　　步骤7：创建分类变量的标签编码器，将数据集分割成训练和测试集，进一步，将训练数据集分割成训练集和测试集。
　　#创建分类特征的标签编码器
　　for var in cat_cols:
　　number = LabelEncoder()
　　fullData = number.fit_transform(fullData.astype('str'))
　　#目标变量也是分类变量，所以也用标签编码器转换
　　fullData = number.fit_transform(fullData.astype('str'))
　　train=fullData='Train']
　　test=fullData='Test']
　　train = np.random.uniform(0, 1, len(train)) <= .75
　　Train, Validate = train=True], train=False]
　　步骤8：将填补和虚假（缺失值标志）变量传递到模型中，我使用随机森林来预测类。
　　features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))
　　x_train = Train.values
　　y_train = Train.values
　　x_validate = Validate.values
　　y_validate = Validate.values
　　x_test=test.values
　　random.seed(100)
　　rf = RandomForestClassifier(n_estimators=1000)
　　rf.fit(x_train, y_train)
　　步骤9：检查性能做出预测
　　status = rf.predict_proba(x_validate)
　　fpr, tpr, _ = roc_curve(y_validate, status)
　　roc_auc = auc(fpr, tpr)
　　print roc_auc
　　final_status = rf.predict_proba(x_test)
　　test=final_status
　　test.to_csv('C:/Users/Analytics Vidhya/Desktop/model_output.csv',columns=)
　　现在可以提交了！

看一下这个网页
http://bigdatadigest.baijia.baidu.com/article/307995
如何用Python在10分钟内建立一个预测模型

如何用python画冰墩墩?
随着北京冬奥会的开幕，吉祥物“ 冰墩墩”可是火出了圈，销售“ 冰墩墩”的店铺排起了长龙，用python可以绘画冰墩墩吗？当然是可以的。很多小伙伴在求python代码，下面就是源码啦，大家赶紧用python实现冰墩墩吧，彻底实现一人一墩。一、python实现冰墩墩步骤：1、安装python环境；2、在桌面创建文本文件，将...

如何用python搭建一个最简单的Web服务器
用Python建立最简单的web服务器利用Python自带的包可以建立简单的web服务器。在DOS里cd到准备做服务器根目录的路径下，输入命令：python -m Web服务器模块 [端口号，默认8000]例如：python -m SimpleHTTPServer 8080 然后就可以在浏览器中输入 http:\/\/localhost:端口号\/路径来访问服务器资源。例如...

手把手教你用Python创建SQL数据库~
本文将引导你从零开始，利用Python和相关库创建自己的MySQL数据库。通过使用Python脚本和一些外部库，你将能够自动创建并填充包含随机数据的表格，从而在无需外部数据库的情况下练习SQL查询。首先，了解一些基本设置。你需要安装MySQL Workbench并建立数据库连接。同时，确保安装了必要的Python库，包括NumPy、Sql...

python在线网站(python网站)
希望对在大学里学习Python课程的同学，或者新手学习Python提供帮助。如何用Python搭建一个网站？Python搭建网站，利用现成的框架还是挺简单的。在这滑咐里举一个例子-利用Flask搭建一个网站。Flask Flask是一个使用Python编写的轻量级Web应用框架。其WSGI工具箱采用Werkzeug，模板引擎则使用Jinja2。Flask创建一个...

如何用python做界面输入框?
4、界面画好后，点击设置界面按钮，相当于保存确定操作。5、双击刚才我们建立的文本框，可以自动跳转到脚本界面，并且还会自动写两行代码，代码里面就可以对输入框进行操作了。6、直接用Excel表格进行测试，读取一个测试Excel表格的数据。将制定文档的数据读取到椭圆所框选的地方，就是文本输入框里面。接...

利用python语言在F盘创建一个文件夹’python+file’,并在此文件夹中建 ...
要在F盘创建一个名为“python+file”的文件夹，可以使用 Python 的 os 模块中的 mkdir 函数。例如：然后，可以使用 os 模块中的 open 函数来创建十个文件。例如：这样，就可以在F盘的“python+file”文件夹中创建十个文件。

python主要用来干嘛
Python适合财务、设计、运营、策划、销售、HR、金融从业者、电商从业者学习，所设计的行业五花八门。从以上也能看出来，python是很强大的一门语言，可以做：1.系统编程;2.图形处理;3.数学处理;4.文本处理;5.数据库编程;6.网络编程;7.Web编程;8.多媒体应用;9.pymo引擎;10.黑客编程;11.用Python写...

python可以用来干什么
9、pymo引擎：这是一款运行于Symbian S60V3,Symbian3,S60V5, Symbian3, Android系统上的AVG游戏引擎。因其基于python2.0平台开发，并且适用于创建秋之回忆(memories off)风格的AVG游戏，故命名为PYMO。可以开发一些手机上的软件。10、黑客编程：python有一个hack的库，可以大大减少编程的工作量，很多本来很...

实例| 教你用Python写一个电信客户流失预测模型
【导读】掌握如何利用Python构建电信客户流失预测模型，为业务提供关键洞察和策略支持。预测模型在电信行业具有重要意义，通过分析客户行为，识别潜在流失风险，为营销策略提供依据。1. 商业理解客户流失分析旨在理解为何客户停止使用产品或服务，常见原因包括产品兴趣丧失、服务质量不满等。电信公司尤其重视此指标...

10分钟入门爬虫-小说网站爬取
八爪鱼采集器是一款功能强大、操作简单的网页数据采集工具，可以帮助您快速实现小说网站的数据爬取。以下是一个简单的入门教程：1. 打开八爪鱼采集器，并创建一个新的采集任务。2. 在任务设置中，输入小说网站的网址作为采集的起始网址。3. 配置采集规则。可以使用智能识别功能，让八爪鱼自动识别小说网站...