Python 如何从Graphlab迁移到熊猫
我一直在学习Graphlab,但也想看看pandas,因为它是开源的,将来我可能会发现自己在一家没有GL许可证的公司,我想知道pandas会如何处理创建基本模型的问题,就像我使用GL一样Python 如何从Graphlab迁移到熊猫,python,pandas,scikit-learn,sklearn-pandas,graphlab,Python,Pandas,Scikit Learn,Sklearn Pandas,Graphlab,我一直在学习Graphlab,但也想看看pandas,因为它是开源的,将来我可能会发现自己在一家没有GL许可证的公司,我想知道pandas会如何处理创建基本模型的问题,就像我使用GL一样 data = pd.read_csv("~/Downloads/diamonds.csv") sframe = gl.SFrame(data) train_data, test_data = sframe.random_split(.8, seed=1) train, test = train_test_sp
data = pd.read_csv("~/Downloads/diamonds.csv")
sframe = gl.SFrame(data)
train_data, test_data = sframe.random_split(.8, seed=1)
train, test = train_test_split(data, train_size=0.75, random_state=88)
reg_model = gl.linear_regression.create(train_data, target="price", features=["carat","cut","color"], validation_set=None)
熊猫与上面最后一行的等价物是什么?
熊猫本身没有任何内置的预测模型(据我所知)。
在统计模型中
pandas
可能是Python中用于数据操作的最好(如果不是最好的话)模块之一。它将使存储数据和操作数据进行建模比列表和读取CSV等更容易
读取文件非常简单(请注意这是多么直观):
说出来:
# Excel
d1.to_excel(PATH_HERE)
# Need I go on again??
它还使数据的筛选和切片变得非常简单:
为了便于建模,请查看
用于文本分析。还有其他的,但这些是我用过的。对于建模,你必须使用sklearn库。最后一行等效值为:
model = sklearn.linear_model.LogisticRegression()
model.fit(train_data["carat","cut","color"], train_data["price"])
没有一个pandas
等价物。您可能希望使用另一个库,如sklearn
。我将添加标签。谢谢!我来看看scikit
model = sklearn.linear_model.LogisticRegression()
model.fit(train_data["carat","cut","color"], train_data["price"])