Python fit(dataframe)返回ValueError:以10为基数的long()的文本无效

Python fit(dataframe)返回ValueError:以10为基数的long()的文本无效,python,numpy,pandas,scikit-learn,Python,Numpy,Pandas,Scikit Learn,我正在尝试将Pandas数据帧转换为NumPy数组,以使用Sklearn创建一个模型。我将在这里简化这个问题 >>> mydf.head(10) IdVisita 445 latam 446 NaN 447 grados 448

我正在尝试将Pandas数据帧转换为NumPy数组,以使用Sklearn创建一个模型。我将在这里简化这个问题

>>> mydf.head(10)
IdVisita
445                                  latam
446                                    NaN
447                                 grados
448                                 grados
449                                eventos
450                                eventos
451         Reescribe-medios-clases-online
454                             postgrados
455                             postgrados
456                             postgrados
Name: cat1, dtype: object

>>> from sklearn import preprocessing
>>> enc = preprocessing.OneHotEncoder()
>>> enc.fit(mydf)
回溯:

ValueError                                Traceback (most recent call last)
<ipython-input-74-f581ab15cbed> in <module>()
      2 mydf.head(10)
      3 enc = preprocessing.OneHotEncoder()
----> 4 enc.fit(mydf)

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in fit(self, X, y)
    996         self
    997         """
--> 998         self.fit_transform(X)
    999         return self
   1000 

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in fit_transform(self, X, y)
   1052         """
   1053         return _transform_selected(X, self._fit_transform,
-> 1054                                    self.categorical_features, copy=True)
   1055 
   1056     def _transform(self, X):

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in _transform_selected(X, transform, selected, copy)
    870     """
    871     if selected == "all":
--> 872         return transform(X)
    873 
    874     X = atleast2d_or_csc(X, copy=copy)

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in _fit_transform(self, X)
   1001     def _fit_transform(self, X):
   1002         """Assumes X contains only categorical features."""
-> 1003         X = check_arrays(X, sparse_format='dense', dtype=np.int)[0]
   1004         if np.any(X < 0):
   1005             raise ValueError("X needs to contain only non-negative integers.")

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/utils/validation.pyc in check_arrays(*arrays, **options)
    279                     array = np.ascontiguousarray(array, dtype=dtype)
    280                 else:
--> 281                     array = np.asarray(array, dtype=dtype)
    282                 if not allow_nans:
    283                     _assert_all_finite(array)

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/numpy/core/numeric.pyc in asarray(a, dtype, order)
    460 
    461     """
--> 462     return array(a, dtype, copy=False, order=order)
    463 
    464 def asanyarray(a, dtype=None, order=None):

ValueError: invalid literal for long() with base 10: 'postgrados'
ValueError回溯(最近一次调用)
在()
2 mydf头(10)
3 enc=预处理。OneHotEncoder()
---->4附件尺寸(mydf)
/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in-fit(self,X,y)
996自我
997         """
-->998自拟合变换(X)
999返回自我
1000
/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in fit_transform(self,X,y)
1052         """
1053返回选定的变换(X,自拟合变换,
->1054 self.categorical_特征,copy=True)
1055
1056 def_变换(自,X):
/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in_transform_selected(X,transform,selected,copy)
870     """
871如果选择==“全部”:
-->872返回变换(X)
873
874 X=至少2D_或_csc(X,拷贝=拷贝)
/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in_-fit_-transform(self,X)
1001定义拟合变换(自,X):
1002“假定X只包含分类功能。”“”
->1003 X=检查数组(X,稀疏格式='dense',dtype=np.int)[0]
1004如果np.有(X<0):
1005 raise VALUETERROR(“X需要只包含非负整数。”)
/检查数组中的home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/utils/validation.pyc(*数组,**选项)
279数组=np.ascontiguousarray(数组,dtype=dtype)
280其他:
-->281数组=np.asarray(数组,dtype=dtype)
282如果不允许,则:
283断言所有有限(数组)
/asarray中的home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/numpy/core/numeric.pyc(a,数据类型,顺序)
460
461     """
-->462返回数组(a,数据类型,copy=False,order=order)
463
464 def asanyarray(a,数据类型=无,订单=无):
ValueError:以10为基数的long()的文本无效:“postgrados”
请注意,
IdVisita
是此处的索引,数字可能并非都是连续的


有什么线索吗?

您的错误是,您正在从文档中调用OneHotEncoder

此转换器的输入应为整数矩阵

但是您的df有一个单独的列“cat1”,它是dtype
object
,实际上是一个字符串

你应使用:


注意:我必须删除
NaN
行,因为这将引入一个不能用于排序的混合数据类型,例如float>str将不起作用一个更简单的方法是使用,它可以在同一步骤中转换为整数


将其与参数
DictVectorizer(sparse=False)
一起使用,可以在
fit_变换之后获取
DataFrame
,以继续使用Pandas。

您是否只有一个名为“cat1”的列?请尝试以下操作:
enc.fit(mydf.cat1.values)
从OneHotEncoder对整数数组进行编码,是否仅尝试对IdVista列进行编码?这里的问题是,这是您的索引,您只有一个名为“cat1”的列,它是一个字符串,您能澄清一下吗!OneHotEncoder对整数数组进行编码。我现在意识到,如果我想得到编码,我需要先通过LabelEncoder,然后是OneHotEncoder。或者直接使用DictVectorizer。请张贴,这样我就可以接受答案!但是,当您的分类数据没有顺序时,这是一个问题。通过使用LabelEncoder,您可以确定可能导致次优建模结果的顺序。Re:“DictVectorizer,它执行整数转换和OneHotEncoding”。。。这通常是不正确的。根据文档:“当特征值为字符串类型时,此转换器将只执行二进制一热编码。如果分类特征表示为数值,如int,则DictVectorizer后面可以跟着OneHotEncoder完成二进制一热编码。”
In [13]:

le = preprocessing.LabelEncoder()
le.fit(df.dropna().values)
le.classes_
C:\WinPython-64bit-3.3.3.2\python-3.3.3.amd64\lib\site-packages\sklearn\preprocessing\label.py:108: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().
  y = column_or_1d(y, warn=True)
Out[13]:
array(['Reescribe-medios-clases-online', 'eventos', 'grados', 'latam',
       'postgrados'], dtype=object)