Python fit（dataframe）返回ValueError:以10为基数的long（）的文本无效_Python_Numpy_Pandas_Scikit Learn

Python fit（dataframe）返回ValueError:以10为基数的long（）的文本无效

python numpy pandas scikit-learn

Python fit（dataframe）返回ValueError:以10为基数的long（）的文本无效,python,numpy,pandas,scikit-learn,Python,Numpy,Pandas,Scikit Learn,我正在尝试将Pandas数据帧转换为NumPy数组，以使用Sklearn创建一个模型。我将在这里简化这个问题 >>> mydf.head(10) IdVisita 445 latam 446 NaN 447 grados 448

我正在尝试将Pandas数据帧转换为NumPy数组，以使用Sklearn创建一个模型。我将在这里简化这个问题

>>> mydf.head(10)
IdVisita
445                                  latam
446                                    NaN
447                                 grados
448                                 grados
449                                eventos
450                                eventos
451         Reescribe-medios-clases-online
454                             postgrados
455                             postgrados
456                             postgrados
Name: cat1, dtype: object

>>> from sklearn import preprocessing
>>> enc = preprocessing.OneHotEncoder()
>>> enc.fit(mydf)

回溯：

ValueError                                Traceback (most recent call last)
<ipython-input-74-f581ab15cbed> in <module>()
      2 mydf.head(10)
      3 enc = preprocessing.OneHotEncoder()
----> 4 enc.fit(mydf)

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in fit(self, X, y)
    996         self
    997         """
--> 998         self.fit_transform(X)
    999         return self
   1000 

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in fit_transform(self, X, y)
   1052         """
   1053         return _transform_selected(X, self._fit_transform,
-> 1054                                    self.categorical_features, copy=True)
   1055 
   1056     def _transform(self, X):

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in _transform_selected(X, transform, selected, copy)
    870     """
    871     if selected == "all":
--> 872         return transform(X)
    873 
    874     X = atleast2d_or_csc(X, copy=copy)

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in _fit_transform(self, X)
   1001     def _fit_transform(self, X):
   1002         """Assumes X contains only categorical features."""
-> 1003         X = check_arrays(X, sparse_format='dense', dtype=np.int)[0]
   1004         if np.any(X < 0):
   1005             raise ValueError("X needs to contain only non-negative integers.")

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/utils/validation.pyc in check_arrays(*arrays, **options)
    279                     array = np.ascontiguousarray(array, dtype=dtype)
    280                 else:
--> 281                     array = np.asarray(array, dtype=dtype)
    282                 if not allow_nans:
    283                     _assert_all_finite(array)

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/numpy/core/numeric.pyc in asarray(a, dtype, order)
    460 
    461     """
--> 462     return array(a, dtype, copy=False, order=order)
    463 
    464 def asanyarray(a, dtype=None, order=None):

ValueError: invalid literal for long() with base 10: 'postgrados'

ValueError回溯（最近一次调用）
在（）
2 mydf头（10）
3 enc=预处理。OneHotEncoder（）
---->4附件尺寸（mydf）
/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in-fit（self，X，y）
996自我
997         """
-->998自拟合变换（X）
999返回自我
1000
/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in fit_transform（self，X，y）
1052         """
1053返回选定的变换（X，自拟合变换，
->1054 self.categorical_特征，copy=True）
1055
1056 def_变换（自，X）：
/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in_transform_selected（X，transform，selected，copy）
870     """
871如果选择==“全部”：
-->872返回变换（X）
873
874 X=至少2D_或_csc（X，拷贝=拷贝）
/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in_-fit_-transform（self，X）
1001定义拟合变换（自，X）：
1002“假定X只包含分类功能。”“”
->1003 X=检查数组（X，稀疏格式='dense'，dtype=np.int）[0]
1004如果np.有（X<0）：
1005 raise VALUETERROR（“X需要只包含非负整数。”）
/检查数组中的home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/utils/validation.pyc（*数组，**选项）
279数组=np.ascontiguousarray（数组，dtype=dtype）
280其他：
-->281数组=np.asarray（数组，dtype=dtype）
282如果不允许，则：
283断言所有有限（数组）
/asarray中的home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/numpy/core/numeric.pyc（a，数据类型，顺序）
460
461     """
-->462返回数组（a，数据类型，copy=False，order=order）
463
464 def asanyarray（a，数据类型=无，订单=无）：
ValueError:以10为基数的long（）的文本无效：“postgrados”

请注意，

IdVisita

是此处的索引，数字可能并非都是连续的

有什么线索吗？

您的错误是，您正在从文档中调用OneHotEncoder

此转换器的输入应为整数矩阵

但是您的df有一个单独的列“cat1”，它是dtype

object

，实际上是一个字符串

你应使用：

注意：我必须删除

NaN

行，因为这将引入一个不能用于排序的混合数据类型，例如float>str将不起作用一个更简单的方法是使用，它可以在同一步骤中转换为整数

将其与参数

DictVectorizer（sparse=False）

一起使用，可以在

fit_变换之后获取DataFrame
，以继续使用Pandas。
您是否只有一个名为“cat1”的列？请尝试以下操作：enc.fit（mydf.cat1.values）从OneHotEncoder对整数数组进行编码，是否仅尝试对IdVista列进行编码？这里的问题是，这是您的索引，您只有一个名为“cat1”的列，它是一个字符串，您能澄清一下吗！OneHotEncoder对整数数组进行编码。我现在意识到，如果我想得到编码，我需要先通过LabelEncoder，然后是OneHotEncoder。或者直接使用DictVectorizer。请张贴，这样我就可以接受答案！但是，当您的分类数据没有顺序时，这是一个问题。通过使用LabelEncoder，您可以确定可能导致次优建模结果的顺序。Re:“DictVectorizer，它执行整数转换和OneHotEncoding”。。。这通常是不正确的。根据文档：“当特征值为字符串类型时，此转换器将只执行二进制一热编码。如果分类特征表示为数值，如int，则DictVectorizer后面可以跟着OneHotEncoder完成二进制一热编码。”
In [13]:

le = preprocessing.LabelEncoder()
le.fit(df.dropna().values)
le.classes_
C:\WinPython-64bit-3.3.3.2\python-3.3.3.amd64\lib\site-packages\sklearn\preprocessing\label.py:108: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().
  y = column_or_1d(y, warn=True)
Out[13]:
array(['Reescribe-medios-clases-online', 'eventos', 'grados', 'latam',
       'postgrados'], dtype=object)