Python TypeError:熊猫中应有类似字符串或字节的对象_Python_Pandas

Python TypeError:熊猫中应有类似字符串或字节的对象

python pandas

Python TypeError:熊猫中应有类似字符串或字节的对象,python,pandas,Python,Pandas,我想标记文本，但无法。我怎样才能解决这个问题？我的问题是：输出：孟加拉语文本 t = Tokenizers() print(t.bn_word_tokenizer(data)) 错误 --------------------------------------------------------------------------- TypeError回溯（最近一次调用上次）在里面 1`t=Tokenizers（）` ---->2`print（t.bn\u word\u标记器（dat

我想标记文本，但无法。我怎样才能解决这个问题？我的问题是：

输出：孟加拉语文本

t = Tokenizers()
print(t.bn_word_tokenizer(data))

错误

---------------------------------------------------------------------------
TypeError回溯（最近一次调用上次）
在里面
1`t=Tokenizers（）`
---->2`print（t.bn\u word\u标记器（dataStr））`
D:\anaconda\lib\site packages\bnltk\tokenize\bn\u word\u tokenizers.py在bn\u word\u标记器中（self，input\ux）
15`tokenize_list`=[]
16`r=re.compile（r'[\s\।{}]+'.format（关于转义（标点符号）））`
--->17`列表=拆分（输入）`
18`list\=[i表示列表中的i，如果i`]
19 `退货清单_`
TypeError:应为字符串或类似字节的对象

试试这个：

for column in data:
    a = data.apply(lambda row: t.bn_word_tokenizer(row), axis=1)
    print(a)

这将一次打印一列。如果要转换整个数据帧而不是仅打印，请在上面的代码中将a替换为数据[列]。

您正在将数据传递到标记器，这会导致错误，因为数据是数据帧，而不是字符串或类似字节的对象。你的数据框有几列吗？@ManasSambare我读了一个孟加拉语文本文件。但这里有个错误，当我想做记号时，你能详细解释一下吗？这里只有一行是标记化的吗？但是整篇文章怎么可能呢？另一个问题是。如何删除孟加拉语中的停止语？问题仍然是一样的。这是我的意见-তাঁর নামটা শুনলেই চোখের সামনে ভেসে ওঠে ব্রাজিল দলের রক্ষণভাগে ডান প্রান্ত দিয়ে এক অক্লান্ত ফুটবলারের সমানতালে রক্ষণ ও আক্রমণ । খেলেছেন ব্রাজিলের ইতিহাসে সবচেয়ে বেশি ম্যাচ । কপালে একমাত্র খেলোয়াড় হিসেবে টানা তিন বিশ্বকাপের ফাইনাল খেলার গৌরবতিলক । তিনি মার্কোস ইভানগেলিস্তা দি মোরাইস । চিনতেশ在您的代码之后输出-t=Tokenizers（），用于数据中的列：a=data.apply（lambda行：t.bn_word_tokenizer（行），axis=1）在1 t=Tokenizers（）中打印（a）类型错误回溯（最后一次调用）2对于数据中的列：-->3 a=data.apply（lambda行：t.bn\u word\u标记器（行），axis=1）4打印（a）D:\anaconda\li类型错误：预期的字符串或类似字节的对象

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-17-f9f299ecf33d> in <module>
      1 `t = Tokenizers()`
----> 2 `print(t.bn_word_tokenizer(dataStr))`

D:\anaconda\lib\site-packages\bnltk\tokenize\bn_word_tokenizers.py in bn_word_tokenizer(self, input_)
     15                 `tokenize_list` = []
     16                 `r = re.compile(r'[\s\।{}]+'.format(re.escape(punctuation)))`
---> 17                 `list_ = r.split(input_)`
     18                 `list_ = [i for i in list_ if i`]
     19                 `return list_`

TypeError: expected string or bytes-like object

for column in data:
    a = data.apply(lambda row: t.bn_word_tokenizer(row), axis=1)
    print(a)