在R包quanteda中使用半空间

在R包quanteda中使用半空间,r,quanteda,R,Quanteda,我在R中使用quanteda包中的KWIC函数来查找库尔德语中的一些短语。在库尔德语中,一些复合词和短语用半个空格隔开。当我使用包含半个空格的短语时,R将其视为输入错误(红点),不允许我运行命令。有办法解决这个问题吗 某些语言中使用半空格或零宽度非连接符,以避免在规范化文本时使用连字。它的Unicode字符是“\u200c”,在某些文本编辑器中,它可以在屏幕上显示为SHIFT+空格 kwic(cleantest, phrase("له‌لایه‌نی"), window = 1) 另外,你知

我在R中使用quanteda包中的KWIC函数来查找库尔德语中的一些短语。在库尔德语中,一些复合词和短语用半个空格隔开。当我使用包含半个空格的短语时,R将其视为输入错误(红点),不允许我运行命令。有办法解决这个问题吗

某些语言中使用半空格或零宽度非连接符,以避免在规范化文本时使用连字。它的Unicode字符是“\u200c”,在某些文本编辑器中,它可以在屏幕上显示为SHIFT+空格

kwic(cleantest, phrase("له‌لایه‌نی"), window = 1)


另外,你知道索拉尼库尔德语词性标记器和词干分析器吗?

有趣的问题。我们一直在思考这个问题,最近也在思考

显然,问题出现在短语到列表的转换中,它依赖于空格分割。以下是一种解决方法,可确保将半空间转换为全空间:

txt <- "رۆژنامه‌كانى به‌ریتانیا، ئاماژه‌ بۆ ئه‌وه‌ ده‌كه‌ن كه‌ سه‌ره‌ڕای ئه‌وه‌ی ڤینگه‌ر ده‌زانێت له‌ وه‌رزی داهاتوودا گه‌وره‌ترین كێشه‌ی له‌لایه‌نی گۆڵپارێزی ده‌بێت، به‌ڵام له‌گه‌ڵ ئه‌وه‌شدا ئاماده‌ نییه‌ به‌هیچ .شێوه‌یه‌ك پیته‌ر چیك له‌سه‌ر كورسی یه‌ده‌گ دابنێت "

phrase2 <- function(x) phrase(gsub("\\s", " ", x))

kwic(txt, phrase2("له‌لایه‌نی"), window = 1)

# [text1, 33:35] ی | له لایه نی | گۆڵپارێزی

您能否提供一些文本的示例(即在
cleantest
中)?库尔德人从右向左阅读,这可能是问题的一部分。聪明的解决方案。成功了。非常感谢你的两个答案。
stopwords("ku", source = "stopwords-iso")
#  [1] "ئێمە"     "ئێوە"     "ئەم"      "ئەو"      "ئەوان"    "ئەوەی"   
#  [7] "بۆ"       "بێ"       "بێجگە"    "بە"       "بەبێ"     "بەدەم"   
# [13] "بەردەم"   "بەرلە"    "بەرەوی"   "بەرەوە"   "بەلای"    "بەپێی"   
# [19] "تۆ"       "تێ"       "جگە"      "دوای"     "دوو"      "دە"      
# [25] "دەکات"    "دەگەڵ"    "سەر"      "لێ"       "لە"       "لەبابەت" 
# [31] "لەباتی"   "لەبارەی"  "لەبرێتی"  "لەبن"     "لەبەر"    "لەبەینی" 
# [37] "لەدەم"    "لەرێ"     "لەرێگا"   "لەرەوی"   "لەسەر"    "لەلایەن" 
# [43] "لەناو"    "لەنێو"    "لەو"      "لەپێناوی" "لەژێر"    "لەگەڵ"   
# [49] "من"       "ناو"      "نێوان"    "هەر"      "هەروەها"  "و"       
# [55] "وەک"      "پاش"      "پێ"       "پێش"      "چەند"     "کرد"     
# [61] "کە"       "ی"