如何将波斯语(波斯语)段落转换为Javascript中的单词列表

如何将波斯语(波斯语)段落转换为Javascript中的单词列表,javascript,regex,persian,farsi,rtl-language,Javascript,Regex,Persian,Farsi,Rtl Language,我试着从一段文字中找出一个对象,用它们的频率来显示单词 var pattern = /\w+/g, //the farsi paragraph string = "من امروز در مورد مهر خروج مشمولین اطلاعات جدیدی از سفارت ایران در مالزی گرفتم", matchedWords = string.match( pattern ); /* The Array.prototype.reduce method as

我试着从一段文字中找出一个对象,用它们的频率来显示单词

var pattern = /\w+/g,
//the farsi paragraph
    string = "من امروز در مورد مهر خروج مشمولین اطلاعات جدیدی از سفارت ایران در مالزی گرفتم",
    matchedWords = string.match( pattern );

/* The Array.prototype.reduce method assists us in producing a single value from an
   array. In this case, we're going to use it to output an object with results. */
var counts = matchedWords.reduce(function ( stats, word ) {

    /* `stats` is the object that we'll be building up over time.
       `word` is each individual entry in the `matchedWords` array */
    if ( stats.hasOwnProperty( word ) ) {
        /* `stats` already has an entry for the current `word`.
           As a result, let's increment the count for that `word`. */
        stats[ word ] = stats[ word ] + 1;
    } else {
        /* `stats` does not yet have an entry for the current `word`.
           As a result, let's add a new entry, and set count to 1. */
        stats[ word ] = 1;
    }

    /* Because we are building up `stats` over numerous iterations,
       we need to return it for the next pass to modify it. */
    return stats;

}, {})

var dict = []; // create an empty array
// this for loop makes a dictionary for you
for (i in counts){
dict.push({'text':i, "size": counts[i]});


};

/* lets print and see if you can solve your problem */

console.log( dict);
代码最初是为一个英文段落编写的。但是我需要用它来做一个波斯语的。 我知道它应该是其他东西,而不是/\w+/g:

var pattern = /\w+/g,

但是我不知道是什么。

在您的正则表达式中,对任何字符使用变量,但空格是\S。 编辑:空格被认为是换行符、制表符和空格

变量模式=/\S+/g, //波斯语段落 在各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各مازیگفتم, matchedWords=string.match模式; /*Array.prototype.reduce方法帮助我们从 大堆在本例中,我们将使用它输出一个带有结果的对象*/ var counts=matchedWords.reducefunction统计数据,字{ /*‘stats’是我们将随着时间而建立的对象。 `word`是`matchedWords`数组中的每个条目*/ 如果stats.hasOwnProperty字{ /*'stats'已经有当前'word'的条目。 因此,让我们增加“单词”的计数*/ 统计[字]=统计[字]+1; }否则{ /*'stats'还没有当前'word'的条目。 因此,让我们添加一个新条目,并将count设置为1*/ 统计数字[字]=1; } /*因为我们在无数次迭代中积累了“统计数据”, 我们需要在下一个过程中返回它来修改它*/ 返回统计; }, {} 变量dict=[];//创建一个空数组 //这个for循环为您制作了一本字典 因为我在计数{ dict.push{'text':i,size:counts[i]}; }; /*让我们打印出来,看看你是否能解决你的问题*/
console.log dict 要匹配任何字母,需要使用XRegExp包和\pL Unicode属性类:

var模式=新的XRegExp[\upl\\pN]+,g; 各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各83.مازیگفتم; var matchedWords=s.匹配模式; var counts=matchedWords.reducefunction统计数据,字{ 如果stats.hasOwnProperty字{ 统计[字]=统计[字]+1; }否则{ 统计数字[字]=1; } 返回统计; }, {} var-dict=[]; 因为我在计数{ dict.push{'text':i,size:counts[i]}; } console.logdict;
您可以将JS等效项用于单词和量词\w+ 其中将匹配约119000个Unicode 9字字符。 这包括所有非字母、非数字和其他单词字符 比如下划线,大约有1100个

注意-它运行得非常快,但是我会将这个正则表达式设置为全局和全局的 编译一次以备以后使用

此外,这是从ICU数据库生成的,该数据库提供了完整的 在U+000000到U+10FFFF之间的单词\w的示例,此正则表达式来自该示例 使用应用程序中的生成

这是XRegExp无法做到的

演示:

?:目前,U0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0483-\u0487\u048A-\u052F\u0531-\u0556\u0559\u0561-\u0587\u0591-\u05BD\u05BF\u05C1-\u05C2\u05C4-\uU0510-10-10 10-10-10-10-10-10-10-10-10-10-10-10-10 10-10-10 10-10 10-10 10-10-10-10-10-10-10-10-10 10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-10-6 6 6 6 6 6 6\10-10-10-10-10-10-10-10-10-6 6 6\10-10-10-6 6 6 6 6 6 6 6 6 6 6 6 6 3A\u093C-\u093D\u0941-\u0948\u094D\u0950-\u0963\u0966-\u096F\u0971-\u0981\u0985-\u098C\u098F-\uU0990\ U0990\ U0990\ u0993\ U0990\ U0990\ u0993\ U0990\ U0990\ U0990\ U0990\ U0990\ U0990\ U0990\ U0990\ U0990\ U0990\ u0993\ u0993\ U0990\ u09A8\ u09A8\ u09A8\ u09A8\ u09A8\ u09A8\U09AA8\U09A-\U09A-\U098\ U09A-\U098\ U098\ U09A0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\ u09B6\ u09B6\ u09B6-6-6-6-6-\u09B6-\u09B6-6-\u09B9-6-\\u09B9-6\u9 41-\u0A42\u0A47-\u0A48\u0A4B-\u0A4D\u0A51\u0A59-\u0A5C\u0A5E\u0A66-\u0A75\u0A81-\u0A82\u0A85-\u0A8D\u0A8F-\u0 0 0 0 0 A91 0 0 0 A91 0 0 0 0 AA91 0 0 0 0 0 AAA91 0 0 0 0 0 AAA91 0 0 0 0 0 AA91 0 0 0 0 AA91 0 0 0 0 0 0 0 0 A91 0 0 0 0 0 0 0 0 AA93-0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 AA8-0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C-\u0B3D\u0B3F\u0B41-\u0B44\u0B4D\u0B56\u0B5C-\u0B5D\u0B5F-\u0B63\u0B66-\u0B6F\u0B71\u0B82-\u0B83\u0B85-\u0B8A\u0B8E-\u0B90\0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\u0C60-\u0C63\u0C66-\u0C6F\u0C80-\u0C81\u0C85-\u0C8C\u0C8E-\u0C90\u0C92-\u0CA8\u0CAA-\u0CB3\u0CB5-\u0CB9\u0CBC-\u0CBD\u0CBF\u0CC6\u0CCC-\u0CCD\u0CDE\u0CE0-\u0CE3\u0CE6-\u0CEF\u0CF1-\u0CF2\u0D01\u0D05-\u0D0C\u0D0E-\u0D10\u0D12-\u0D3A\ 研究结果显示,D56\U0DD56\U0DD55F-\u0DD6\u0DD6\u0D5F-\U0D6 3\U0D6 6-\U0D6-\U0D6-\U0D6-\U0D6-\U0D4\U0D4\U0D4\U0D4\0 D4\0 0 D4\0 0 D4\0 D3\0 0 D3\U0D3\U0D3\U0D6\U0D6-D6\U0D6\U0D6\U0D6\U0D6\U0D6\U0D6\D6\0\0\0 0 0 0 0 0\D6-D6\U0D6\0\0 0 0 0 0 0 0\D7\D7-\U0D7\0 0 0 0 0 0 0 0 0 0\D7-\D7\D7 81-\u0E82\u0E84\u0E87-\u0E88\u0E8A\u0E8D\u0E94-\u0E97\u0E99-\u0E9F\u0EA1-\u0EA3\u0EA5\u0EA7\u0EAA-\u0EAB\u0EB9\u0EBB-\u0研究结果显示,0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1037\u1039-\u103A\u103D-\u1049\u1050-\u1055\u1058-\u1061\u1065-\u1066\u106E-\u1082\u1085-\u1086\u108D-\u108E\u1090-\uu13A0-\u13F5\u13F8-\u13FD\u1401-\u166C\u166F-\u167F\u1681-\u169A\u16A0-\u16EA\u16F1-\U17 7-1-10-1-1-7-1-7-1-10-1-10-1-10-10-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-7-1-7-1-7-1-1-7-1-1-1-7-1-1-7-7-7-7-3-3-3-3-3-3-3-u1753-7-3-3-3-3-3-3-3-3-3-10-3-10-3-3-10-10-3-3-10-10-3-10-10-10-3-7-10-10-3-3-3-3-3-3-10-3-10-10-10-10-10-3-7-10-10-10-3-7-10-10-3-3-10-7-10-7-7-10-10--\u1922\u1927-\u1928\u1932\u1939-\u193B\u1946-\u196D\u1970-\u1974\u1980-\u19AB\u19B0-\u1910-10-10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 u1BA0\u1BA2-\u1BA5\u1BA8-\u1BA9\u1BAB-\u1BE6\u1BE8-\u1BE9\u1BED\u1BEF-\u1BF1\u1C00-\u1C23\U1C1CC-\U1C1CC-\U1C1CC-\U1CC-\U1C1CC-\U1C1CC-\U1C1CC-\U1C1CC-\U1C1CC-\U1CC-\U1CC-\u1C33\u1C33\u1C33\u1C33\u1C36-\u1C37\u1C37\u1C37-\u1C40-\U1C7 7 7 7 7-\U1CCCCC8-\U1CCD CD-\u1C80-\u1C80-\u1C80-\U1CCCCC80-\u1C80-\U1C18-\U1C18-\u1C80-\u1C80-\U1C18-\u1C80-\u1C80-\U1C18-\U1C18-\U1C18-\U1C18-\u1C80-\U1C18-\\U1C18-\U1C18-\U1C18-\U1CCD-\\u1FB6-\u1FBC\u1FBE\u1FC2-\u1FC4\u1FC6-\u1FCC\u1FD0-\u1FD3\u1FD6-\u1FDB\u1FE0-\u1FEC\u1FF2-\u1FF4\U1FFF6-\UU1FFFF6-\UU1FFFFF6-\UUU1FFFF6-\UU1FFF6-\UU1FFFF6-\UU1FFF6-\UU1FFF6-\UUU1\U2\1\U2\1\U2\U2\ffff7\U1\1\U2\ffffffffffff7\U2\U1财政财政财政财政财政财政财政财政财政财政财政财政基金基金基金基金基金基金基金基金基金基金基金基金基金会1 1\U1\U1\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\U2\u2D67\u2D6F\u2D7F-\u2D96\u2DA0-\u2DA6\u2DA8-\u2DAE\u2DB0-\u2DU2-6-U2 DD6\U2-7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 4 4 4 4 4 4 4 4 4 4 4 4 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 B5\u4E00-\u9FD5\uA000-\uA48C\uA4D0-\uA4FD\uA500-\uA60C\uA610-\uA62B\uA640-\uA66F\uA674-\UA674-\UA674-\ua674-\UA674-\UA674-\UA674-\UA674-\UA674-\ua674-\ua674-\ua674-\ua674-\ua674-\UA674-\UA674-\UA674\UA674\UA674\UA674-\ua674\ua677\ua674\ua674-\ua674-\ua674\ua674\ua674\ua674\ua674-\ua674\ua674\ua7\ua674-\ua674-\\\ua7\ua7\ua7\ua7\ua674-\\ua7\ua7\ua7\ua7\ua7 7\ua7\ua7 7 7 7\ua7\\ua7\ua7\ua7\ua7\ua7\ua787\ua787\ua787\ua787\ua\ uA9B9\uA9BC\uA9CF-\uA9D9\uA9E0-\uA9FE\uAA00-\uAA2E\uAA31-\uAA32\uAA35-\uAA36\uAA40-\uAAAAA4C\UAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA-\ uD7FB\uF900-\uFA6D\uFA70-\uFAD9\uFB00-\uFB06\uFB13-\uFB17\uFB1D-\uFUFB4 1\UFB4 4 \UFB4 4 4 4 \UFBB4 4 4 \UFB4 4 4 \UFB4 4 4 4 \UFB4 4 4 \UFB4 4 4 4 \UFB4 4 4 4 \UFB4 4 4 \UFBB4 4 3-\UFB2B 2 \UFB28 7 \UFB2B28 7 \fB2B 8 8 \UFB2B B 7 \UFB2B B B B B B B B 8-一一一\UFB B B B B B B B B B B B B B 8-一一一一一\ \UFB8----------------------2 \UFB B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B 8------8-一一\ \ \ \ \ \ \UFB8-8-------------8-------\uFFDC]|?:\uD800(udc3)uDC3D\uDC3D\uDC3D\UDC33 3 3 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7\uDCD8-\uDCFB\uDD00-\uDD27\uDD30-\uDD63\uDE00-\uDF36\uDF40-\uDF55\uDF60-\uDF67]|\uD8023\uDC38\uDC38\uDC38\uDC38\uDC38\uDC38\uDC3C C\uDC3C\UDC33 3 3 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7\uDC55\UDC 3 3 3 3 3 3 3 3\UDC 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3\UDC 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3\uDEC9-\uDEE6\uDF00-\uDF35\uDF40-\uDF55\uDF60-\uDF72\uDF80-\uDF91]|\uD803[\uDC00-\uDC48\uDC80-\uDCB2\uDCC0-\uDCF2]|\uD80410\uDC81\uDC83-\UDC8\UDC8\UDC7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 uDE2F-\uDE31\uDE34\uDE36-\uDE37\uDE3E\uDE80-\uDE86\uDE88\uDE8A-\uDE8D\uDE8F-\uDE9D\uDE9F-\uDEA8\uDEB0-\uDEDF\uDEE3-\uDEEA\uDEF0-\uDEF9\uDF00-\uDF01\uDF05-\uDF0C\uDF0F-\uD
F10\uDF13-\uDF28\uDF2A-\uDF30\uDF32-\uDF33\uDF35-\uDF39\uDF3C-\uDF3D\uDF40\uDF50\uDF5D-\uDF61\uDF66-\uDF6C\uDF70-\uDF74]|\uD8051月4 4 4\uDC46-\uDC44 4 4 4 4 4 4 4 4 4 7 7 7 7 4 4 4 4 4 4 4 4 7 7 7 7 7 4 4 4 4 4 4 4 4 4 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 4 4 4 4 4 4 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 B0-\uDEB5\uDEB7\uDEC0-\uDEC9\uDF00-\uDF19\uDF1D-\uDF1F\uDF22-\uDF22-\uDF22 2-\uDF22 2-\uDF25-\uDF22-\uDF22-\uDF22-\uDF22-\uDF22-\uDF22-\uDF22-\uDF25-\uDF27-\uDF27-\uDF27-\uDF27-\uDF27-\uDF27-\udf3-\\\\udff3-\\\3\\ud6 6 6\ud6 6 6 6-\\UD6 6 6 6 6 6\\\UDCA6-\\\UD6 6 6 6 6 6 6 6 6 6\uDCA0-\UDCA6\\\\\\udc0-\udc6\\\\\\\udc4 4\\\udc5 0-\\udc5-\\\uDC40-\\\\uDC50-\\\\\\\uDC50-\\\\\\\\\\809[\uDC80-\uDD43]|\uD80C[\uDC00-\uDFFF]|\uD80D[\uDC00-\uDC2E]|\uD811[\uDC00-\uDE46]|\8月8日,ud0-\ud0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0-udf4 4 0 0 0-udf4 4 0-udf3 6\udf3 3 3\udf4 0 0 0 0 0 0 0 0-0 0 0 0 0-0 0 0-0 0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-7-0-0-0-0-0-0-0-0-0-0-udf7-0-0-3 3 3 3 3 3 3 3 3\udf4-udf4-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-0-udf3 3 3 3 3 3 3 3 \udf4-udf4-\uD82C[\uDC00-\uDC01]|\uD82F[\uDC00-\uDC6A\uDC70-\uDC7C\uDC80-\uDC88\uDC90-\uDC99\uDC9D-\uDC9E]|\uD834[\uDD67-\uDD69\uDD7B-\uDD82\uDD85-\uDD8B\uDDAA-\uDDAD\uDE42-\uDE44]|\uD83510\udc0 0 0\udc0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7中国中国中国中国中国中国中国7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7中国中国中国中国中国10 10 10 10 10 10 10 10 10 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 uDF16-\uDF34\uDF36-\uDF4E\uDF50-\uDF6E\uDF70-\uDF88\uDF8A-\uDFA8\uDFAA-\uDFC2\uDFC4-\uDFCB\uDFCE-\uDFFF]|\uD836[\uDE00-\uDE36\uDE3B-\uDE6C\uDE75\uDE84\uDE9B-\uDE9F\uda1-\udaf]|\uD838[\uDC00-\uDC06\uDC08-\uDC18\uDC1B-\uDC21\uDC23-\uDC24\uDC26-\uDC2A]\uD83A[\uDC00-\udc04\udd40-\udd40a-\uDD50-\uDD50-\udd0597月7\7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7\udud试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图试图3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3\uD868][\uDC00-\uDFFF]|\中国国家869 7 7 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0-uDFFF 7 7 0 0 0 0 0 0 0 0 0-uDFFF 7 7 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0在您的情况下,使用拆分与缩减相结合?示例:

在5月5日,该方的警警警警警警警警警队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队队د; 已计数常量=p.split“”。减少已收集的,项=>{ 已收集[项目]=已收集[项目]| | 0+1; 收回的报税表; },{/*初始空对象*/}; const dict=Object.keys counted.map key=>{ 返回{ 文本:键, 大小:计数[键], }; } ; console.log“دБ:”,已计数[“دС”];
console.log dict;为什么不使用string.split“”?也许可以使用/[آ-ی]+/g,但使用\p{L}可能是一个更好的主意用构造任何Unicode字母。\S匹配任何非空白,OP需要匹配字母。标题和问题描述说的是单词,而不是字母。对,单词是由字母组成的,而不是标点符号或符号字符。@WiktorStribiżew完全同意。无论如何,我不知道波斯语,但如果OP用英语段落测试了他的第一个正则表达式\w如果使用标点符号和符号字符,它就不会像他保证的那样正常工作,所以我假设他测试的波斯语单词除了字母之外不包含任何内容。OP的一点澄清会让我们更准确地帮助他。@Dez:我想Wiktor的观点是,在像Foo,bar?这样的字符串中,OP的版本将成功地扩展提取单词Foo和bar,而您的版本将错误地提取Foo和bar?。