Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/arduino/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
将UTF-8转换为ASCII_Utf 8 - Fatal编程技术网

将UTF-8转换为ASCII

将UTF-8转换为ASCII,utf-8,Utf 8,正确的答案是你不能。然而,我正在寻找一个有用而不是正确的答案 垃圾邮件发送者甚至将拼写正确的垃圾邮件ASCII关键字转换为不同的非ASCII UTF-8字符,典型的西方人很容易错误地将其误认为原始的7位ASCII垃圾邮件关键字 我想要的是一个转换工具,它将执行与垃圾邮件发送者所做的相反的操作,将UTF-8字符串错误地转换回类似的7位ASCII序列,该序列看起来像垃圾邮件发送者希望我误读的垃圾邮件美式英语单词,尽管从学术角度讲,UTF-8不是来自ASCII子集 我正在寻找一些我可以在电子邮件主题行

正确的答案是你不能。然而,我正在寻找一个有用而不是正确的答案

垃圾邮件发送者甚至将拼写正确的垃圾邮件ASCII关键字转换为不同的非ASCII UTF-8字符,典型的西方人很容易错误地将其误认为原始的7位ASCII垃圾邮件关键字

我想要的是一个转换工具,它将执行与垃圾邮件发送者所做的相反的操作,将UTF-8字符串错误地转换回类似的7位ASCII序列,该序列看起来像垃圾邮件发送者希望我误读的垃圾邮件美式英语单词,尽管从学术角度讲,UTF-8不是来自ASCII子集

我正在寻找一些我可以在电子邮件主题行上使用的东西。然后,我可以在花5分钟时间通过我的高速110波特声学链接下载之前,删除网页或电子邮件的其余部分


平台是通用Linux系统上常见的任何语言,例如运行Raspbian或Ubuntu的Raspberry Pi。

令人烦恼的是,答案仍然是,你不能

基本的想法是正确的,但人类喜欢让生活变得复杂,所以

这意味着对于给定的字符序列,不一定清楚该序列应该类似于什么美式英语单词

除此之外,即使你可以可靠地减少字符的顺序,英语也与许多欧洲语言密切相关,这些语言都使用自己独特的字母顺序变体

例如,减少Høst Fæst!快来主持!还有一个可能会导致你错误地将你在明尼苏达州的表兄邀请你参加感恩节的略带洋泾浜语的挪威电子邮件标记为托管提供商垃圾邮件

当然,调用这两种方法中的任何一种都是为了取水:


简单地考虑所有ASCL主题行皮利什!皮尔斯!PiIIs

你的意思是,这很简单,只是没有一种我熟悉的标准化方法。2个小时单调乏味地查看Unicode字符,如果合适的话映射到ASCII创建一个表,这是您应该完成的工作。有很多Unicode字符,但它们不是无限的。也许你可以做一些不同的事情,比如用正则表达式dot Høst Fæst=>/H.st F.est/替换非ascii字符,并与使用正则表达式的单词列表进行比较。它不会是防弹的,但可能比试图映射所有相似的uft字符更容易实现。@Juan,这引入了另一个问题;你的正则表达式不符合美学,但这绝对是它的解读方式;你仍然需要一张地图来决定你想要多少个通配符,可能是两个ᇉ, ㆀ, 等等,@WillihamTotland你是对的。我知道这不是一个防弹的解决方案,你可能也会得到误报。我从你那里偷来的例子:不是最好的,但我认为在大多数情况下,替换者会是一个角色。