Nlp 撰写包含160位可恢复信息的合成英语短语

Nlp 撰写包含160位可恢复信息的合成英语短语,nlp,steganography,Nlp,Steganography,我有160位随机数据 为了好玩,我想生成伪英语短语来“存储”这些信息。我希望能够从短语中恢复此信息 注意:这不是一个安全问题,我不在乎其他人是否能够恢复信息,甚至检测到信息是否存在 更好短语的标准,从最重要到最不重要: 短 独特的 自然的外表 目前的做法建议: 列出三张1024个名词、动词和形容词的清单(挑选最流行的)。按照以下模式生成短语,每个单词读取20位: Noun verb adjective verb, Noun verb adjective verb, Noun verb adj

我有160位随机数据

为了好玩,我想生成伪英语短语来“存储”这些信息。我希望能够从短语中恢复此信息

注意:这不是一个安全问题,我不在乎其他人是否能够恢复信息,甚至检测到信息是否存在

更好短语的标准,从最重要到最不重要:

  • 独特的
  • 自然的外表
目前的做法建议:

列出三张1024个名词、动词和形容词的清单(挑选最流行的)。按照以下模式生成短语,每个单词读取20位:

Noun verb adjective verb, Noun verb adjective verb, Noun verb adjective verb, Noun verb adjective verb. 名词动词形容词动词, 名词动词形容词动词, 名词动词形容词动词, 名词动词形容词动词。 现在,这似乎是一个很好的方法,但是这个短语有点太长,也有点枯燥

我找到了一个词库(词性数据库)

经过一些特别的筛选,我计算出这个语料库大约包含

  • 50690个可用形容词
  • 123585个名词
  • 15301动词
  • 13010个副词(不包括在句型中,但在答案中提到)
这使我可以使用多达

  • 每个形容词16位(实际上是16.9,但我不知道如何使用小数位)
  • 每个名词15位
  • 每个动词13位
  • 每个副词13位
对于名词-动词-形容词-动词模式,这为短语中的每个“句子”提供57位。这意味着,如果我使用从语料库中获得的所有单词,我可以生成三个句子,而不是四个(160/57)≈ 2.8)

名词动词形容词动词, 名词动词形容词动词, 名词动词形容词动词。 还是有点太长太无聊了

有什么可以改进的提示吗

我所看到的我可以尝试的:

  • 在编码之前,尝试以某种方式压缩我的数据。但是,由于数据是完全随机的,只有一些短语会更短(我想,不会太短)

  • 改进短语模式,使其看起来更好

  • 使用多个模式,使用短语中的第一个单词以某种方式指示将来使用的解码模式。(例如,使用最后一个字母甚至单词的长度。)根据数据的第一个字节选择模式

…我的英语不是很好,不能想出更好的短语模式。有什么建议吗

  • 在模式中使用更多的语言学。不同的时态等

…我想,我需要比现在更好的单词语料库。我能在哪里找到一个合适的提示?

< P>我会考虑在你的列表中添加副词。我想出了一个模式:

<Adverb>, the
    <adverb> <adjective>, <adverb> <adjective> <noun> and the
    <adverb> <adjective>, <adverb> <adjective> <noun>
<verb> <adverb> over the <adverb> <adjective> <noun>.
,这个
,以及
,   
在整个过程中。
这可以对181位数据进行编码。我使用我不久前从WordNet数据中创建的列表得出了这个数字(可能有点偏离,因为我包括了复合词):

  • 12650个可用名词(13.6位/名词,向下舍入)
  • 5247个可用形容词(12.3位/形容词)
  • 5009个可用动词(12.2位/动词)
  • 1512个可用副词(10.5位/副词)

例句:“浸泡,习惯性的傻乎乎的,社会投机的斯沃琪和无所畏惧的灾难性的,在某个地方相互作用的宏观世界,天使般地阻止了不可避免的间歇性安慰。”

很好,谢谢。除了我会用两三句话组成一个短语外,这句话有点太不自然了。(还有:你的形容词数量比我的少了很多——也许我算错了什么?)我想补充一点:使用英语编码方法,但要唱一首你喜欢的歌。当我这样做的时候,我能够记住70个地铁站!尝试使用时态会导致复杂性,因为英语中没有规则的形态系统。例如,对于第三人称复数主动指示符,我们在“他们去了”和“他们去了”之间有一个时态区别,但在“他们适合(过去)”和“他们适合(现在)”之间没有区别。由于时态区分的可用性因其他数据而异,因此很难以简单的方式将其纳入您的存储算法中。很抱歉,但我发现自己不得不提出相关建议,不管它是否真正完全回答了您的问题:
<Adverb>, the
    <adverb> <adjective>, <adverb> <adjective> <noun> and the
    <adverb> <adjective>, <adverb> <adjective> <noun>
<verb> <adverb> over the <adverb> <adjective> <noun>.