Python:为语料库中的文档随机分配标题

Python:为语料库中的文档随机分配标题,python,arrays,numpy,random-sample,Python,Arrays,Numpy,Random Sample,我有一个很大的文档语料库,D,它基本上是一个Python列表,包含n条经过过滤的tweet 例如,D[0]是“对安卓手机进行远程黑客攻击的新漏洞,威胁到数百万台设备” 此外,n的数量级为10^4 比如说,Z中还有一个m=10的主题列表,我希望随机分配给每个文档 Z=['hack','tools','android','google','anonymous',…] 我如何创建一个nx2数组,使得主题的分配(尽可能接近)是一个真正的随机过程 编辑: 我不知道该如何编码。抱歉,如果解释有点含糊,但

我有一个很大的文档语料库,
D
,它基本上是一个Python列表,包含n条经过过滤的tweet

例如,
D[0]
是“对安卓手机进行远程黑客攻击的新漏洞,威胁到数百万台设备”

此外,n的数量级为10^4

  • 比如说,
    Z
    中还有一个m=10的主题列表,我希望随机分配给每个文档

    Z=['hack','tools','android','google','anonymous',…]

  • 我如何创建一个nx2数组,使得主题的分配(尽可能接近)是一个真正的随机过程


    编辑:


    我不知道该如何编码。抱歉,如果解释有点含糊,但是没有太多信息可以提供。我只是想要一种从
    Z
    随机映射到
    D
    的方法(获得一个nx2数组而不是一个nxm数组,这是一个诚实的错误)。

    我想这就是你想要的

    >>> D = [1,2,3,4,5,6,7,8,9]
    >>> Z = ['a','b','c','d','e','f','g']
    >>> [[i, random.choice(Z)] for i in D]
    [[1, 'a'], [2, 'd'], [3, 'c'], [4, 'f'], [5, 'b'], [6, 'g'], [7, 'f'], [8, 'f'], [9, 'f']]
    
    该列表将遍历
    D
    (您的语料库),并将每个元素与
    Z
    (您的主题)的随机元素相匹配


    对于单个对来说,元组可能是比列表更好的选择,因为它们更常用于表示不同事物的集合-有关何时使用列表与元组的信息,请参见答案。

    如果您使用一个简单的示例,使用较小的n和m值来澄清您的问题,这将很有帮助。另外,您应该发布自己的编码尝试。@PM2Ring我已经尽可能多地添加了详细信息。代码本身没有太多内容。我只是想随机地从Z映射到D,我可以向您展示如何构建一个包含n行的Python列表。第i行由m个元组组成。每个元组以随机顺序将第i条tweet与m个主题之一配对。那会有帮助吗?@PM2Ring是的,应该有用。我意识到我根本不需要一个nxm矩阵;numpy可能提供类似的功能,但我不知道numpy。事实上,我可能需要元组。非常感谢。