Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/313.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 选择包含智能手机信息和其他数据的条目_Java_Dataset_Data Science - Fatal编程技术网

Java 选择包含智能手机信息和其他数据的条目

Java 选择包含智能手机信息和其他数据的条目,java,dataset,data-science,Java,Dataset,Data Science,我不确定如何解决以下问题,我正在寻求一些指导: 我有一个文件,其中包含一个随机的广告标题在每一行。我需要做的是,根据广告是否销售手机,将每个标题分类为智能手机或非智能手机 很抱歉,文件不是英文的,但这里有一个屏幕截图显示了其中的一点: 我遇到的问题: 一些广告标题与智能手机有关,但它们实际上并不销售手机,而是与之相关的东西(附言)。示例:一则销售Iphone X手机壳的广告 有些广告甚至没有手机品牌,只有型号。例如:“白色小米混合2s全球64GB”或“J7 Pro 64GB 4g J730

我不确定如何解决以下问题,我正在寻求一些指导:

我有一个文件,其中包含一个随机的广告标题在每一行。我需要做的是,根据广告是否销售手机,将每个标题分类为智能手机非智能手机

很抱歉,文件不是英文的,但这里有一个屏幕截图显示了其中的一点:

我遇到的问题:

  • 一些广告标题与智能手机有关,但它们实际上并不销售手机,而是与之相关的东西(附言)。示例:一则销售Iphone X手机壳的广告

  • 有些广告甚至没有手机品牌,只有型号。例如:“白色小米混合2s全球64GB”或“J7 Pro 64GB 4g J730”

  • 如果有一种方法可以从标题中提取出准确的手机型号,那将是完美的,但是由于每个广告标题的格式都不同,我找不到一种方法来做到这一点

  • 通常品牌生产各种各样的产品,而智能手机只是其中一种产品。因此,当我按品牌名称过滤时,它通常会返回与智能手机完全无关的广告(平板电脑、电视、充电器等)。需要更多的过滤

  • 即使我被允许使用它,我也找不到包含所有智能手机型号列表的数据库,或者我不知道如何从中检索信息

到目前为止我的想法:

  • 如果我可以访问一个包含大量智能手机型号的数据库,我可以直接搜索每个型号名称的文件(例如,“Iphone 5s”或“Moto G6”)

  • 我尝试使用FonoAPI(一个智能手机数据库,用于咨询使用java、php等的手机的数据)搜索特定品牌的智能手机型号,但api每次最多只能返回100个结果。因此,为了使用它,我需要从标题中提取产品型号名称,以便检查它是否列在FonoAPI数据库中


因此,由于文件中的每个广告标题的格式不同,我正在寻找一些如何做到这一点的想法,因为我找不到一种方法从标题中提取产品模型以与FonoAPI数据库进行比较,既不能访问包含大量模型的大型数据库,也不能直接在文件中查找它们。

我的答案不太准确,更像是我想提出的想法(因为我喜欢这个问题,并且很乐意获得文件,似乎无法从链接中获得)

首先,由于所有NLP问题,您需要确保所有文本的格式都相同

获取手机型号数据库。我会尝试建立一个手机品牌的数据库。然后去一个销售网站做网页抓取。这样你会得到很多手机型号

我会尝试使用一些NLP模型,比如LDA,但采用另一种格式化方式(比如在gb和手机品牌之后避免单词超出限制。我们希望所有手机都接近这些单词)

这可能是愚蠢的想法,但我想与大家分享(我不能评论:D)