Parsing 从非结构化引用解析作者姓名、标题和期刊

Parsing 从非结构化引用解析作者姓名、标题和期刊,parsing,Parsing,我有一份推荐人名单。我试图解析作者姓名、标题、期刊名称、卷号等。所有参考条目都不统一。有些仅包含标题和多个作者姓名,有些仅包含标题等。如何解析这些内容并将信息存储在相关列中?参考条目的几个示例如下所示 Neufeld等人,《血管内皮生长因子(VEGF)及其受体》,FASEB杂志,第13卷,第9-22页(1999年) PCT?国际搜索报告和书面意见?国际申请编号PCT/US08/60740,2008年8月19日邮寄;7页 Wirth等人,《DNA与单、双、三、四和六(氨基吖啶)之间的相互作用》。

我有一份推荐人名单。我试图解析作者姓名、标题、期刊名称、卷号等。所有参考条目都不统一。有些仅包含标题和多个作者姓名,有些仅包含标题等。如何解析这些内容并将信息存储在相关列中?参考条目的几个示例如下所示

  • Neufeld等人,《血管内皮生长因子(VEGF)及其受体》,FASEB杂志,第13卷,第9-22页(1999年)
  • PCT?国际搜索报告和书面意见?国际申请编号PCT/US08/60740,2008年8月19日邮寄;7页
  • Wirth等人,《DNA与单、双、三、四和六(氨基吖啶)之间的相互作用》。线性和圆二色性、电取向弛豫、粘度测定和平衡研究。杰姆。化学。Soc。1988; 110(3):932-939
  • Buadu LD,Murakami,J,Murayama S.,等,《乳腺病变:MR图像上对比剂增强模式与组织病理学发现和肿瘤血管生成的相关性》,?放射学1996,200:639-649
  • 《兴奋-收缩耦合与心脏收缩力》,内科,237(2):171991,摘要
  • 阿贝拉,J.,维拉,X.,冈萨雷斯,A.,《佩内洛普:NBTI感知处理器?》,MICRO 2007,第85-96页
  • JP办公室行动dtd 2010年12月2日,JP Appln。2008-273888,部分英文翻译
  • Maruyama,H.等人,《Id-1和Id-2在胰腺癌和慢性胰腺炎的增生异常病变中过度表达》,《美国病理学杂志》155(3):815-822(1999)
  • 附件2,高速数据RLP朗讯科技公司,0.1版,1997年1月16日
  • Diddens,Heyke等人。对甲氨蝶呤耐药的人淋巴瘤和骨肉瘤细胞对抗叶酸药物曲美曲酯、美托普利、高叶酸和CB3717的交叉耐药模式。?癌症研究,1983年11月,第5286-5292页,第43卷
  • 安装图,图纸编号1069965,日期为1999年8月14日(3页)
  • Means等人,《蛋白质的化学修饰:历史与应用》,生物结合化学,1:2-12(1990)
  • 博克,《幼儿对食物严重反应的自然史》,《儿科杂志》。107:676-6801985
  • Chankhunthod,Anawat等人,一个分层的互联网对象缓存,?1996年USENIX年度技术会议记录;加利福尼亚州圣地亚哥(1996年1月),第153-163页

您已经开始寻找解决方案了吗?没有,我是这方面的新手。我不知道该怎么做请详细说明你使用的技术、语言、数据库还是文本文件?到目前为止你都尝试了什么?如果你能展示一些你已经尝试过但不起作用的东西,而不是含糊不清的“我该怎么做”类型的问题,你就更有可能得到帮助。这些问题是存储在tsv文件中的数据。我想解析它并将其存储到mysql数据库中。我不确定该使用哪种技术