Java SOLR索引并提取.sh和.sql文件

Java SOLR索引并提取.sh和.sql文件,java,shell,solr,indexing,Java,Shell,Solr,Indexing,最近我与SOLR建立了一个形象。我的目标是索引和提取Windows和Linux服务器上的文件。我可以从多个文件类型中索引和提取数据。这是由SOLR单元请求处理程序完成的。请参阅下面的post.jar cmd j ava-Dauto-Drecursive-jar post.jar Y:\SimplePostTool版本1.5将文件发布到基本url localhost:8983/solr/update。。进入自动模式。考虑的文件结尾包括xml、json、csv、pdf、doc、docx、ppt、pp

最近我与SOLR建立了一个形象。我的目标是索引和提取Windows和Linux服务器上的文件。我可以从多个文件类型中索引和提取数据。这是由SOLR单元请求处理程序完成的。请参阅下面的post.jar cmd

j ava-Dauto-Drecursive-jar post.jar Y:\SimplePostTool版本1.5将文件发布到基本url localhost:8983/solr/update。。进入自动模式。考虑的文件结尾包括xml、json、csv、pdf、doc、docx、ppt、pp-tx、xls、xlsx、odt、odp、ods、ott、ots、rtf、htm、html、txt、进入递归模式的日志、最大深度=999、延迟=0s 0索引文件

是否可以从.sh和.sql等文件类型中索引和提取元数据/内容?
如果可能的话,我当然想知道如何:)

您具体想从.sh文件和.sql文件中提取哪些不同于任何其他通用文件(名称、位置、日期等)的内容


是否要提取.sh中使用的命令名?是否要从.sql中提取表/字段名?我认为现在不可能,但是如果有一个文件格式的解析器,它可以作为一个模块连接到Tika。而Tika是Solr在封面下使用的。我今天解决了它。我只需要将de sh和sql添加到SimplePostTool.Java的mime映射中

mimeMap = new HashMap<>();
mimeMap.put("xml", "text/xml");
mimeMap.put("csv", "text/csv");
mimeMap.put("json", "application/json");
mimeMap.put("pdf", "application/pdf");
mimeMap.put("rtf", "text/rtf");
mimeMap.put("html", "text/html");
mimeMap.put("htm", "text/html");
mimeMap.put("doc", "application/msword");
mimeMap.put("docx", "application/vnd.openxmlformats-officedocument.wordprocessingml.document");
mimeMap.put("ppt", "application/vnd.ms-powerpoint");
mimeMap.put("pptx", "application/vnd.openxmlformats-officedocument.presentationml.presentation");
mimeMap.put("xls", "application/vnd.ms-excel");
mimeMap.put("xlsx", "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet");
mimeMap.put("odt", "application/vnd.oasis.opendocument.text");
mimeMap.put("ott", "application/vnd.oasis.opendocument.text");
mimeMap.put("odp", "application/vnd.oasis.opendocument.presentation");
mimeMap.put("otp", "application/vnd.oasis.opendocument.presentation");
mimeMap.put("ods", "application/vnd.oasis.opendocument.spreadsheet");
mimeMap.put("ots", "application/vnd.oasis.opendocument.spreadsheet");
mimeMap.put("txt", "text/plain");
mimeMap.put("log", "text/plain");
mimeMap.put("sh", "text/plain");
mimeMap.put("sql", "text/plain");

我认为索引会考虑名称、位置和日期。所以现在我无法索引这些文件。.sh和.sql是脚本。我需要能够提取的内容(与蒂卡确实)。谢谢你的回答。至少我有一个可以搜索的方向,解析器。如果有人有别的想法,我很高兴听到(读到)。
private static final String DEFAULT_FILE_TYPES = "xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log";