solr全文检索入门第二篇 数据导入多种方式 post.jar和web

2015-12-01 11:20:00
hainuo
原创 2962
摘要:solr导入数据使用web和post.jar两种方式
在上一节 我附带了个linux下的post命令工具用法来向solr导入数据那么在windows下这个工具不能用,怎么办?#post.jar来看一下post.jar。通过哪里可以得到这个东西`solr-5.3.1\example\exampledocs\post.jar` 这个版本是5.0.0的不知道怎么回事,在另一篇[solr教程](http://iamyida.iteye.com/blog/2207920 "solr教程")中,我发现这个东西在solr5.1的时候竟然是5.1.0 很奇怪,这里不做讨论。```PS D:\solr-5.3.1\solr-5.3.1\example\exampledocs> java -jar post.jar -hSimplePostTool version 5.0.0Usage: java [SystemProperties] -jar post.jar [-h|-] [ [ ...]]Supported System Properties and their defaults: -Dc= -Durl= (overrides -Dc option if specified) -Ddata=files|web|args|stdin (default=files) -Dtype= (default=application/xml) -Dhost= (default: localhost) -Dport= (default: 8983) -Dauto=yes|no (default=no) -Drecursive=yes|no| (default=0) -Ddelay= (default=0 for files, 10 for web) -Dfiletypes= [, ,...] (default=xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log) -Dparams=" = [& = ...]" (values must be URL-encoded) -Dcommit=yes|no (default=yes) -Doptimize=yes|no (default=no) -Dout=yes|no (default=no)This is a simple command line tool for POSTing raw data to a Solr port.NOTE: Specifying the url/core/collection name is mandatory.Data can be read from files specified as commandline args,URLs specified as args, as raw commandline arg strings or via STDIN.Examples: java -Dc=gettingstarted -jar post.jar *.xml java -Ddata=args -Dc=gettingstarted -jar post.jar ' 42 ' java -Ddata=stdin -Dc=gettingstarted -jar post.jar < hd.xml java -Ddata=web -Dc=gettingstarted -jar post.jar http://example.com/ java -Dtype=text/csv -Dc=gettingstarted -jar post.jar *.csv java -Dtype=application/json -Dc=gettingstarted -jar post.jar *.json java -Durl=http://localhost:8983/solr/techproducts/update/extract -Dparams=literal.id=pdf1 -jar post.jar solr-word.pdf java -Dauto -Dc=gettingstarted -jar post.jar * java -Dauto -Dc=gettingstarted -Drecursive -jar post.jar afolder java -Dauto -Dc=gettingstarted -Dfiletypes=ppt,html -jar post.jar afolderThe options controlled by System Properties include the SolrURL to POST to, the Content-Type of the data, whether a commitor optimize should be executed, and whether the response shouldbe written to STDOUT. If auto=yes the tool will try to set typeautomatically from file name. When posting rich documents thefile name will be propagated as "resource.name" and also usedas "literal.id". You may override these or any other request parameterthrough the -Dparams property. To do a commit only, use "-" as argument.The web mode is a simple crawler following links within domain, default delay=10s.```通过这个帮助信息我们可以看到post.jar的用法```Examples: java -Dc=gettingstarted -jar post.jar *.xml java -Ddata=args -Dc=gettingstarted -jar post.jar ' 42 ' java -Ddata=stdin -Dc=gettingstarted -jar post.jar < hd.xml java -Ddata=web -Dc=gettingstarted -jar post.jar http://example.com/ java -Dtype=text/csv -Dc=gettingstarted -jar post.jar *.csv java -Dtype=application/json -Dc=gettingstarted -jar post.jar *.json java -Durl=http://localhost:8983/solr/techproducts/update/extract -Dparams=literal.id=pdf1 -jar post.jar solr-word.pdf java -Dauto -Dc=gettingstarted -jar post.jar * java -Dauto -Dc=gettingstarted -Drecursive -jar post.jar afolder java -Dauto -Dc=gettingstarted -Dfiletypes=ppt,html -jar post.jar afolder```结合上面的一些大长串的用法说明 上面这几个例子,就很清楚了,-Dauto是自动 -Dc就是你要导入到哪一个core中。在目录`\solr-5.3.1\example\exampledocs\`中已经存在不少的文档可以直接被导入,你可以进行测试这里我要说的是另一种方式web的方式管理。首先我们登陆web页面`http://localhost:8083`然后如图所示![选择core](http://blog.hainuo.info/data/upload/201512/f_f9fddc21c3536d28d82c30b23f588040.png "选择core")我选择的是`gettingstarted_shard1_replica2`![](http://blog.hainuo.info/data/upload/201512/f_5bf81fb06d9c97ca3a71e6c1ee6e91fd.png)就这样搞定了,数据测试可以使用了。如何检验自己输入的数据呢?![查询结果](http://blog.hainuo.info/data/upload/201512/f_38ff33e0f66f9895b8ae10bb7692ef95.png "查询结果")
发表评论
捌 乘 零 =
评论通过审核后显示。