Error running:
/mnt/nutch/nutch/runtime/local/bin/nutch solrdedup -D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D mapred.reduce.tasks.speculative.execution=false -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true http://localhost:8983/solr/nutch
Failed with exit value 1.
hadoop.log :
java.lang.Exception: java.lang.ClassCastException: java.util.ArrayList cannot be cast to java.lang.String
at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)
Caused by: java.lang.ClassCastException: java.util.ArrayList cannot be cast to java.lang.String
at org.apache.nutch.indexer.solr.SolrDeleteDuplicates$SolrRecordReader.nextKeyValue(SolrDeleteDuplicates.java:233)
at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:533)
at org.apache.hadoop.mapreduce.task.MapContextImpl.nextKeyValue(MapContextImpl.java:80)
at
这个报错在solr5,6都存在。参考的解决方案见这里:
http://lucene.472066.n3.nabble.com/Nutch-2-Solr-5-solrdedup-causes-ClassCastException-td4301149.html#a4302739
1)将solr-6.6.0/server/solr/configsets目录下的data_driven_schema_configs复制一份到原目录下,并重命名为nutch
2)$NUTCH_HOME/conf下的schema.xml复制到server/solr/configsets/nutch/conf下。
3)将server/solr/configsets/nutch/conf/schema.xml文件中的enablePositionIncrements删掉。
4)执行命令创建core:
solr create -c nutch -d nutch
解释:[-c name] [-d confdir]
这里的nutch分别是core的名字和上面指定的conf的名字
成功了会看到这样的输入:
Zhuos-MacBook-Pro:solr-6.6.0 jo$ solr create -c nutch -d nutch
Copying configuration to new core instance directory:
/Users/jo/soft/solr-5.5.4/server/solr/nutch
Creating new core 'nutch' using command:
http://localhost:8983/solr/admin/cores?action=CREATE&name=nutch&instanceDir=nutch
{
"responseHeader":{
"status":0,
"QTime":107},
"core":"nutch"}
如果报错:ERROR: Error CREATEing SolrCore 'nutch': Unable to create core [nutch] Caused by: fieldType 'tdates' not found in the schema
这里可以是tdates或者其他的..可以对比下server/solr/configsets/nutch/conf目录下的schema.xml和managed-schema两个文件。tdates应该是在managed-schema文件中用到了,却没有在schema.xml中定义。因此将managed-schema中tdates的定义拷贝到schema.xml中。例如下面这段我是从managed-schema中找到的,然后拷贝到了schema.xml中:
<fieldType name="tints" class="solr.TrieIntField" docValues="true" precisionStep="8" positionIncrementGap="0" multiValued="true"/> <fieldType name="tfloats" class="solr.TrieFloatField" docValues="true" precisionStep="8" positionIncrementGap="0" multiValued="true"/> <fieldType name="tlongs" class="solr.TrieLongField" docValues="true" precisionStep="8" positionIncrementGap="0" multiValued="true"/> <fieldType name="tdoubles" class="solr.TrieDoubleField" docValues="true" precisionStep="8" positionIncrementGap="0" multiValued="true"/>
这下应该没什么问题了。
相关推荐
Nutch+solr + hadoop相关框架搭建教程
Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0
Nutch,第2部分:搜索(译文) Nutch,第2部分:搜索(译文)
nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling
( Nutch,第1部分:爬行(译文) ( Nutch,第1部分:爬行(译文)
nutch2.3+hbase0.94.14+hadoop1.2.1安装文档.txt )
nutch爬虫,java也能做爬虫,不一定非得用python呦
使用Nutch和Tika爬行和重复数据删除重复数据集 #Politeness配置:为了处理礼貌,已将属性添加到文件nutch-site.xml中。 我们将坚果机器人(http.agent.name)标记为CS572 RASNA,代理说明(http.agent.description)...
OCR_FontsSearchEngine, 一种超立方体Nutch和PHP的OCR搜索引擎 Silex框架 ;thiagoalessio ;nutch1.10+solr4.10.4 ;``` shell
Nutch抓取指定网址数据,存储在HBase数据库中,存储过程由zookeeper管理。脚本调用索引器部件将数据索引化,经过索引化的数据被前端检索查询,最后前端展示查询结果,用户点击结果列表查看目标资料。
本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。项目共包含1064个文件,其中Java源代码文件458个,XML配置文件181个,文本文件81个,HTML页面文件56个,JPG图片文件56...
Nutch2.3.1 环境搭建 Nutch2.3.1 环境搭建 Nutch2.3.1 环境搭建 亲测可用,我自己安装和搭建过程的记录文档
java实现的开源搜索引擎nutch 主要类分析: 一、org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造, ...
引入hadoop+nutch+solr的优点: (1)hadoop平台数据处理高效。hadoop集群处理数据比起单机节省数倍的时间,数据量越大优势越明显,满足信息采集对数据处理的速度和质量要求。 (2)hadoop平台具有高扩展性。可以...
基于Nutch+ElasticSearch+MySQL+SSM的简易搜索引擎
apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...
基于开源搜索引擎工具(如Heritrix +Lucence,或Nutch+Solr),搭建独立完整的搜索引擎测试平台。 2)垂直搜索行业信息:自主选择某一感兴趣行业,抓取相关行业内容。以抓取结果作为数据库,建立垂直搜索引擎,实现...
Lucene+Nutch本书源码+详细说明,研究搜索引擎具体抓取与解析等技术问题,有利于搜索引擎开发新手的熟悉与了解,难得的电子版,值得珍藏
DDH垂直搜索引擎系统是一个Java实现的垂直搜索引擎系统,是一套整合了Nutch/UCI/SOLR的网络信息整合系统。借助DDH你可以快速构建多领域的垂直搜索引擎系统。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。
1.1 Solr 简介 1.1.1 Solr 的特性 1.1.2 Solr 的目录结构 1.1.3 Solr 与Lucene 关系 1.2 Solr 安装 1.2.1 环境介绍 1.2.2 安装Solr 1.2.3 结合Nutch