2012-06-22 7 views
6

ich angefangen habe mit Nutch und alles war in Ordnung, bis ich eine IOException Ausnahme,mit Nutch Crawling ... Zeigt eine IOException

$ ./nutch crawl urls -dir myCrawl -depth 2 -topN 4 
cygpath: can't convert empty path 
solrUrl is not set, indexing will be skipped... 
crawl started in: myCrawl 
rootUrlDir = urls 
threads = 10 
depth = 2 
solrUrl=null 
topN = 4 
Injector: starting at 2012-06-23 03:37:51 
Injector: crawlDb: myCrawl/crawldb 
Injector: urlDir: urls 
Injector: Converting injected urls to crawl db entries. 
Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Rahul\mapred\staging\Rahul255889423\.staging to 0700 
    at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:682) 
    at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:655) 
    at  org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509) 
    at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344) 
    at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189) 
    at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116) 
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856) 
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850) 
    at java.security.AccessController.doPrivileged(Native Method) 
    at javax.security.auth.Subject.doAs(Subject.java:415) 
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083) 
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850) 
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824) 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:217) 
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 

@jeffery begegnet --- ich meine nutch Version n herabgestuft ein neues Problem gestoßen, die aus meiner Reichweite ist zu verstehen .... Plzz Hilfe ....

$ ./nutch crawl urls -dir myCrawl -depth 4 -topN 5 
cygpath: can't convert empty path 
solrUrl is not set, indexing will be skipped... 
crawl started in: myCrawl 
root UrlDir = urls 
threads = 10 
depth = 4 
solrUrl=null 
topN = 5 
Injector: starting at 2012-06-23 22:30:28 
Injector: crawlDb: myCrawl/crawldb 
Injector: urlDir: urls 
Injector: Converting injected urls to crawl db entries. 
Exception in thread "main" java.io.IOException: Job failed! 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:217) 
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 

Was ist das Problem dieses tym ???

+0

Welche Version von Nutch/Hadoop verwenden Sie? – Jeffrey

+0

Nuttch-1.5 Solr-3.5 –

+0

weiß nicht abt hadoop. Ich bin ein kompletter Anfänger mit Nutch. :( –

Antwort

0

Ich lief dieses Problem vor ein paar Tagen auch. Die neueren Versionen von Hadoop haben Probleme bei der Interaktion mit Windows. Sie können entweder zu einer * nix-Plattform wechseln (was Sie wahrscheinlich tun sollten, fast die gesamte Unterstützung von Nutch richtet sich an * nix-Benutzer) oder Sie können Ihre Version Nutch downgraden. Die neueste Version von Nutch, die ich unter Windows Server 2008 gefunden habe, war 1.2.

+0

ersetzt habe thnx für die info .... wenn ich die version auf 1.2 unter windows herunterstufen werde, wird es hv jede art von einschränkungen im vergleich zu arbeiten unter linux umgebung mit der neuesten version von nutch ??? –

+0

@pfrafulbagai Sie werden keine der neuen Funktionen haben. Alle offiziellen Tutorials sind auf 1.5 ausgerichtet, daher kann es zu Diskrepanzen kommen. Sie können immer noch crawlen, analysieren und indexieren. Je nachdem, wie Ihre Anforderungen genau sind, kann es gut sein. – Jeffrey

+0

Thnx Jeffery !!!! Ich werde versuchen, es zu empfehlen !!! 1 letzte Frage .. Das mag ein bisschen dumm klingen, aber wenn ich den Quellcode von Nutch n anpassen will, passen Sie es, wo kann ich es von ??? –