Ich habe einen Beispieldatensatz in meinem lokalen und ich versuche, einige grundlegende Operationen auf einem Cluster zu tun.Fehler - Fehler von Worker Keine Datei oder Verzeichnis: 'Dateipfad'
import dask.dataframe as ddf
from dask.distributed import Client
client = Client('Ip address of the scheduler')
import dask.dataframe as ddf
csvdata = ddf.read_csv('Path to the CSV file')
Der Client ist mit einem Scheduler verbunden, der wiederum mit zwei Arbeitern (auf anderen Maschinen) verbunden ist.
Meine Fragen können ziemlich trivial sein.
Sollte diese CSV-Datei auf anderen Worker-Knoten vorhanden sein?
Ich scheine Datei nicht gefunden Fehler zu bekommen.
Verwendung,
futures=client.scatter(csvdata) x = ddf.from_delayed([future], meta=df) #Price is a column in the data df.Price.sum().compute(get=client.get) #returns" dd.Scalar<series-..., dtype=float64>" How do I access it? client.submit(sum, x.Price) #returns "distributed.utils - ERROR - 6dc5a9f58c30954f77913aa43c792cc8"
Auch ich tat dies Loading local file from client onto dask distributed cluster und http://distributed.readthedocs.io/en/latest/manage-computation.html
verweise ich denke, ich bin Mischen hier eine Menge Dinge, und mein Verständnis ist durcheinander. Jede Hilfe würde wirklich geschätzt werden.