Tensorflow beginnt nicht mit dem Training

Ich habe die Auswertung MNIST tutorial gefolgt und wollte es anpassen, um meine eigenen Daten zu verwenden. Mit dem Anfangsmodell habe ich meine Bilder mit build_image_data.py in Tensoren umgewandelt und geladen. Dann habe ich versucht, sie als Eingabe für das Modell zu verwenden, aber die Ausführung bleibt bis zur Funktion model.fit() stehen. Keine CPU-Auslastung und danach keine Ausgabe. HierTensorflow beginnt nicht mit dem Training

ist der entsprechende Code:

from __future__ import absolute_import 
from __future__ import division 
from __future__ import print_function 

import numpy as np 
import tensorflow as tf 

from tensorflow.contrib import learn 
from tensorflow.contrib.learn.python.learn.estimators import model_fn as model_fn_lib 

import image_processing 
import dataset 

tf.logging.set_verbosity(tf.logging.INFO) 

height = 200 
width = 200 

def cnn_model_fn(features, labels, mode): 
    input_layer = tf.reshape(features, [-1, width, height, 1]) 

    con 
    v1 = tf.layers.conv2d(inputs=input_layer, filters=32, kernel_size=[5, 5], padding="same", activation=tf.nn.relu) 
    pool1 = tf.layers.max_pooling2d(inputs=conv1, pool_size=[2, 2], strides=2) 
    conv2 = tf.layers.conv2d(inputs=pool1, filters=64, kernel_size=[5, 5], padding="same", activation=tf.nn.relu) 
    pool2 = tf.layers.max_pooling2d(inputs=conv2, pool_size=[2, 2], strides=2) 
    pool2_flat = tf.reshape(pool2, [-1, (width/4) * (width/4) * 64]) 
    dense = tf.layers.dense(inputs=pool2_flat, units=1024, activation=tf.nn.relu) 
    dropout = tf.layers.dropout(inputs=dense, rate=0.4, training=mode == learn.ModeKeys.TRAIN) 
    logits = tf.layers.dense(inputs=dropout, units=2) 

    loss = None 
    train_op = None 

    if mode != learn.ModeKeys.INFER: 
     onehot_labels = tf.one_hot(indices=tf.cast(labels, tf.int32), depth=2) 
     loss = tf.losses.softmax_cross_entropy(onehot_labels=onehot_labels, logits=logits) 

    if mode == learn.ModeKeys.TRAIN: 
     train_op = tf.contrib.layers.optimize_loss(loss=loss, global_step=tf.contrib.framework.get_global_step(), learning_rate=0.001, optimizer="SGD") 

    predictions = { 
      "classes": tf.argmax(input=logits, axis=1), 
      "probabilities": tf.nn.softmax(logits, name="softmax_tensor") 
    } 

    return model_fn_lib.ModelFnOps(mode=mode, predictions=predictions, loss=loss, train_op=train_op) 

def main(unused_argv): 
    training_data = dataset.Dataset("train-00000-of-00001", "train") 
    validation_data = dataset.Dataset("validation-00000-of-00001", "validation") 
    images, labels = image_processing.inputs(training_data) 
    vimages, vlabels = image_processing.inputs(validation_data) 

    sess = tf.InteractiveSession() 
    feature_classifier = learn.SKCompat(learn.Estimator(model_fn=cnn_model_fn, model_dir="/tmp/feature_model")) 
    tensors_to_log = {"probabilities": "softmax_tensor"} 
    logging_hook = tf.train.LoggingTensorHook(tensors=tensors_to_log, every_n_iter=10) 
    feature_classifier.fit(x=images.eval(), y=labels.eval(), batch_size=100, steps=200000, monitors=[logging_hook]) 
    metrics = { 
      "accuracy": 
        learn.MetricSpec(metric_fn=tf.metrics.accuracy, prediction_key="classes"), 
    } 
    # Evaluate the model and print results 
    eval_results = feature_classifier.evaluate(x=vimages.eval(), y=vlabels.eval(), metrics=metrics) 
    print(eval_results) 

if __name__ == "__main__": 
    tf.app.run()

Die einzige Ausgabe, die es ganz am Anfang gibt, ist:

INFO: tensorflow: Verwenden von Standardkonfiguration. INFO: tensorflow: Verwendung config: { '_save_checkpoints_steps': Keine, '_tf_config': gpu_options { per_process_gpu_memory_fraction: 1 } '_tf_random_seed': Keine, '_keep_checkpoint_max': 5 '_num_ps_replicas': 0, '_MASTER' : '', '_is_chief': True, '_keep_checkpoint_every_n_hours': 10000, '_task_id': 0, '_save_summary_steps': 100, '_task_type': Keine, '_num_worker_replicas': 0, '_save_checkpoints_secs': 600,'_evaluation_master ': '', '_cluster_spec': '_environment': 'local', '_model_dir': Keine}

My-Datensatz ist etwa 31 MB + 6 MB für die Eingabe und Validierungssatz.

Quelle

2017-06-19 Eejin

Sie müssen die Warteschlangenläufer starten. Die folgenden Änderungen am Code sollten funktionieren:

sess = tf.InteractiveSession() 

sess.run(tf.global_variables_initializer()) 
coordinator = tf.train.Coordinator() 
threads = tf.train.start_queue_runners(sess=sess,coord=coordinator) 

feature_classifier = learn.SKCompat(learn.Estimator(model_fn=cnn_model_fn, model_dir="/tmp/feature_model")) 
... 

print(eval_results) 
coordinator.request_stop() 
coordinator.join(threads)

Ein weiterer empfohlene Weg ist, indem sie die folgenden Änderungen die aktualisierten Estimator ‚input_fn‘ Methode zu verwenden:

sess = tf.InteractiveSession() 

feature_classifier = learn.Estimator(model_fn=cnn_model_fn, model_dir="/tmp/feature_model") 
tensors_to_log = {"probabilities": "softmax_tensor"} 
logging_hook = tf.train.LoggingTensorHook(tensors=tensors_to_log, every_n_iter=10) 
feature_classifier.fit(input_fn=lambda:image_processing.inputs(training_data), train=True), steps=200000, monitors=[logging_hook]) 
metrics = { 
     "accuracy": 
       learn.MetricSpec(metric_fn=tf.metrics.accuracy, prediction_key="classes"), 
}

Quelle

2017-06-22 20:31:22

Hallo, nach dem Entfernen „Zug = True)“ Das Modell beginnt auf meiner CPU zu lernen. Jetzt muss ich nur noch beheben, dass auf meiner GPU kein Speicher mehr verfügbar ist. Vielen Dank. – Eejin

Um das Problem mit dem GPU-Speicher zu beheben, muss das Modul image_processing auf der CPU ausgeführt werden. Überprüfen Sie die Best Practices-Leistungsrichtlinien von Tensoflow: https://www.tensorflow.org/performance/performance_guide –

Ich benutze dies aus dem Startmodell: https://github.com/tensorflow/models/blob/master/inception/inception /image_processing.py was genau das zu tun scheint. Aber wenn ich die Anzahl der Neuronen von 1024 auf 512 reduziere, trainiert es auf meiner 2GB GPU. – Eejin

Tensorflow beginnt nicht mit dem Training

Antwort

Verwandte Themen