TensorFlow分散式計算


本章將重點介紹如何開始使用分散式TensorFlow。目的是幫助開發人員了解重複出現的基本分散式TF概念,例如TF伺服器。我們將使用Jupyter Notebook來評估分散式TensorFlow。使用TensorFlow實現分散式計算如下所述 -

第1步 - 為分散式計算匯入必需的模組 -

import tensorflow as tf

第2步 - 使用一個節點建立TensorFlow叢集。讓這個節點負責一個名稱為「worker」的作業,並在localhost:6688上執行一個作業。

cluster_spec = tf.train.ClusterSpec({'worker' : ['localhost:6688']})
server = tf.train.Server(cluster_spec)
server.target

以上指令碼生成以下輸出 -

'grpc://localhost:6688'
The server is currently running.

第3步 - 可以通過執行以下命令計算具有相應對談的伺服器組態 -

server.server_def

以上命令生成以下輸出 -

cluster {
   job {
      name: "worker"
      tasks {
         value: "localhost:6688"
      }
   }
}
job_name: "worker"
protocol: "grpc"

第4步 - 啟動TensorFlow對談,執行引擎是伺服器。使用TensorFlow建立本地伺服器並使用lsof查詢伺服器的位置。

sess = tf.Session(target = server.target)
server = tf.train.Server.create_local_server()

第5步 - 檢視此對談中可用的裝置並關閉相應的對談。

devices = sess.list_devices()
for d in devices:
   print(d.name)
sess.close()

以上命令生成以下輸出 -

/job:worker/replica:0/task:0/device:CPU:0