读取和存储¶

到目前为止，我们介绍了如何处理数据以及如何构建、训练和测试深度学习模型。然而在实际中，我们有时需要把训练好的模型部署到很多不同的设备。在这种情况下，我们可以把内存中训练好的模型参数存储在硬盘上供后续读取使用。

读写`Tensor`¶

我们可以直接使用save函数和load函数分别存储和读取Tensor。下面的例子创建了Tensor变量x，并将其存在文件名同为x的文件里。

In [1]:

import torch
from torch import nn

x = torch.ones(3)
torch.save(x, 'x')

然后我们将数据从存储的文件读回内存。

In [2]:

x2 = torch.load('x')
x2

Out[2]:

tensor([1., 1., 1.])

我们还可以存储一列Tensor并读回内存。

In [3]:

y = torch.zeros(4)
torch.save([x, y], 'xy')
x2, y2 = torch.load('xy')
(x2, y2)

Out[3]:

(tensor([1., 1., 1.]), tensor([0., 0., 0., 0.]))

我们甚至可以存储并读取一个从字符串映射到Tensor的字典。

In [4]:

mydict = {'x': x, 'y': y}
torch.save(mydict, 'mydict')
mydict2 = torch.load('mydict')
mydict2

Out[4]:

{'x': tensor([1., 1., 1.]), 'y': tensor([0., 0., 0., 0.])}

读写模型的参数¶

除Tensor以外，我们还可以读写模型的参数。我们可以使用save方法来保存模型的state_dict，Module类提供了load_state_dict函数来读取模型参数。为了演示方便，我们先创建一个多层感知机，并将其初始化。

In [5]:

class MLP(nn.Module):
    def __init__(self, **kwargs):
        super(MLP, self).__init__(**kwargs)
        self.hidden = nn.Linear(20, 256)
        self.activation = nn.ReLU()
        self.output = nn.Linear(256, 10)
    
    def forward(self, x):
        return self.output(self.activation(self.hidden(x)))
    
net = MLP()
X = torch.rand(2, 20)
Y = net(X)

下面把该模型的参数存成文件，文件名为mlp.params。

In [6]:

filename = 'mlp.params'
torch.save(net.state_dict(), filename)

接下来，我们再实例化一次定义好的多层感知机。与随机初始化模型参数不同，我们在这里直接读取保存在文件里的参数。

In [7]:

net2 = MLP()
net2.load_state_dict(torch.load(filename))

Out[7]:

<All keys matched successfully>

因为这两个实例都有同样的模型参数，那么对同一个输入X的计算结果将会是一样的。我们来验证一下。

In [8]:

Y2 = net2(X)
Y2 == Y

Out[8]:

tensor([[True, True, True, True, True, True, True, True, True, True],
        [True, True, True, True, True, True, True, True, True, True]])

小结¶

通过save函数和load函数可以很方便地读写Tensor。
通过load_state_dict函数可以很方便地读取模型的参数。

练习¶

即使无须把训练好的模型部署到不同的设备，存储模型参数在实际中还有哪些好处？

读取和存储¶

读写Tensor¶

读写模型的参数¶

小结¶

练习¶

扫码直达讨论区¶

读写`Tensor`¶

扫码直达讨论区 ¶