This notebook provides a PyTorch implementation of Deep Residual Learning for Image Recogniton by Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Han Sun which achived state of the art in 2015 by winning the ILSVRC and COCO challenges.
%matplotlib inline
%reload_ext autoreload
%autoreload 2
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import torch
from torch import nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import transforms
from torchvision import datasets
from torch.utils.data.sampler import SubsetRandomSampler
from resnet import ResNet
from data_loader import get_data_loaders, plot_images
from utils import calculate_normalisation_params
from train import train
import warnings
warnings.filterwarnings('ignore')
# GLOBALS
# -----------------------
data_dir = 'data/cifar10'
batch_size = 128
# VISUALISE
# -----------------------
# Load data without normalisations
train_transform = transforms.Compose([
# 4 pixels are padded on each side,
transforms.Pad(4),
# a 32×32 crop is randomly sampled from the
# padded image or its horizontal flip.
transforms.RandomHorizontalFlip(0.5),
transforms.RandomCrop(32),
transforms.ToTensor()
])
test_transform = transforms.Compose([
# For testing, we only evaluate the single
# view of the original 32×32 image.
transforms.ToTensor()
])
train_loader, test_loader = get_data_loaders(data_dir,
batch_size,
train_transform,
test_transform,
shuffle=True,
num_workers=4,
pin_memory=True)
# Training images
data_iter = iter(train_loader)
images, labels = data_iter.next()
X = images.numpy().transpose([0, 2, 3, 1])
plot_images(X, labels)
print(images.shape)
Files already downloaded and verified Files already downloaded and verified
torch.Size([128, 3, 32, 32])
The training set consists of 50,000 32x32 pixel images. These are padded with 4 pixels on each side, before a crop is randomly sampled from the padded image or its horziontal flip.
The authors cite C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu. Deeply-supervised nets. arXiv:1409.5185, 2014. This paper suggests that 'corner cropping' should be used which could be interpretted one of two ways:
torchvision.transforms.FiveCrop()
in PyTorch.torchvision.transforms.RandomCrop()
in PyTorch.The intended implementation seem ambiguous to me, so I implemented the latter here largely for simplicity.
# Test images
data_iter = iter(test_loader)
images, labels = data_iter.next()
X = images.numpy().transpose([0, 2, 3, 1])
plot_images(X, labels)
print(images.shape)
torch.Size([128, 3, 32, 32])
There are 10,000 images in the test set. These are not transformed.
The authors don't explicitly state if the images are normalised prior to training, however the paper referenced on preprocessing (C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu. Deeply-supervised nets. arXiv:1409.5185, 2014) notes that normalisation is used.
I was unsure if the mean and standard deviation of the dataset should be calculated before or after augmentation for this purpose. It is also unclear if these calcualations should be done across the training and test set combined, or only the training set.
Her I've used the pre-transform training and test set combined.
# NORMALIZATION
# -----------------------
# Calculate the mean and standard deviation of each channel
# for all observations in training and test datasets. The
# results can then be used for normalisation
# Load data without transforms
train_transform = transforms.Compose([
# 4 pixels are padded on each side,
transforms.ToTensor()
])
test_transform = transforms.Compose([
# For testing, we only evaluate the single
# view of the original 32×32 image.
transforms.ToTensor()
])
train_loader, test_loader = get_data_loaders(data_dir,
batch_size,
train_transform,
test_transform,
shuffle=True,
num_workers=4,
pin_memory=True)
# Takes a while to run so I've hardcoded results below
means, stds = calculate_normalisation_params(train_loader, test_loader)
print(f'means: {means}')
print(f'stds: {stds}')
Files already downloaded and verified Files already downloaded and verified means: [0.4918687901200927, 0.49185976472299225, 0.4918583862227116] stds: [0.24697121702736, 0.24696766978537033, 0.2469719877121087]
Here we finalise data augmentation and normalisation parameters ahead of training.
# SET FINAL TRANSFORMS WITH NORMALISATION
# [x] simple data augmentation in [24]
# [x] 4 pixels are padded on each side,
# [x] and a 32×32 crop is randomly sampled from the padded image or its horizontal flip.
# [x] For testing, we only evaluate the single view of the original 32×32 image.
# Normalisation parameters fo CIFAR10
means = [0.4918687901200927, 0.49185976472299225, 0.4918583862227116]
stds = [0.24697121702736, 0.24696766978537033, 0.2469719877121087]
normalize = transforms.Normalize(
mean=means,
std=stds,
)
train_transform = transforms.Compose([
# 4 pixels are padded on each side,
transforms.Pad(4),
# a 32×32 crop is randomly sampled from the
# padded image or its horizontal flip.
transforms.RandomHorizontalFlip(0.5),
transforms.RandomCrop(32),
transforms.ToTensor(),
normalize
])
test_transform = transforms.Compose([
# For testing, we only evaluate the single
# view of the original 32×32 image.
transforms.ToTensor(),
normalize
])
Notes:
The authors report their results in term of training iterations. I've assumed an iteration here means a forwards and backwards pass of a batch of 128 observations through the entire network.
It seems more convenient to work in epochs in PyTorch, so here I calculate the integer number of iterations per epoch for later conversions. The results is 391 iterations per epoch. An epoch is a forwards and backwards pass for all observations in the training set.
# How many iterations in an epoch?
iterations = 0
for i, data in enumerate(train_loader, 0):
iterations +=1
print(iterations)
391
Set the hyperparameters as described by the authors, with iterations converted to epochs where appropriate.
# TRAINING PARAMETERS
# -------------------------
# Authors cite 64k iterations
# 64000/391 = 164
epochs = 164
# OPTIMISER PARAMETERS
lr = 0.1 # authors cite 0.1
momentum = 0.9
weight_decay = 0.0001
# LEARNING RATE ADJUSTMENT
# Reduce learning rate at iterations
# 32k and 48k. Convert to epochs:
# e.g. iterations / (n_observations/batch_size)
# 32000/391 = 82
# 48000/391 = 123
milestones = [82, 123]
# Divide learning rate by 10 at each milestone
gamma = 0.1
Run training loop for 'plain' convolutional networks without shortcuts. Here we run for n={3, 5, 7,9} corresponding to networks of depth 20, 32, 44 and 64 layers.
# TRAIN PLAIN NETs
# n determines network size as described in paper
# where total number of layers is (6*n)+2
ns = [3, 5, 7, 9]
# Train plainnets
for n in ns:
print(f'MODEL SIZE: n={n}')
# Reload data
train_loader, test_loader = get_data_loaders(data_dir,
batch_size,
train_transform,
test_transform,
shuffle=True,
num_workers=4,
pin_memory=True)
model = ResNet(n, shortcuts=False)
criterion = torch.nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=lr, momentum=momentum, weight_decay=weight_decay)
scheduler = optim.lr_scheduler.MultiStepLR(optimizer, milestones=milestones, gamma=gamma)
results_file = f'results/plainnet{6*n+2}.csv'
model_file = f'pretrained/plainnet{6*n+2}.pt'
train(model, epochs, train_loader, test_loader, criterion,
optimizer, results_file, scheduler=scheduler, MODEL_PATH=model_file)
MODEL SIZE: n=3 Files already downloaded and verified Files already downloaded and verified cuda:0 Epoch Batch NLLLoss_Train 1 50 2.116 1 100 1.888 1 150 1.773 1 200 1.719 1 250 1.637 1 300 1.619 1 350 1.555 train_err: 0.61566 test_err: 0.6069 2 50 1.476 2 100 1.421 2 150 1.374 2 200 1.332 2 250 1.275 2 300 1.265 2 350 1.206 train_err: 0.51664 test_err: 0.4997 3 50 1.142 3 100 1.125 3 150 1.099 3 200 1.085 3 250 1.054 3 300 1.009 3 350 0.995 train_err: 0.38914 test_err: 0.382 4 50 0.924 4 100 0.932 4 150 0.902 4 200 0.885 4 250 0.888 4 300 0.863 4 350 0.853 train_err: 0.29854 test_err: 0.2992 5 50 0.816 5 100 0.796 5 150 0.815 5 200 0.789 5 250 0.762 5 300 0.774 5 350 0.770 train_err: 0.28306 test_err: 0.2897 6 50 0.734 6 100 0.755 6 150 0.727 6 200 0.730 6 250 0.719 6 300 0.738 6 350 0.680 train_err: 0.27448 test_err: 0.2744 7 50 0.653 7 100 0.694 7 150 0.684 7 200 0.684 7 250 0.666 7 300 0.688 7 350 0.665 train_err: 0.2608 test_err: 0.2684 8 50 0.613 8 100 0.646 8 150 0.614 8 200 0.632 8 250 0.632 8 300 0.631 8 350 0.627 train_err: 0.21076 test_err: 0.2224 9 50 0.600 9 100 0.592 9 150 0.616 9 200 0.598 9 250 0.619 9 300 0.610 9 350 0.576 train_err: 0.28888 test_err: 0.2835 10 50 0.597 10 100 0.547 10 150 0.580 10 200 0.591 10 250 0.569 10 300 0.552 10 350 0.597 train_err: 0.22138 test_err: 0.2315 11 50 0.545 11 100 0.532 11 150 0.569 11 200 0.546 11 250 0.564 11 300 0.552 11 350 0.559 train_err: 0.21286 test_err: 0.2237 12 50 0.550 12 100 0.526 12 150 0.543 12 200 0.552 12 250 0.525 12 300 0.514 12 350 0.531 train_err: 0.22078 test_err: 0.232 13 50 0.517 13 100 0.509 13 150 0.514 13 200 0.495 13 250 0.517 13 300 0.527 13 350 0.487 train_err: 0.20078 test_err: 0.2097 14 50 0.486 14 100 0.485 14 150 0.515 14 200 0.504 14 250 0.501 14 300 0.509 14 350 0.489 train_err: 0.23742 test_err: 0.2532 15 50 0.479 15 100 0.473 15 150 0.478 15 200 0.490 15 250 0.464 15 300 0.501 15 350 0.505 train_err: 0.16326 test_err: 0.1834 16 50 0.468 16 100 0.466 16 150 0.460 16 200 0.476 16 250 0.494 16 300 0.484 16 350 0.464 train_err: 0.18656 test_err: 0.1997 17 50 0.458 17 100 0.462 17 150 0.455 17 200 0.462 17 250 0.469 17 300 0.458 17 350 0.463 train_err: 0.16804 test_err: 0.1885 18 50 0.449 18 100 0.451 18 150 0.428 18 200 0.458 18 250 0.436 18 300 0.488 18 350 0.462 train_err: 0.17634 test_err: 0.202 19 50 0.440 19 100 0.452 19 150 0.465 19 200 0.449 19 250 0.433 19 300 0.439 19 350 0.439 train_err: 0.1731 test_err: 0.1949 20 50 0.419 20 100 0.441 20 150 0.424 20 200 0.420 20 250 0.439 20 300 0.453 20 350 0.435 train_err: 0.1826 test_err: 0.21 21 50 0.408 21 100 0.422 21 150 0.449 21 200 0.453 21 250 0.433 21 300 0.409 21 350 0.439 train_err: 0.16226 test_err: 0.1946 22 50 0.402 22 100 0.413 22 150 0.406 22 200 0.418 22 250 0.425 22 300 0.430 22 350 0.422 train_err: 0.16836 test_err: 0.2021 23 50 0.401 23 100 0.405 23 150 0.441 23 200 0.404 23 250 0.415 23 300 0.438 23 350 0.427 train_err: 0.13858 test_err: 0.1649 24 50 0.391 24 100 0.396 24 150 0.390 24 200 0.419 24 250 0.411 24 300 0.418 24 350 0.428 train_err: 0.19374 test_err: 0.2225 25 50 0.401 25 100 0.398 25 150 0.397 25 200 0.378 25 250 0.411 25 300 0.396 25 350 0.410 train_err: 0.15314 test_err: 0.1889 26 50 0.375 26 100 0.383 26 150 0.368 26 200 0.398 26 250 0.391 26 300 0.415 26 350 0.412 train_err: 0.17602 test_err: 0.211 27 50 0.387 27 100 0.394 27 150 0.371 27 200 0.396 27 250 0.370 27 300 0.416 27 350 0.413 train_err: 0.163 test_err: 0.1908 28 50 0.369 28 100 0.393 28 150 0.370 28 200 0.397 28 250 0.384 28 300 0.427 28 350 0.392 train_err: 0.15568 test_err: 0.1808 29 50 0.393 29 100 0.357 29 150 0.369 29 200 0.382 29 250 0.405 29 300 0.387 29 350 0.369 train_err: 0.14926 test_err: 0.1723 30 50 0.350 30 100 0.373 30 150 0.396 30 200 0.373 30 250 0.411 30 300 0.378 30 350 0.391 train_err: 0.15078 test_err: 0.185 31 50 0.354 31 100 0.365 31 150 0.367 31 200 0.379 31 250 0.364 31 300 0.371 31 350 0.383 train_err: 0.1472 test_err: 0.1732 32 50 0.357 32 100 0.366 32 150 0.376 32 200 0.381 32 250 0.403 32 300 0.374 32 350 0.347 train_err: 0.15504 test_err: 0.1912 33 50 0.335 33 100 0.379 33 150 0.384 33 200 0.361 33 250 0.374 33 300 0.369 33 350 0.369 train_err: 0.13682 test_err: 0.1733 34 50 0.337 34 100 0.357 34 150 0.353 34 200 0.354 34 250 0.351 34 300 0.372 34 350 0.409 train_err: 0.1631 test_err: 0.1911 35 50 0.335 35 100 0.349 35 150 0.363 35 200 0.340 35 250 0.364 35 300 0.363 35 350 0.376 train_err: 0.15996 test_err: 0.1883 36 50 0.353 36 100 0.342 36 150 0.348 36 200 0.360 36 250 0.368 36 300 0.361 36 350 0.357 train_err: 0.13868 test_err: 0.1759 37 50 0.316 37 100 0.359 37 150 0.369 37 200 0.355 37 250 0.340 37 300 0.363 37 350 0.364 train_err: 0.1691 test_err: 0.1995 38 50 0.338 38 100 0.328 38 150 0.348 38 200 0.360 38 250 0.365 38 300 0.356 38 350 0.335 train_err: 0.13052 test_err: 0.1602 39 50 0.339 39 100 0.334 39 150 0.334 39 200 0.369 39 250 0.362 39 300 0.366 39 350 0.332 train_err: 0.14412 test_err: 0.1754 40 50 0.321 40 100 0.344 40 150 0.336 40 200 0.355 40 250 0.358 40 300 0.347 40 350 0.349 train_err: 0.18566 test_err: 0.2156 41 50 0.334 41 100 0.343 41 150 0.320 41 200 0.325 41 250 0.350 41 300 0.348 41 350 0.375 train_err: 0.15364 test_err: 0.18 42 50 0.300 42 100 0.339 42 150 0.329 42 200 0.366 42 250 0.349 42 300 0.339 42 350 0.352 train_err: 0.11718 test_err: 0.1514 43 50 0.317 43 100 0.335 43 150 0.348 43 200 0.330 43 250 0.332 43 300 0.323 43 350 0.351 train_err: 0.14472 test_err: 0.171 44 50 0.314 44 100 0.338 44 150 0.329 44 200 0.325 44 250 0.347 44 300 0.324 44 350 0.342 train_err: 0.15642 test_err: 0.1825 45 50 0.311 45 100 0.309 45 150 0.333 45 200 0.355 45 250 0.338 45 300 0.339 45 350 0.350 train_err: 0.14308 test_err: 0.1815 46 50 0.316 46 100 0.310 46 150 0.335 46 200 0.332 46 250 0.330 46 300 0.362 46 350 0.336 train_err: 0.13874 test_err: 0.1695 47 50 0.325 47 100 0.321 47 150 0.342 47 200 0.320 47 250 0.319 47 300 0.316 47 350 0.337 train_err: 0.1282 test_err: 0.1632 48 50 0.305 48 100 0.300 48 150 0.345 48 200 0.326 48 250 0.305 48 300 0.345 48 350 0.321 train_err: 0.13538 test_err: 0.1709 49 50 0.339 49 100 0.318 49 150 0.305 49 200 0.325 49 250 0.323 49 300 0.329 49 350 0.339 train_err: 0.12818 test_err: 0.1597 50 50 0.317 50 100 0.314 50 150 0.341 50 200 0.315 50 250 0.328 50 300 0.314 50 350 0.314 train_err: 0.12598 test_err: 0.1658 51 50 0.303 51 100 0.293 51 150 0.312 51 200 0.314 51 250 0.350 51 300 0.318 51 350 0.332 train_err: 0.17172 test_err: 0.2044 52 50 0.288 52 100 0.309 52 150 0.301 52 200 0.348 52 250 0.296 52 300 0.335 52 350 0.325 train_err: 0.11492 test_err: 0.1541 53 50 0.289 53 100 0.299 53 150 0.311 53 200 0.329 53 250 0.330 53 300 0.348 53 350 0.328 train_err: 0.12148 test_err: 0.1578 54 50 0.294 54 100 0.291 54 150 0.311 54 200 0.319 54 250 0.324 54 300 0.331 54 350 0.317 train_err: 0.12962 test_err: 0.1589 55 50 0.287 55 100 0.310 55 150 0.318 55 200 0.313 55 250 0.330 55 300 0.328 55 350 0.323 train_err: 0.12178 test_err: 0.1625 56 50 0.288 56 100 0.281 56 150 0.320 56 200 0.329 56 250 0.308 56 300 0.325 56 350 0.320 train_err: 0.12416 test_err: 0.1611 57 50 0.308 57 100 0.300 57 150 0.292 57 200 0.300 57 250 0.325 57 300 0.339 57 350 0.330 train_err: 0.12116 test_err: 0.1563 58 50 0.281 58 100 0.311 58 150 0.296 58 200 0.310 58 250 0.315 58 300 0.309 58 350 0.324 train_err: 0.1342 test_err: 0.174 59 50 0.282 59 100 0.298 59 150 0.320 59 200 0.303 59 250 0.331 59 300 0.321 59 350 0.320 train_err: 0.13712 test_err: 0.1685 60 50 0.291 60 100 0.311 60 150 0.315 60 200 0.324 60 250 0.307 60 300 0.305 60 350 0.316 train_err: 0.11916 test_err: 0.1568 61 50 0.286 61 100 0.301 61 150 0.309 61 200 0.328 61 250 0.299 61 300 0.318 61 350 0.288 train_err: 0.12008 test_err: 0.1563 62 50 0.299 62 100 0.302 62 150 0.277 62 200 0.294 62 250 0.316 62 300 0.296 62 350 0.327 train_err: 0.1325 test_err: 0.1657 63 50 0.282 63 100 0.299 63 150 0.293 63 200 0.300 63 250 0.295 63 300 0.318 63 350 0.330 train_err: 0.19158 test_err: 0.2222 64 50 0.282 64 100 0.294 64 150 0.297 64 200 0.288 64 250 0.296 64 300 0.313 64 350 0.315 train_err: 0.10678 test_err: 0.1476 65 50 0.272 65 100 0.309 65 150 0.298 65 200 0.299 65 250 0.302 65 300 0.308 65 350 0.313 train_err: 0.1467 test_err: 0.1773 66 50 0.282 66 100 0.292 66 150 0.269 66 200 0.293 66 250 0.326 66 300 0.315 66 350 0.304 train_err: 0.1288 test_err: 0.1665 67 50 0.279 67 100 0.297 67 150 0.304 67 200 0.296 67 250 0.303 67 300 0.304 67 350 0.309 train_err: 0.15094 test_err: 0.1909 68 50 0.293 68 100 0.305 68 150 0.302 68 200 0.297 68 250 0.292 68 300 0.311 68 350 0.293 train_err: 0.1322 test_err: 0.185 69 50 0.270 69 100 0.306 69 150 0.283 69 200 0.300 69 250 0.308 69 300 0.289 69 350 0.300 train_err: 0.1167 test_err: 0.1562 70 50 0.274 70 100 0.265 70 150 0.293 70 200 0.304 70 250 0.292 70 300 0.289 70 350 0.283 train_err: 0.12972 test_err: 0.1635 71 50 0.306 71 100 0.298 71 150 0.318 71 200 0.299 71 250 0.271 71 300 0.284 71 350 0.314 train_err: 0.1213 test_err: 0.1584 72 50 0.275 72 100 0.266 72 150 0.293 72 200 0.303 72 250 0.305 72 300 0.306 72 350 0.295 train_err: 0.14064 test_err: 0.1779 73 50 0.260 73 100 0.314 73 150 0.282 73 200 0.302 73 250 0.294 73 300 0.325 73 350 0.319 train_err: 0.10998 test_err: 0.1492 74 50 0.252 74 100 0.278 74 150 0.277 74 200 0.293 74 250 0.325 74 300 0.293 74 350 0.276 train_err: 0.13514 test_err: 0.1718 75 50 0.284 75 100 0.312 75 150 0.286 75 200 0.300 75 250 0.301 75 300 0.297 75 350 0.286 train_err: 0.12402 test_err: 0.1691 76 50 0.279 76 100 0.277 76 150 0.285 76 200 0.287 76 250 0.303 76 300 0.280 76 350 0.300 train_err: 0.14218 test_err: 0.1823 77 50 0.268 77 100 0.292 77 150 0.287 77 200 0.309 77 250 0.298 77 300 0.304 77 350 0.289 train_err: 0.12744 test_err: 0.1619 78 50 0.267 78 100 0.269 78 150 0.312 78 200 0.303 78 250 0.298 78 300 0.296 78 350 0.302 train_err: 0.13444 test_err: 0.1748 79 50 0.269 79 100 0.287 79 150 0.283 79 200 0.277 79 250 0.282 79 300 0.292 79 350 0.312 train_err: 0.17754 test_err: 0.2086 80 50 0.276 80 100 0.310 80 150 0.283 80 200 0.281 80 250 0.281 80 300 0.291 80 350 0.283 train_err: 0.14244 test_err: 0.178 81 50 0.267 81 100 0.296 81 150 0.272 81 200 0.288 81 250 0.293 81 300 0.294 81 350 0.290 train_err: 0.11658 test_err: 0.1543 82 50 0.264 82 100 0.250 82 150 0.297 82 200 0.266 82 250 0.269 82 300 0.287 82 350 0.309 train_err: 0.13298 test_err: 0.1659 83 50 0.265 83 100 0.272 83 150 0.290 83 200 0.307 83 250 0.284 83 300 0.278 83 350 0.287 train_err: 0.12774 test_err: 0.1715 84 50 0.239 84 100 0.216 84 150 0.194 84 200 0.178 84 250 0.167 84 300 0.167 84 350 0.181 train_err: 0.04918 test_err: 0.1 85 50 0.160 85 100 0.144 85 150 0.149 85 200 0.163 85 250 0.141 85 300 0.157 85 350 0.158 train_err: 0.04334 test_err: 0.1001 86 50 0.137 86 100 0.136 86 150 0.143 86 200 0.139 86 250 0.148 86 300 0.140 86 350 0.145 train_err: 0.03968 test_err: 0.0988 87 50 0.124 87 100 0.140 87 150 0.138 87 200 0.130 87 250 0.132 87 300 0.129 87 350 0.131 train_err: 0.03878 test_err: 0.1002 88 50 0.127 88 100 0.120 88 150 0.135 88 200 0.125 88 250 0.132 88 300 0.127 88 350 0.128 train_err: 0.03502 test_err: 0.0962 89 50 0.118 89 100 0.115 89 150 0.119 89 200 0.120 89 250 0.116 89 300 0.123 89 350 0.120 train_err: 0.0351 test_err: 0.0957 90 50 0.112 90 100 0.113 90 150 0.110 90 200 0.120 90 250 0.125 90 300 0.123 90 350 0.110 train_err: 0.0333 test_err: 0.0954 91 50 0.120 91 100 0.105 91 150 0.111 91 200 0.119 91 250 0.108 91 300 0.108 91 350 0.112 train_err: 0.03298 test_err: 0.0978 92 50 0.101 92 100 0.109 92 150 0.112 92 200 0.111 92 250 0.107 92 300 0.110 92 350 0.103 train_err: 0.03216 test_err: 0.0962 93 50 0.095 93 100 0.108 93 150 0.113 93 200 0.105 93 250 0.107 93 300 0.107 93 350 0.105 train_err: 0.0299 test_err: 0.0976 94 50 0.109 94 100 0.103 94 150 0.105 94 200 0.105 94 250 0.096 94 300 0.099 94 350 0.100 train_err: 0.03076 test_err: 0.0968 95 50 0.093 95 100 0.090 95 150 0.102 95 200 0.105 95 250 0.098 95 300 0.113 95 350 0.101 train_err: 0.02884 test_err: 0.0987 96 50 0.099 96 100 0.094 96 150 0.097 96 200 0.098 96 250 0.092 96 300 0.103 96 350 0.097 train_err: 0.02892 test_err: 0.0991 97 50 0.091 97 100 0.098 97 150 0.099 97 200 0.098 97 250 0.095 97 300 0.094 97 350 0.095 train_err: 0.02626 test_err: 0.098 98 50 0.094 98 100 0.094 98 150 0.093 98 200 0.086 98 250 0.094 98 300 0.098 98 350 0.104 train_err: 0.02722 test_err: 0.0994 99 50 0.092 99 100 0.096 99 150 0.084 99 200 0.090 99 250 0.093 99 300 0.088 99 350 0.090 train_err: 0.0277 test_err: 0.0998 100 50 0.088 100 100 0.079 100 150 0.088 100 200 0.087 100 250 0.102 100 300 0.094 100 350 0.087 train_err: 0.02462 test_err: 0.0958 101 50 0.084 101 100 0.078 101 150 0.093 101 200 0.094 101 250 0.085 101 300 0.085 101 350 0.090 train_err: 0.02562 test_err: 0.0989 102 50 0.082 102 100 0.094 102 150 0.083 102 200 0.087 102 250 0.079 102 300 0.082 102 350 0.085 train_err: 0.02306 test_err: 0.0984 103 50 0.077 103 100 0.078 103 150 0.086 103 200 0.087 103 250 0.084 103 300 0.087 103 350 0.086 train_err: 0.02374 test_err: 0.0955 104 50 0.080 104 100 0.076 104 150 0.076 104 200 0.085 104 250 0.084 104 300 0.086 104 350 0.086 train_err: 0.02206 test_err: 0.0971 105 50 0.082 105 100 0.084 105 150 0.083 105 200 0.075 105 250 0.077 105 300 0.085 105 350 0.077 train_err: 0.02302 test_err: 0.0974 106 50 0.080 106 100 0.075 106 150 0.081 106 200 0.080 106 250 0.074 106 300 0.070 106 350 0.084 train_err: 0.02072 test_err: 0.0972 107 50 0.069 107 100 0.077 107 150 0.081 107 200 0.074 107 250 0.082 107 300 0.074 107 350 0.070 train_err: 0.02236 test_err: 0.1006 108 50 0.075 108 100 0.081 108 150 0.069 108 200 0.066 108 250 0.078 108 300 0.093 108 350 0.081 train_err: 0.02128 test_err: 0.1001 109 50 0.071 109 100 0.071 109 150 0.069 109 200 0.076 109 250 0.073 109 300 0.073 109 350 0.078 train_err: 0.02024 test_err: 0.0968 110 50 0.069 110 100 0.068 110 150 0.070 110 200 0.072 110 250 0.069 110 300 0.076 110 350 0.079 train_err: 0.02084 test_err: 0.1021 111 50 0.070 111 100 0.068 111 150 0.069 111 200 0.065 111 250 0.077 111 300 0.081 111 350 0.078 train_err: 0.02212 test_err: 0.1024 112 50 0.070 112 100 0.073 112 150 0.070 112 200 0.067 112 250 0.076 112 300 0.072 112 350 0.074 train_err: 0.019 test_err: 0.0968 113 50 0.068 113 100 0.069 113 150 0.072 113 200 0.063 113 250 0.070 113 300 0.066 113 350 0.073 train_err: 0.01968 test_err: 0.0968 114 50 0.065 114 100 0.064 114 150 0.070 114 200 0.066 114 250 0.067 114 300 0.080 114 350 0.066 train_err: 0.01818 test_err: 0.0978 115 50 0.061 115 100 0.066 115 150 0.065 115 200 0.068 115 250 0.068 115 300 0.066 115 350 0.069 train_err: 0.019 test_err: 0.0986 116 50 0.065 116 100 0.074 116 150 0.058 116 200 0.064 116 250 0.072 116 300 0.072 116 350 0.064 train_err: 0.0178 test_err: 0.1003 117 50 0.067 117 100 0.066 117 150 0.065 117 200 0.068 117 250 0.071 117 300 0.063 117 350 0.066 train_err: 0.01732 test_err: 0.0999 118 50 0.061 118 100 0.068 118 150 0.059 118 200 0.062 118 250 0.060 118 300 0.061 118 350 0.067 train_err: 0.01884 test_err: 0.1013 119 50 0.060 119 100 0.066 119 150 0.063 119 200 0.070 119 250 0.065 119 300 0.075 119 350 0.067 train_err: 0.01644 test_err: 0.0972 120 50 0.063 120 100 0.058 120 150 0.061 120 200 0.060 120 250 0.063 120 300 0.064 120 350 0.070 train_err: 0.01744 test_err: 0.0998 121 50 0.058 121 100 0.067 121 150 0.065 121 200 0.064 121 250 0.065 121 300 0.064 121 350 0.061 train_err: 0.0184 test_err: 0.1014 122 50 0.063 122 100 0.066 122 150 0.060 122 200 0.065 122 250 0.057 122 300 0.065 122 350 0.065 train_err: 0.01578 test_err: 0.0976 123 50 0.059 123 100 0.058 123 150 0.064 123 200 0.064 123 250 0.066 123 300 0.062 123 350 0.062 train_err: 0.01884 test_err: 0.1024 124 50 0.066 124 100 0.060 124 150 0.058 124 200 0.063 124 250 0.060 124 300 0.063 124 350 0.065 train_err: 0.01648 test_err: 0.1019 125 50 0.058 125 100 0.050 125 150 0.053 125 200 0.049 125 250 0.051 125 300 0.049 125 350 0.048 train_err: 0.01236 test_err: 0.096 126 50 0.047 126 100 0.046 126 150 0.049 126 200 0.045 126 250 0.047 126 300 0.050 126 350 0.048 train_err: 0.01128 test_err: 0.0954 127 50 0.044 127 100 0.044 127 150 0.042 127 200 0.048 127 250 0.044 127 300 0.044 127 350 0.043 train_err: 0.01168 test_err: 0.0957 128 50 0.048 128 100 0.047 128 150 0.045 128 200 0.043 128 250 0.039 128 300 0.048 128 350 0.046 train_err: 0.01042 test_err: 0.0955 129 50 0.043 129 100 0.044 129 150 0.047 129 200 0.049 129 250 0.044 129 300 0.042 129 350 0.045 train_err: 0.01044 test_err: 0.0966 130 50 0.039 130 100 0.044 130 150 0.043 130 200 0.045 130 250 0.049 130 300 0.042 130 350 0.043 train_err: 0.0097 test_err: 0.0964 131 50 0.048 131 100 0.042 131 150 0.042 131 200 0.047 131 250 0.038 131 300 0.041 131 350 0.038 train_err: 0.00922 test_err: 0.0971 132 50 0.045 132 100 0.039 132 150 0.043 132 200 0.044 132 250 0.038 132 300 0.044 132 350 0.046 train_err: 0.00992 test_err: 0.0956 133 50 0.042 133 100 0.041 133 150 0.041 133 200 0.044 133 250 0.044 133 300 0.043 133 350 0.038 train_err: 0.00972 test_err: 0.0966 134 50 0.044 134 100 0.042 134 150 0.038 134 200 0.043 134 250 0.042 134 300 0.043 134 350 0.041 train_err: 0.00962 test_err: 0.0964 135 50 0.036 135 100 0.046 135 150 0.039 135 200 0.044 135 250 0.036 135 300 0.039 135 350 0.042 train_err: 0.0095 test_err: 0.0966 136 50 0.042 136 100 0.039 136 150 0.043 136 200 0.042 136 250 0.043 136 300 0.038 136 350 0.038 train_err: 0.00922 test_err: 0.0971 137 50 0.038 137 100 0.038 137 150 0.036 137 200 0.041 137 250 0.037 137 300 0.040 137 350 0.036 train_err: 0.0093 test_err: 0.0963 138 50 0.041 138 100 0.039 138 150 0.038 138 200 0.043 138 250 0.035 138 300 0.037 138 350 0.047 train_err: 0.00888 test_err: 0.0958 139 50 0.042 139 100 0.041 139 150 0.039 139 200 0.035 139 250 0.045 139 300 0.037 139 350 0.045 train_err: 0.00888 test_err: 0.095 140 50 0.040 140 100 0.047 140 150 0.036 140 200 0.042 140 250 0.038 140 300 0.043 140 350 0.040 train_err: 0.00906 test_err: 0.0953 141 50 0.040 141 100 0.041 141 150 0.034 141 200 0.042 141 250 0.039 141 300 0.042 141 350 0.042 train_err: 0.00824 test_err: 0.0977 142 50 0.048 142 100 0.036 142 150 0.036 142 200 0.042 142 250 0.039 142 300 0.039 142 350 0.039 train_err: 0.00902 test_err: 0.0963 143 50 0.043 143 100 0.040 143 150 0.034 143 200 0.037 143 250 0.042 143 300 0.039 143 350 0.043 train_err: 0.00912 test_err: 0.0973 144 50 0.041 144 100 0.043 144 150 0.037 144 200 0.042 144 250 0.038 144 300 0.037 144 350 0.040 train_err: 0.00776 test_err: 0.0963 145 50 0.040 145 100 0.042 145 150 0.038 145 200 0.040 145 250 0.039 145 300 0.045 145 350 0.039 train_err: 0.0094 test_err: 0.0964 146 50 0.035 146 100 0.039 146 150 0.034 146 200 0.038 146 250 0.040 146 300 0.041 146 350 0.044 train_err: 0.00832 test_err: 0.0957 147 50 0.039 147 100 0.036 147 150 0.037 147 200 0.039 147 250 0.039 147 300 0.039 147 350 0.041 train_err: 0.00842 test_err: 0.0962 148 50 0.044 148 100 0.037 148 150 0.038 148 200 0.037 148 250 0.038 148 300 0.035 148 350 0.035 train_err: 0.00868 test_err: 0.0972 149 50 0.030 149 100 0.037 149 150 0.038 149 200 0.040 149 250 0.045 149 300 0.033 149 350 0.037 train_err: 0.00828 test_err: 0.0969 150 50 0.032 150 100 0.037 150 150 0.040 150 200 0.040 150 250 0.034 150 300 0.040 150 350 0.041 train_err: 0.00806 test_err: 0.0956 151 50 0.046 151 100 0.035 151 150 0.039 151 200 0.036 151 250 0.038 151 300 0.039 151 350 0.035 train_err: 0.00832 test_err: 0.0966 152 50 0.033 152 100 0.042 152 150 0.033 152 200 0.040 152 250 0.034 152 300 0.038 152 350 0.039 train_err: 0.00784 test_err: 0.0963 153 50 0.037 153 100 0.038 153 150 0.037 153 200 0.034 153 250 0.035 153 300 0.037 153 350 0.038 train_err: 0.00806 test_err: 0.096 154 50 0.035 154 100 0.035 154 150 0.039 154 200 0.036 154 250 0.040 154 300 0.038 154 350 0.036 train_err: 0.0079 test_err: 0.0962 155 50 0.036 155 100 0.039 155 150 0.036 155 200 0.040 155 250 0.042 155 300 0.034 155 350 0.038 train_err: 0.0081 test_err: 0.0968 156 50 0.034 156 100 0.037 156 150 0.041 156 200 0.038 156 250 0.036 156 300 0.037 156 350 0.037 train_err: 0.00764 test_err: 0.0971 157 50 0.031 157 100 0.036 157 150 0.037 157 200 0.034 157 250 0.037 157 300 0.040 157 350 0.036 train_err: 0.00786 test_err: 0.0958 158 50 0.038 158 100 0.037 158 150 0.037 158 200 0.041 158 250 0.031 158 300 0.039 158 350 0.041 train_err: 0.00762 test_err: 0.0968 159 50 0.035 159 100 0.032 159 150 0.037 159 200 0.035 159 250 0.035 159 300 0.034 159 350 0.039 train_err: 0.00792 test_err: 0.0977 160 50 0.039 160 100 0.040 160 150 0.036 160 200 0.038 160 250 0.040 160 300 0.033 160 350 0.036 train_err: 0.00742 test_err: 0.0962 161 50 0.036 161 100 0.036 161 150 0.030 161 200 0.034 161 250 0.031 161 300 0.041 161 350 0.036 train_err: 0.00782 test_err: 0.0969 162 50 0.034 162 100 0.037 162 150 0.036 162 200 0.032 162 250 0.034 162 300 0.040 162 350 0.036 train_err: 0.0074 test_err: 0.0966 163 50 0.034 163 100 0.033 163 150 0.034 163 200 0.038 163 250 0.038 163 300 0.036 163 350 0.035 train_err: 0.00734 test_err: 0.0973 164 50 0.035 164 100 0.032 164 150 0.034 164 200 0.035 164 250 0.032 164 300 0.033 164 350 0.036 train_err: 0.00738 test_err: 0.0969 Finished Training MODEL SIZE: n=5 Files already downloaded and verified Files already downloaded and verified cuda:0 Epoch Batch NLLLoss_Train 1 50 2.173 1 100 2.007 1 150 1.940 1 200 1.860 1 250 1.873 1 300 1.797 1 350 1.809 train_err: 0.7054 test_err: 0.6858 2 50 1.732 2 100 1.705 2 150 1.692 2 200 1.674 2 250 1.643 2 300 1.633 2 350 1.627 train_err: 0.62744 test_err: 0.6219 3 50 1.591 3 100 1.602 3 150 1.561 3 200 1.567 3 250 1.526 3 300 1.500 3 350 1.528 train_err: 0.56212 test_err: 0.5533 4 50 1.464 4 100 1.428 4 150 1.437 4 200 1.417 4 250 1.410 4 300 1.398 4 350 1.337 train_err: 0.49986 test_err: 0.4949 5 50 1.329 5 100 1.306 5 150 1.305 5 200 1.310 5 250 1.258 5 300 1.280 5 350 1.234 train_err: 0.43236 test_err: 0.4315 6 50 1.206 6 100 1.169 6 150 1.167 6 200 1.173 6 250 1.133 6 300 1.138 6 350 1.128 train_err: 0.45722 test_err: 0.4408 7 50 1.064 7 100 1.057 7 150 1.090 7 200 1.058 7 250 1.034 7 300 1.022 7 350 1.019 train_err: 0.39264 test_err: 0.3911 8 50 0.999 8 100 0.987 8 150 0.973 8 200 0.962 8 250 0.962 8 300 0.938 8 350 0.961 train_err: 0.44522 test_err: 0.4477 9 50 0.913 9 100 0.921 9 150 0.902 9 200 0.909 9 250 0.882 9 300 0.864 9 350 0.886 train_err: 0.35178 test_err: 0.3434 10 50 0.802 10 100 0.836 10 150 0.813 10 200 0.809 10 250 0.857 10 300 0.824 10 350 0.857 train_err: 0.38952 test_err: 0.3947 11 50 0.777 11 100 0.791 11 150 0.788 11 200 0.773 11 250 0.805 11 300 0.799 11 350 0.769 train_err: 0.36684 test_err: 0.374 12 50 0.771 12 100 0.730 12 150 0.742 12 200 0.745 12 250 0.760 12 300 0.750 12 350 0.749 train_err: 0.2734 test_err: 0.2707 13 50 0.715 13 100 0.721 13 150 0.699 13 200 0.728 13 250 0.725 13 300 0.703 13 350 0.713 train_err: 0.28976 test_err: 0.2956 14 50 0.717 14 100 0.677 14 150 0.690 14 200 0.686 14 250 0.696 14 300 0.668 14 350 0.670 train_err: 0.3532 test_err: 0.3416 15 50 0.667 15 100 0.656 15 150 0.649 15 200 0.651 15 250 0.675 15 300 0.666 15 350 0.647 train_err: 0.22476 test_err: 0.2333 16 50 0.640 16 100 0.615 16 150 0.624 16 200 0.639 16 250 0.630 16 300 0.641 16 350 0.633 train_err: 0.28172 test_err: 0.277 17 50 0.599 17 100 0.624 17 150 0.586 17 200 0.621 17 250 0.605 17 300 0.641 17 350 0.615 train_err: 0.27588 test_err: 0.2928 18 50 0.608 18 100 0.617 18 150 0.602 18 200 0.588 18 250 0.607 18 300 0.587 18 350 0.607 train_err: 0.231 test_err: 0.24 19 50 0.580 19 100 0.580 19 150 0.584 19 200 0.585 19 250 0.584 19 300 0.618 19 350 0.589 train_err: 0.21656 test_err: 0.2322 20 50 0.545 20 100 0.557 20 150 0.567 20 200 0.570 20 250 0.577 20 300 0.582 20 350 0.568 train_err: 0.23852 test_err: 0.2553 21 50 0.541 21 100 0.563 21 150 0.550 21 200 0.544 21 250 0.566 21 300 0.574 21 350 0.574 train_err: 0.23938 test_err: 0.256 22 50 0.517 22 100 0.544 22 150 0.557 22 200 0.542 22 250 0.551 22 300 0.557 22 350 0.537 train_err: 0.20974 test_err: 0.2269 23 50 0.528 23 100 0.524 23 150 0.538 23 200 0.541 23 250 0.533 23 300 0.509 23 350 0.511 train_err: 0.21646 test_err: 0.2334 24 50 0.520 24 100 0.516 24 150 0.535 24 200 0.523 24 250 0.548 24 300 0.520 24 350 0.517 train_err: 0.27262 test_err: 0.2925 25 50 0.515 25 100 0.503 25 150 0.514 25 200 0.534 25 250 0.507 25 300 0.529 25 350 0.545 train_err: 0.21694 test_err: 0.2237 26 50 0.485 26 100 0.507 26 150 0.504 26 200 0.516 26 250 0.512 26 300 0.513 26 350 0.513 train_err: 0.21676 test_err: 0.2255 27 50 0.495 27 100 0.481 27 150 0.528 27 200 0.492 27 250 0.502 27 300 0.489 27 350 0.505 train_err: 0.20052 test_err: 0.2204 28 50 0.470 28 100 0.498 28 150 0.491 28 200 0.516 28 250 0.471 28 300 0.516 28 350 0.487 train_err: 0.1995 test_err: 0.216 29 50 0.474 29 100 0.470 29 150 0.462 29 200 0.495 29 250 0.513 29 300 0.499 29 350 0.473 train_err: 0.22936 test_err: 0.2515 30 50 0.457 30 100 0.462 30 150 0.483 30 200 0.496 30 250 0.480 30 300 0.480 30 350 0.488 train_err: 0.24072 test_err: 0.2611 31 50 0.444 31 100 0.471 31 150 0.463 31 200 0.470 31 250 0.481 31 300 0.465 31 350 0.485 train_err: 0.18906 test_err: 0.2085 32 50 0.480 32 100 0.443 32 150 0.437 32 200 0.481 32 250 0.447 32 300 0.472 32 350 0.471 train_err: 0.19506 test_err: 0.211 33 50 0.451 33 100 0.446 33 150 0.464 33 200 0.429 33 250 0.457 33 300 0.440 33 350 0.478 train_err: 0.2255 test_err: 0.2512 34 50 0.424 34 100 0.452 34 150 0.471 34 200 0.461 34 250 0.478 34 300 0.462 34 350 0.439 train_err: 0.24944 test_err: 0.2584 35 50 0.429 35 100 0.434 35 150 0.463 35 200 0.456 35 250 0.462 35 300 0.459 35 350 0.439 train_err: 0.16574 test_err: 0.1916 36 50 0.448 36 100 0.433 36 150 0.467 36 200 0.439 36 250 0.450 36 300 0.435 36 350 0.465 train_err: 0.16122 test_err: 0.1851 37 50 0.434 37 100 0.458 37 150 0.434 37 200 0.450 37 250 0.447 37 300 0.434 37 350 0.420 train_err: 0.1744 test_err: 0.2041 38 50 0.420 38 100 0.433 38 150 0.433 38 200 0.430 38 250 0.451 38 300 0.440 38 350 0.437 train_err: 0.17288 test_err: 0.1996 39 50 0.412 39 100 0.419 39 150 0.437 39 200 0.421 39 250 0.436 39 300 0.438 39 350 0.456 train_err: 0.16674 test_err: 0.1959 40 50 0.401 40 100 0.422 40 150 0.421 40 200 0.444 40 250 0.429 40 300 0.414 40 350 0.425 train_err: 0.14792 test_err: 0.1753 41 50 0.410 41 100 0.403 41 150 0.438 41 200 0.439 41 250 0.453 41 300 0.454 41 350 0.433 train_err: 0.32422 test_err: 0.3311 42 50 0.431 42 100 0.418 42 150 0.419 42 200 0.405 42 250 0.412 42 300 0.408 42 350 0.426 train_err: 0.23804 test_err: 0.2566 43 50 0.391 43 100 0.410 43 150 0.408 43 200 0.435 43 250 0.396 43 300 0.437 43 350 0.439 train_err: 0.18124 test_err: 0.2205 44 50 0.398 44 100 0.399 44 150 0.415 44 200 0.414 44 250 0.445 44 300 0.416 44 350 0.408 train_err: 0.22136 test_err: 0.2433 45 50 0.398 45 100 0.400 45 150 0.407 45 200 0.414 45 250 0.413 45 300 0.428 45 350 0.392 train_err: 0.1629 test_err: 0.1851 46 50 0.392 46 100 0.399 46 150 0.422 46 200 0.424 46 250 0.396 46 300 0.418 46 350 0.399 train_err: 0.1692 test_err: 0.1853 47 50 0.391 47 100 0.404 47 150 0.423 47 200 0.395 47 250 0.416 47 300 0.400 47 350 0.418 train_err: 0.18322 test_err: 0.2148 48 50 0.405 48 100 0.377 48 150 0.407 48 200 0.410 48 250 0.411 48 300 0.394 48 350 0.403 train_err: 0.18788 test_err: 0.2083 49 50 0.401 49 100 0.394 49 150 0.397 49 200 0.394 49 250 0.417 49 300 0.389 49 350 0.414 train_err: 0.23014 test_err: 0.246 50 50 0.391 50 100 0.402 50 150 0.381 50 200 0.400 50 250 0.386 50 300 0.411 50 350 0.400 train_err: 0.17376 test_err: 0.1927 51 50 0.370 51 100 0.383 51 150 0.389 51 200 0.394 51 250 0.417 51 300 0.408 51 350 0.408 train_err: 0.17776 test_err: 0.2096 52 50 0.362 52 100 0.364 52 150 0.411 52 200 0.386 52 250 0.399 52 300 0.384 52 350 0.430 train_err: 0.22356 test_err: 0.2593 53 50 0.385 53 100 0.404 53 150 0.405 53 200 0.381 53 250 0.402 53 300 0.380 53 350 0.387 train_err: 0.19844 test_err: 0.2248 54 50 0.390 54 100 0.355 54 150 0.380 54 200 0.398 54 250 0.382 54 300 0.411 54 350 0.373 train_err: 0.17292 test_err: 0.2028 55 50 0.362 55 100 0.398 55 150 0.388 55 200 0.407 55 250 0.369 55 300 0.386 55 350 0.403 train_err: 0.15362 test_err: 0.1872 56 50 0.353 56 100 0.365 56 150 0.386 56 200 0.398 56 250 0.406 56 300 0.390 56 350 0.386 train_err: 0.18644 test_err: 0.2141 57 50 0.364 57 100 0.361 57 150 0.370 57 200 0.376 57 250 0.366 57 300 0.389 57 350 0.368 train_err: 0.19218 test_err: 0.209 58 50 0.373 58 100 0.387 58 150 0.366 58 200 0.393 58 250 0.384 58 300 0.408 58 350 0.378 train_err: 0.1427 test_err: 0.1738 59 50 0.361 59 100 0.367 59 150 0.370 59 200 0.357 59 250 0.380 59 300 0.394 59 350 0.376 train_err: 0.16978 test_err: 0.2035 60 50 0.353 60 100 0.360 60 150 0.363 60 200 0.382 60 250 0.366 60 300 0.401 60 350 0.360 train_err: 0.18206 test_err: 0.1991 61 50 0.356 61 100 0.369 61 150 0.360 61 200 0.363 61 250 0.412 61 300 0.371 61 350 0.375 train_err: 0.21652 test_err: 0.2294 62 50 0.371 62 100 0.361 62 150 0.386 62 200 0.380 62 250 0.376 62 300 0.358 62 350 0.378 train_err: 0.1541 test_err: 0.1866 63 50 0.341 63 100 0.374 63 150 0.374 63 200 0.381 63 250 0.399 63 300 0.404 63 350 0.365 train_err: 0.13218 test_err: 0.1648 64 50 0.340 64 100 0.340 64 150 0.348 64 200 0.375 64 250 0.372 64 300 0.383 64 350 0.398 train_err: 0.13306 test_err: 0.1625 65 50 0.339 65 100 0.353 65 150 0.363 65 200 0.358 65 250 0.348 65 300 0.378 65 350 0.410 train_err: 0.1462 test_err: 0.1734 66 50 0.340 66 100 0.355 66 150 0.375 66 200 0.364 66 250 0.378 66 300 0.359 66 350 0.375 train_err: 0.14282 test_err: 0.1808 67 50 0.348 67 100 0.346 67 150 0.369 67 200 0.392 67 250 0.381 67 300 0.362 67 350 0.341 train_err: 0.1532 test_err: 0.1837 68 50 0.353 68 100 0.351 68 150 0.354 68 200 0.368 68 250 0.375 68 300 0.375 68 350 0.378 train_err: 0.16894 test_err: 0.189 69 50 0.351 69 100 0.351 69 150 0.357 69 200 0.345 69 250 0.352 69 300 0.374 69 350 0.363 train_err: 0.19656 test_err: 0.2237 70 50 0.364 70 100 0.350 70 150 0.344 70 200 0.367 70 250 0.365 70 300 0.354 70 350 0.356 train_err: 0.19896 test_err: 0.2158 71 50 0.360 71 100 0.354 71 150 0.336 71 200 0.367 71 250 0.348 71 300 0.350 71 350 0.373 train_err: 0.12164 test_err: 0.1562 72 50 0.334 72 100 0.340 72 150 0.350 72 200 0.365 72 250 0.372 72 300 0.378 72 350 0.372 train_err: 0.13966 test_err: 0.1701 73 50 0.306 73 100 0.358 73 150 0.370 73 200 0.358 73 250 0.361 73 300 0.344 73 350 0.357 train_err: 0.19066 test_err: 0.2181 74 50 0.338 74 100 0.345 74 150 0.342 74 200 0.348 74 250 0.363 74 300 0.350 74 350 0.356 train_err: 0.1679 test_err: 0.1921 75 50 0.344 75 100 0.350 75 150 0.383 75 200 0.334 75 250 0.340 75 300 0.370 75 350 0.349 train_err: 0.15328 test_err: 0.1821 76 50 0.309 76 100 0.362 76 150 0.334 76 200 0.355 76 250 0.336 76 300 0.362 76 350 0.350 train_err: 0.15826 test_err: 0.18 77 50 0.336 77 100 0.323 77 150 0.353 77 200 0.356 77 250 0.344 77 300 0.344 77 350 0.350 train_err: 0.13216 test_err: 0.1678 78 50 0.346 78 100 0.325 78 150 0.321 78 200 0.349 78 250 0.349 78 300 0.372 78 350 0.340 train_err: 0.15922 test_err: 0.1961 79 50 0.343 79 100 0.356 79 150 0.365 79 200 0.340 79 250 0.354 79 300 0.339 79 350 0.337 train_err: 0.16226 test_err: 0.1881 80 50 0.340 80 100 0.337 80 150 0.342 80 200 0.342 80 250 0.370 80 300 0.335 80 350 0.364 train_err: 0.1551 test_err: 0.1739 81 50 0.330 81 100 0.349 81 150 0.343 81 200 0.345 81 250 0.339 81 300 0.357 81 350 0.351 train_err: 0.1649 test_err: 0.1831 82 50 0.348 82 100 0.338 82 150 0.350 82 200 0.332 82 250 0.339 82 300 0.352 82 350 0.335 train_err: 0.13866 test_err: 0.1688 83 50 0.359 83 100 0.339 83 150 0.329 83 200 0.339 83 250 0.347 83 300 0.340 83 350 0.361 train_err: 0.11998 test_err: 0.1546 84 50 0.293 84 100 0.238 84 150 0.234 84 200 0.213 84 250 0.207 84 300 0.211 84 350 0.202 train_err: 0.05932 test_err: 0.1102 85 50 0.178 85 100 0.193 85 150 0.176 85 200 0.184 85 250 0.183 85 300 0.178 85 350 0.179 train_err: 0.05426 test_err: 0.1058 86 50 0.165 86 100 0.175 86 150 0.181 86 200 0.167 86 250 0.177 86 300 0.162 86 350 0.164 train_err: 0.04976 test_err: 0.105 87 50 0.147 87 100 0.157 87 150 0.157 87 200 0.160 87 250 0.158 87 300 0.160 87 350 0.160 train_err: 0.047 test_err: 0.1049 88 50 0.151 88 100 0.150 88 150 0.161 88 200 0.156 88 250 0.144 88 300 0.146 88 350 0.149 train_err: 0.04548 test_err: 0.1044 89 50 0.142 89 100 0.145 89 150 0.146 89 200 0.139 89 250 0.141 89 300 0.151 89 350 0.155 train_err: 0.043 test_err: 0.104 90 50 0.133 90 100 0.133 90 150 0.142 90 200 0.140 90 250 0.138 90 300 0.141 90 350 0.151 train_err: 0.04156 test_err: 0.1036 91 50 0.140 91 100 0.139 91 150 0.129 91 200 0.138 91 250 0.134 91 300 0.139 91 350 0.145 train_err: 0.0412 test_err: 0.1028 92 50 0.137 92 100 0.128 92 150 0.131 92 200 0.141 92 250 0.134 92 300 0.136 92 350 0.126 train_err: 0.03936 test_err: 0.1044 93 50 0.131 93 100 0.124 93 150 0.124 93 200 0.130 93 250 0.132 93 300 0.143 93 350 0.125 train_err: 0.0383 test_err: 0.1042 94 50 0.116 94 100 0.116 94 150 0.125 94 200 0.134 94 250 0.133 94 300 0.129 94 350 0.127 train_err: 0.03672 test_err: 0.1045 95 50 0.108 95 100 0.122 95 150 0.117 95 200 0.113 95 250 0.128 95 300 0.117 95 350 0.122 train_err: 0.03506 test_err: 0.1038 96 50 0.106 96 100 0.116 96 150 0.105 96 200 0.111 96 250 0.117 96 300 0.123 96 350 0.126 train_err: 0.03396 test_err: 0.104 97 50 0.120 97 100 0.107 97 150 0.121 97 200 0.115 97 250 0.114 97 300 0.116 97 350 0.112 train_err: 0.03452 test_err: 0.1015 98 50 0.121 98 100 0.116 98 150 0.103 98 200 0.116 98 250 0.113 98 300 0.104 98 350 0.116 train_err: 0.0325 test_err: 0.101 99 50 0.100 99 100 0.107 99 150 0.106 99 200 0.106 99 250 0.111 99 300 0.117 99 350 0.114 train_err: 0.03312 test_err: 0.1034 100 50 0.106 100 100 0.113 100 150 0.099 100 200 0.112 100 250 0.112 100 300 0.111 100 350 0.114 train_err: 0.03312 test_err: 0.1037 101 50 0.098 101 100 0.107 101 150 0.102 101 200 0.107 101 250 0.114 101 300 0.100 101 350 0.110 train_err: 0.02984 test_err: 0.1048 102 50 0.093 102 100 0.103 102 150 0.100 102 200 0.099 102 250 0.097 102 300 0.097 102 350 0.107 train_err: 0.02986 test_err: 0.1042 103 50 0.098 103 100 0.103 103 150 0.101 103 200 0.100 103 250 0.100 103 300 0.096 103 350 0.097 train_err: 0.02862 test_err: 0.1037 104 50 0.101 104 100 0.098 104 150 0.094 104 200 0.109 104 250 0.100 104 300 0.102 104 350 0.104 train_err: 0.02972 test_err: 0.1051 105 50 0.089 105 100 0.101 105 150 0.099 105 200 0.097 105 250 0.105 105 300 0.095 105 350 0.090 train_err: 0.02918 test_err: 0.1055 106 50 0.088 106 100 0.091 106 150 0.100 106 200 0.095 106 250 0.090 106 300 0.103 106 350 0.099 train_err: 0.02644 test_err: 0.1033 107 50 0.085 107 100 0.091 107 150 0.085 107 200 0.094 107 250 0.100 107 300 0.095 107 350 0.095 train_err: 0.03232 test_err: 0.1088 108 50 0.096 108 100 0.087 108 150 0.097 108 200 0.087 108 250 0.087 108 300 0.101 108 350 0.096 train_err: 0.02992 test_err: 0.1056 109 50 0.079 109 100 0.086 109 150 0.090 109 200 0.088 109 250 0.092 109 300 0.091 109 350 0.085 train_err: 0.02818 test_err: 0.1048 110 50 0.090 110 100 0.089 110 150 0.088 110 200 0.090 110 250 0.093 110 300 0.084 110 350 0.087 train_err: 0.02644 test_err: 0.1039 111 50 0.083 111 100 0.077 111 150 0.084 111 200 0.084 111 250 0.083 111 300 0.086 111 350 0.091 train_err: 0.02368 test_err: 0.1022 112 50 0.076 112 100 0.082 112 150 0.090 112 200 0.079 112 250 0.092 112 300 0.080 112 350 0.093 train_err: 0.02442 test_err: 0.103 113 50 0.068 113 100 0.084 113 150 0.083 113 200 0.085 113 250 0.093 113 300 0.091 113 350 0.085 train_err: 0.0258 test_err: 0.1035 114 50 0.069 114 100 0.078 114 150 0.079 114 200 0.084 114 250 0.091 114 300 0.089 114 350 0.088 train_err: 0.02282 test_err: 0.1046 115 50 0.081 115 100 0.077 115 150 0.084 115 200 0.085 115 250 0.083 115 300 0.080 115 350 0.077 train_err: 0.02364 test_err: 0.1016 116 50 0.073 116 100 0.079 116 150 0.080 116 200 0.078 116 250 0.083 116 300 0.082 116 350 0.075 train_err: 0.0243 test_err: 0.1051 117 50 0.081 117 100 0.081 117 150 0.079 117 200 0.075 117 250 0.075 117 300 0.084 117 350 0.073 train_err: 0.024 test_err: 0.1058 118 50 0.072 118 100 0.081 118 150 0.085 118 200 0.077 118 250 0.078 118 300 0.079 118 350 0.092 train_err: 0.0225 test_err: 0.1076 119 50 0.079 119 100 0.066 119 150 0.068 119 200 0.074 119 250 0.078 119 300 0.071 119 350 0.073 train_err: 0.02082 test_err: 0.104 120 50 0.071 120 100 0.080 120 150 0.076 120 200 0.079 120 250 0.068 120 300 0.077 120 350 0.080 train_err: 0.02508 test_err: 0.106 121 50 0.081 121 100 0.071 121 150 0.077 121 200 0.078 121 250 0.075 121 300 0.065 121 350 0.065 train_err: 0.02266 test_err: 0.1013 122 50 0.072 122 100 0.070 122 150 0.074 122 200 0.086 122 250 0.075 122 300 0.079 122 350 0.075 train_err: 0.0223 test_err: 0.1069 123 50 0.067 123 100 0.074 123 150 0.077 123 200 0.070 123 250 0.078 123 300 0.083 123 350 0.072 train_err: 0.0204 test_err: 0.1027 124 50 0.076 124 100 0.067 124 150 0.068 124 200 0.066 124 250 0.074 124 300 0.080 124 350 0.075 train_err: 0.0217 test_err: 0.1058 125 50 0.066 125 100 0.063 125 150 0.063 125 200 0.060 125 250 0.058 125 300 0.050 125 350 0.063 train_err: 0.01452 test_err: 0.1029 126 50 0.056 126 100 0.054 126 150 0.050 126 200 0.051 126 250 0.053 126 300 0.059 126 350 0.060 train_err: 0.01256 test_err: 0.1016 127 50 0.055 127 100 0.054 127 150 0.047 127 200 0.048 127 250 0.055 127 300 0.052 127 350 0.046 train_err: 0.01252 test_err: 0.1002 128 50 0.046 128 100 0.047 128 150 0.050 128 200 0.050 128 250 0.053 128 300 0.047 128 350 0.050 train_err: 0.0131 test_err: 0.102 129 50 0.049 129 100 0.047 129 150 0.043 129 200 0.051 129 250 0.056 129 300 0.047 129 350 0.046 train_err: 0.012 test_err: 0.1022 130 50 0.049 130 100 0.046 130 150 0.053 130 200 0.049 130 250 0.046 130 300 0.046 130 350 0.042 train_err: 0.01152 test_err: 0.1004 131 50 0.043 131 100 0.044 131 150 0.048 131 200 0.052 131 250 0.044 131 300 0.046 131 350 0.052 train_err: 0.0114 test_err: 0.1012 132 50 0.043 132 100 0.050 132 150 0.044 132 200 0.043 132 250 0.045 132 300 0.046 132 350 0.046 train_err: 0.01144 test_err: 0.1016 133 50 0.043 133 100 0.043 133 150 0.042 133 200 0.047 133 250 0.049 133 300 0.047 133 350 0.045 train_err: 0.01134 test_err: 0.1024 134 50 0.046 134 100 0.043 134 150 0.045 134 200 0.047 134 250 0.041 134 300 0.045 134 350 0.043 train_err: 0.01012 test_err: 0.1021 135 50 0.044 135 100 0.043 135 150 0.042 135 200 0.051 135 250 0.048 135 300 0.042 135 350 0.040 train_err: 0.0109 test_err: 0.0995 136 50 0.042 136 100 0.045 136 150 0.043 136 200 0.048 136 250 0.046 136 300 0.044 136 350 0.042 train_err: 0.01074 test_err: 0.1004 137 50 0.043 137 100 0.040 137 150 0.040 137 200 0.041 137 250 0.043 137 300 0.042 137 350 0.047 train_err: 0.01096 test_err: 0.0995 138 50 0.045 138 100 0.042 138 150 0.044 138 200 0.039 138 250 0.048 138 300 0.041 138 350 0.040 train_err: 0.0105 test_err: 0.0998 139 50 0.049 139 100 0.043 139 150 0.040 139 200 0.042 139 250 0.043 139 300 0.040 139 350 0.043 train_err: 0.01132 test_err: 0.102 140 50 0.042 140 100 0.043 140 150 0.041 140 200 0.045 140 250 0.040 140 300 0.038 140 350 0.045 train_err: 0.01034 test_err: 0.0996 141 50 0.039 141 100 0.045 141 150 0.043 141 200 0.041 141 250 0.043 141 300 0.037 141 350 0.045 train_err: 0.00986 test_err: 0.101 142 50 0.043 142 100 0.047 142 150 0.039 142 200 0.041 142 250 0.043 142 300 0.041 142 350 0.041 train_err: 0.0101 test_err: 0.1012 143 50 0.035 143 100 0.038 143 150 0.043 143 200 0.039 143 250 0.046 143 300 0.040 143 350 0.049 train_err: 0.00926 test_err: 0.1024 144 50 0.049 144 100 0.044 144 150 0.035 144 200 0.041 144 250 0.034 144 300 0.043 144 350 0.041 train_err: 0.01034 test_err: 0.0993 145 50 0.045 145 100 0.047 145 150 0.041 145 200 0.042 145 250 0.039 145 300 0.043 145 350 0.035 train_err: 0.00968 test_err: 0.0997 146 50 0.044 146 100 0.037 146 150 0.039 146 200 0.038 146 250 0.042 146 300 0.040 146 350 0.040 train_err: 0.00904 test_err: 0.0995 147 50 0.040 147 100 0.039 147 150 0.042 147 200 0.042 147 250 0.040 147 300 0.039 147 350 0.042 train_err: 0.00958 test_err: 0.1001 148 50 0.039 148 100 0.039 148 150 0.038 148 200 0.041 148 250 0.039 148 300 0.038 148 350 0.040 train_err: 0.00888 test_err: 0.1004 149 50 0.041 149 100 0.038 149 150 0.039 149 200 0.044 149 250 0.040 149 300 0.035 149 350 0.042 train_err: 0.00904 test_err: 0.0996 150 50 0.036 150 100 0.039 150 150 0.038 150 200 0.032 150 250 0.037 150 300 0.039 150 350 0.041 train_err: 0.00842 test_err: 0.0996 151 50 0.036 151 100 0.038 151 150 0.039 151 200 0.034 151 250 0.038 151 300 0.035 151 350 0.040 train_err: 0.00838 test_err: 0.1001 152 50 0.034 152 100 0.036 152 150 0.039 152 200 0.040 152 250 0.036 152 300 0.035 152 350 0.041 train_err: 0.00916 test_err: 0.1003 153 50 0.040 153 100 0.031 153 150 0.041 153 200 0.036 153 250 0.034 153 300 0.034 153 350 0.036 train_err: 0.00858 test_err: 0.0992 154 50 0.040 154 100 0.041 154 150 0.043 154 200 0.037 154 250 0.039 154 300 0.041 154 350 0.042 train_err: 0.00908 test_err: 0.0996 155 50 0.034 155 100 0.038 155 150 0.034 155 200 0.038 155 250 0.038 155 300 0.037 155 350 0.039 train_err: 0.0087 test_err: 0.1 156 50 0.038 156 100 0.041 156 150 0.033 156 200 0.033 156 250 0.035 156 300 0.039 156 350 0.035 train_err: 0.00842 test_err: 0.1022 157 50 0.037 157 100 0.035 157 150 0.034 157 200 0.034 157 250 0.038 157 300 0.034 157 350 0.035 train_err: 0.00844 test_err: 0.1006 158 50 0.032 158 100 0.033 158 150 0.039 158 200 0.034 158 250 0.038 158 300 0.037 158 350 0.033 train_err: 0.00862 test_err: 0.1015 159 50 0.034 159 100 0.039 159 150 0.039 159 200 0.037 159 250 0.038 159 300 0.030 159 350 0.038 train_err: 0.0087 test_err: 0.1006 160 50 0.036 160 100 0.032 160 150 0.034 160 200 0.036 160 250 0.035 160 300 0.034 160 350 0.034 train_err: 0.00834 test_err: 0.101 161 50 0.035 161 100 0.035 161 150 0.034 161 200 0.035 161 250 0.038 161 300 0.037 161 350 0.032 train_err: 0.00868 test_err: 0.1009 162 50 0.036 162 100 0.038 162 150 0.034 162 200 0.031 162 250 0.039 162 300 0.040 162 350 0.032 train_err: 0.0086 test_err: 0.1001 163 50 0.037 163 100 0.033 163 150 0.037 163 200 0.034 163 250 0.034 163 300 0.036 163 350 0.034 train_err: 0.00896 test_err: 0.1007 164 50 0.033 164 100 0.032 164 150 0.033 164 200 0.035 164 250 0.041 164 300 0.034 164 350 0.033 train_err: 0.00794 test_err: 0.1004 Finished Training MODEL SIZE: n=7 Files already downloaded and verified Files already downloaded and verified cuda:0 Epoch Batch NLLLoss_Train 1 50 2.329 1 100 2.266 1 150 2.188 1 200 2.109 1 250 2.052 1 300 2.017 1 350 2.005 train_err: 0.76618 test_err: 0.7445 2 50 1.967 2 100 1.954 2 150 1.946 2 200 1.906 2 250 1.903 2 300 1.869 2 350 1.884 train_err: 0.70994 test_err: 0.6955 3 50 1.845 3 100 1.827 3 150 1.800 3 200 1.804 3 250 1.775 3 300 1.781 3 350 1.783 train_err: 0.66056 test_err: 0.635 4 50 1.765 4 100 1.729 4 150 1.728 4 200 1.732 4 250 1.748 4 300 1.696 4 350 1.688 train_err: 0.66554 test_err: 0.6436 5 50 1.669 5 100 1.677 5 150 1.692 5 200 1.669 5 250 1.642 5 300 1.649 5 350 1.662 train_err: 0.63242 test_err: 0.6058 6 50 1.628 6 100 1.629 6 150 1.618 6 200 1.612 6 250 1.599 6 300 1.597 6 350 1.582 train_err: 0.6283 test_err: 0.603 7 50 1.566 7 100 1.566 7 150 1.526 7 200 1.536 7 250 1.540 7 300 1.515 7 350 1.511 train_err: 0.57348 test_err: 0.5473 8 50 1.485 8 100 1.479 8 150 1.497 8 200 1.484 8 250 1.465 8 300 1.450 8 350 1.446 train_err: 0.54198 test_err: 0.528 9 50 1.438 9 100 1.429 9 150 1.394 9 200 1.374 9 250 1.373 9 300 1.365 9 350 1.359 train_err: 0.58164 test_err: 0.569 10 50 1.345 10 100 1.333 10 150 1.294 10 200 1.305 10 250 1.304 10 300 1.288 10 350 1.253 train_err: 0.48902 test_err: 0.455 11 50 1.243 11 100 1.263 11 150 1.239 11 200 1.218 11 250 1.236 11 300 1.217 11 350 1.208 train_err: 0.41368 test_err: 0.4017 12 50 1.182 12 100 1.159 12 150 1.166 12 200 1.140 12 250 1.144 12 300 1.132 12 350 1.150 train_err: 0.48514 test_err: 0.4822 13 50 1.121 13 100 1.115 13 150 1.118 13 200 1.088 13 250 1.084 13 300 1.091 13 350 1.084 train_err: 0.46818 test_err: 0.4433 14 50 1.049 14 100 1.053 14 150 1.045 14 200 1.039 14 250 1.054 14 300 1.021 14 350 1.020 train_err: 0.37506 test_err: 0.3679 15 50 0.981 15 100 1.000 15 150 1.003 15 200 1.012 15 250 0.982 15 300 1.000 15 350 0.997 train_err: 0.37934 test_err: 0.3746 16 50 0.960 16 100 0.965 16 150 0.979 16 200 0.965 16 250 0.938 16 300 0.959 16 350 0.953 train_err: 0.37586 test_err: 0.3716 17 50 0.929 17 100 0.924 17 150 0.925 17 200 0.911 17 250 0.961 17 300 0.912 17 350 0.924 train_err: 0.40676 test_err: 0.4095 18 50 0.914 18 100 0.887 18 150 0.891 18 200 0.897 18 250 0.874 18 300 0.877 18 350 0.894 train_err: 0.3298 test_err: 0.3225 19 50 0.882 19 100 0.871 19 150 0.874 19 200 0.850 19 250 0.855 19 300 0.874 19 350 0.841 train_err: 0.3517 test_err: 0.358 20 50 0.838 20 100 0.831 20 150 0.840 20 200 0.858 20 250 0.810 20 300 0.844 20 350 0.809 train_err: 0.31028 test_err: 0.308 21 50 0.828 21 100 0.817 21 150 0.808 21 200 0.800 21 250 0.801 21 300 0.826 21 350 0.817 train_err: 0.37604 test_err: 0.3887 22 50 0.798 22 100 0.793 22 150 0.803 22 200 0.809 22 250 0.756 22 300 0.796 22 350 0.799 train_err: 0.31054 test_err: 0.3159 23 50 0.750 23 100 0.778 23 150 0.788 23 200 0.793 23 250 0.744 23 300 0.772 23 350 0.777 train_err: 0.31336 test_err: 0.3172 24 50 0.752 24 100 0.736 24 150 0.740 24 200 0.764 24 250 0.742 24 300 0.753 24 350 0.778 train_err: 0.31282 test_err: 0.2958 25 50 0.739 25 100 0.751 25 150 0.750 25 200 0.724 25 250 0.755 25 300 0.737 25 350 0.710 train_err: 0.35166 test_err: 0.3503 26 50 0.720 26 100 0.702 26 150 0.719 26 200 0.727 26 250 0.718 26 300 0.737 26 350 0.745 train_err: 0.26694 test_err: 0.2668 27 50 0.699 27 100 0.704 27 150 0.730 27 200 0.699 27 250 0.703 27 300 0.678 27 350 0.706 train_err: 0.37688 test_err: 0.3785 28 50 0.698 28 100 0.691 28 150 0.691 28 200 0.689 28 250 0.726 28 300 0.702 28 350 0.699 train_err: 0.24828 test_err: 0.2522 29 50 0.684 29 100 0.685 29 150 0.693 29 200 0.661 29 250 0.693 29 300 0.698 29 350 0.683 train_err: 0.30176 test_err: 0.3047 30 50 0.663 30 100 0.689 30 150 0.680 30 200 0.673 30 250 0.674 30 300 0.662 30 350 0.694 train_err: 0.3146 test_err: 0.3143 31 50 0.648 31 100 0.656 31 150 0.662 31 200 0.674 31 250 0.661 31 300 0.632 31 350 0.640 train_err: 0.30002 test_err: 0.3063 32 50 0.665 32 100 0.629 32 150 0.635 32 200 0.666 32 250 0.667 32 300 0.684 32 350 0.653 train_err: 0.26996 test_err: 0.2783 33 50 0.626 33 100 0.620 33 150 0.667 33 200 0.620 33 250 0.637 33 300 0.639 33 350 0.640 train_err: 0.29258 test_err: 0.3019 34 50 0.634 34 100 0.603 34 150 0.651 34 200 0.635 34 250 0.638 34 300 0.644 34 350 0.637 train_err: 0.28762 test_err: 0.2918 35 50 0.603 35 100 0.631 35 150 0.669 35 200 0.625 35 250 0.614 35 300 0.642 35 350 0.640 train_err: 0.28208 test_err: 0.2946 36 50 0.594 36 100 0.596 36 150 0.640 36 200 0.621 36 250 0.616 36 300 0.626 36 350 0.612 train_err: 0.2568 test_err: 0.2739 37 50 0.595 37 100 0.621 37 150 0.607 37 200 0.590 37 250 0.599 37 300 0.629 37 350 0.631 train_err: 0.24764 test_err: 0.2598 38 50 0.584 38 100 0.608 38 150 0.617 38 200 0.597 38 250 0.599 38 300 0.606 38 350 0.591 train_err: 0.2422 test_err: 0.2547 39 50 0.600 39 100 0.594 39 150 0.583 39 200 0.599 39 250 0.575 39 300 0.614 39 350 0.603 train_err: 0.32486 test_err: 0.3329 40 50 0.558 40 100 0.593 40 150 0.578 40 200 0.582 40 250 0.589 40 300 0.604 40 350 0.602 train_err: 0.26282 test_err: 0.2692 41 50 0.576 41 100 0.600 41 150 0.592 41 200 0.634 41 250 0.613 41 300 0.576 41 350 0.563 train_err: 0.27478 test_err: 0.2847 42 50 0.559 42 100 0.592 42 150 0.578 42 200 0.569 42 250 0.573 42 300 0.598 42 350 0.584 train_err: 0.25998 test_err: 0.2812 43 50 0.559 43 100 0.573 43 150 0.570 43 200 0.569 43 250 0.601 43 300 0.575 43 350 0.578 train_err: 0.2743 test_err: 0.2958 44 50 0.534 44 100 0.587 44 150 0.571 44 200 0.587 44 250 0.562 44 300 0.585 44 350 0.567 train_err: 0.29224 test_err: 0.2977 45 50 0.556 45 100 0.561 45 150 0.566 45 200 0.561 45 250 0.560 45 300 0.565 45 350 0.542 train_err: 0.29314 test_err: 0.3076 46 50 0.548 46 100 0.536 46 150 0.546 46 200 0.561 46 250 0.559 46 300 0.567 46 350 0.564 train_err: 0.2426 test_err: 0.2604 47 50 0.557 47 100 0.566 47 150 0.549 47 200 0.564 47 250 0.563 47 300 0.587 47 350 0.553 train_err: 0.21016 test_err: 0.2307 48 50 0.554 48 100 0.554 48 150 0.553 48 200 0.533 48 250 0.589 48 300 0.536 48 350 0.566 train_err: 0.2945 test_err: 0.2987 49 50 0.556 49 100 0.533 49 150 0.569 49 200 0.521 49 250 0.592 49 300 0.502 49 350 0.560 train_err: 0.28468 test_err: 0.308 50 50 0.520 50 100 0.541 50 150 0.553 50 200 0.551 50 250 0.549 50 300 0.534 50 350 0.542 train_err: 0.24408 test_err: 0.2636 51 50 0.515 51 100 0.553 51 150 0.539 51 200 0.539 51 250 0.565 51 300 0.544 51 350 0.545 train_err: 0.21138 test_err: 0.2304 52 50 0.539 52 100 0.545 52 150 0.534 52 200 0.537 52 250 0.553 52 300 0.538 52 350 0.529 train_err: 0.18762 test_err: 0.2091 53 50 0.485 53 100 0.554 53 150 0.554 53 200 0.506 53 250 0.546 53 300 0.494 53 350 0.525 train_err: 0.19372 test_err: 0.2042 54 50 0.517 54 100 0.537 54 150 0.521 54 200 0.530 54 250 0.569 54 300 0.511 54 350 0.540 train_err: 0.1976 test_err: 0.2156 55 50 0.491 55 100 0.508 55 150 0.533 55 200 0.504 55 250 0.540 55 300 0.528 55 350 0.536 train_err: 0.2754 test_err: 0.2903 56 50 0.550 56 100 0.526 56 150 0.512 56 200 0.509 56 250 0.551 56 300 0.547 56 350 0.529 train_err: 0.20552 test_err: 0.2254 57 50 0.500 57 100 0.516 57 150 0.545 57 200 0.506 57 250 0.524 57 300 0.532 57 350 0.528 train_err: 0.28684 test_err: 0.2917 58 50 0.480 58 100 0.512 58 150 0.540 58 200 0.514 58 250 0.537 58 300 0.508 58 350 0.527 train_err: 0.24472 test_err: 0.263 59 50 0.523 59 100 0.525 59 150 0.476 59 200 0.521 59 250 0.526 59 300 0.533 59 350 0.530 train_err: 0.30066 test_err: 0.3108 60 50 0.496 60 100 0.510 60 150 0.515 60 200 0.527 60 250 0.498 60 300 0.524 60 350 0.510 train_err: 0.19382 test_err: 0.2117 61 50 0.498 61 100 0.512 61 150 0.504 61 200 0.524 61 250 0.507 61 300 0.508 61 350 0.535 train_err: 0.21294 test_err: 0.2301 62 50 0.489 62 100 0.519 62 150 0.495 62 200 0.517 62 250 0.513 62 300 0.519 62 350 0.494 train_err: 0.22912 test_err: 0.2273 63 50 0.515 63 100 0.509 63 150 0.474 63 200 0.499 63 250 0.498 63 300 0.485 63 350 0.499 train_err: 0.2151 test_err: 0.2308 64 50 0.500 64 100 0.507 64 150 0.501 64 200 0.504 64 250 0.494 64 300 0.531 64 350 0.519 train_err: 0.19254 test_err: 0.2129 65 50 0.494 65 100 0.475 65 150 0.512 65 200 0.478 65 250 0.492 65 300 0.502 65 350 0.498 train_err: 0.19268 test_err: 0.2133 66 50 0.498 66 100 0.483 66 150 0.495 66 200 0.505 66 250 0.489 66 300 0.502 66 350 0.516 train_err: 0.22128 test_err: 0.2274 67 50 0.483 67 100 0.470 67 150 0.498 67 200 0.526 67 250 0.481 67 300 0.510 67 350 0.522 train_err: 0.21312 test_err: 0.2183 68 50 0.454 68 100 0.477 68 150 0.499 68 200 0.498 68 250 0.493 68 300 0.519 68 350 0.499 train_err: 0.20372 test_err: 0.2222 69 50 0.442 69 100 0.481 69 150 0.466 69 200 0.510 69 250 0.501 69 300 0.515 69 350 0.477 train_err: 0.41588 test_err: 0.4488 70 50 0.503 70 100 0.484 70 150 0.475 70 200 0.502 70 250 0.498 70 300 0.494 70 350 0.513 train_err: 0.24246 test_err: 0.2642 71 50 0.489 71 100 0.489 71 150 0.468 71 200 0.485 71 250 0.499 71 300 0.500 71 350 0.463 train_err: 0.23962 test_err: 0.2605 72 50 0.497 72 100 0.489 72 150 0.488 72 200 0.473 72 250 0.470 72 300 0.484 72 350 0.484 train_err: 0.21728 test_err: 0.2382 73 50 0.494 73 100 0.460 73 150 0.455 73 200 0.496 73 250 0.476 73 300 0.490 73 350 0.474 train_err: 0.19204 test_err: 0.2114 74 50 0.456 74 100 0.483 74 150 0.470 74 200 0.473 74 250 0.504 74 300 0.496 74 350 0.486 train_err: 0.21774 test_err: 0.2321 75 50 0.482 75 100 0.477 75 150 0.461 75 200 0.497 75 250 0.507 75 300 0.496 75 350 0.479 train_err: 0.2037 test_err: 0.2099 76 50 0.459 76 100 0.478 76 150 0.477 76 200 0.496 76 250 0.492 76 300 0.479 76 350 0.465 train_err: 0.20316 test_err: 0.214 77 50 0.445 77 100 0.480 77 150 0.498 77 200 0.474 77 250 0.475 77 300 0.506 77 350 0.468 train_err: 0.18768 test_err: 0.2095 78 50 0.464 78 100 0.464 78 150 0.465 78 200 0.454 78 250 0.491 78 300 0.505 78 350 0.484 train_err: 0.19398 test_err: 0.2073 79 50 0.471 79 100 0.467 79 150 0.459 79 200 0.490 79 250 0.473 79 300 0.458 79 350 0.461 train_err: 0.20328 test_err: 0.2244 80 50 0.480 80 100 0.445 80 150 0.495 80 200 0.472 80 250 0.456 80 300 0.489 80 350 0.451 train_err: 0.20388 test_err: 0.224 81 50 0.445 81 100 0.448 81 150 0.467 81 200 0.487 81 250 0.481 81 300 0.465 81 350 0.451 train_err: 0.20232 test_err: 0.2243 82 50 0.488 82 100 0.460 82 150 0.478 82 200 0.444 82 250 0.476 82 300 0.464 82 350 0.482 train_err: 0.18708 test_err: 0.1997 83 50 0.445 83 100 0.479 83 150 0.459 83 200 0.459 83 250 0.463 83 300 0.484 83 350 0.479 train_err: 0.24434 test_err: 0.2605 84 50 0.393 84 100 0.343 84 150 0.323 84 200 0.340 84 250 0.305 84 300 0.303 84 350 0.306 train_err: 0.0954 test_err: 0.133 85 50 0.301 85 100 0.297 85 150 0.288 85 200 0.278 85 250 0.287 85 300 0.280 85 350 0.298 train_err: 0.09002 test_err: 0.1321 86 50 0.274 86 100 0.257 86 150 0.259 86 200 0.276 86 250 0.274 86 300 0.276 86 350 0.282 train_err: 0.08504 test_err: 0.1246 87 50 0.278 87 100 0.254 87 150 0.260 87 200 0.278 87 250 0.274 87 300 0.270 87 350 0.262 train_err: 0.08246 test_err: 0.1242 88 50 0.256 88 100 0.249 88 150 0.259 88 200 0.256 88 250 0.241 88 300 0.263 88 350 0.260 train_err: 0.08 test_err: 0.1266 89 50 0.242 89 100 0.250 89 150 0.242 89 200 0.251 89 250 0.260 89 300 0.251 89 350 0.264 train_err: 0.0766 test_err: 0.123 90 50 0.229 90 100 0.235 90 150 0.249 90 200 0.249 90 250 0.240 90 300 0.242 90 350 0.265 train_err: 0.07754 test_err: 0.1213 91 50 0.233 91 100 0.241 91 150 0.232 91 200 0.234 91 250 0.244 91 300 0.247 91 350 0.245 train_err: 0.07554 test_err: 0.1235 92 50 0.225 92 100 0.231 92 150 0.234 92 200 0.228 92 250 0.243 92 300 0.219 92 350 0.244 train_err: 0.07434 test_err: 0.1228 93 50 0.220 93 100 0.235 93 150 0.228 93 200 0.230 93 250 0.232 93 300 0.236 93 350 0.238 train_err: 0.07202 test_err: 0.1238 94 50 0.215 94 100 0.217 94 150 0.229 94 200 0.222 94 250 0.225 94 300 0.236 94 350 0.240 train_err: 0.0706 test_err: 0.1205 95 50 0.209 95 100 0.232 95 150 0.225 95 200 0.220 95 250 0.224 95 300 0.231 95 350 0.229 train_err: 0.06774 test_err: 0.1202 96 50 0.213 96 100 0.214 96 150 0.219 96 200 0.227 96 250 0.222 96 300 0.227 96 350 0.218 train_err: 0.06812 test_err: 0.1215 97 50 0.220 97 100 0.217 97 150 0.213 97 200 0.226 97 250 0.211 97 300 0.209 97 350 0.220 train_err: 0.06718 test_err: 0.1188 98 50 0.198 98 100 0.209 98 150 0.203 98 200 0.208 98 250 0.228 98 300 0.230 98 350 0.214 train_err: 0.06686 test_err: 0.1209 99 50 0.204 99 100 0.220 99 150 0.212 99 200 0.211 99 250 0.221 99 300 0.212 99 350 0.208 train_err: 0.06878 test_err: 0.1195 100 50 0.192 100 100 0.198 100 150 0.198 100 200 0.212 100 250 0.212 100 300 0.225 100 350 0.224 train_err: 0.06334 test_err: 0.1226 101 50 0.193 101 100 0.200 101 150 0.206 101 200 0.201 101 250 0.203 101 300 0.202 101 350 0.196 train_err: 0.06526 test_err: 0.1196 102 50 0.194 102 100 0.201 102 150 0.204 102 200 0.206 102 250 0.192 102 300 0.219 102 350 0.204 train_err: 0.06588 test_err: 0.1251 103 50 0.193 103 100 0.199 103 150 0.187 103 200 0.206 103 250 0.205 103 300 0.196 103 350 0.219 train_err: 0.06102 test_err: 0.1187 104 50 0.204 104 100 0.199 104 150 0.188 104 200 0.197 104 250 0.209 104 300 0.198 104 350 0.200 train_err: 0.0624 test_err: 0.1274 105 50 0.196 105 100 0.183 105 150 0.181 105 200 0.186 105 250 0.202 105 300 0.212 105 350 0.210 train_err: 0.0606 test_err: 0.1203 106 50 0.186 106 100 0.210 106 150 0.177 106 200 0.194 106 250 0.185 106 300 0.200 106 350 0.205 train_err: 0.06044 test_err: 0.121 107 50 0.189 107 100 0.189 107 150 0.201 107 200 0.185 107 250 0.192 107 300 0.206 107 350 0.183 train_err: 0.06104 test_err: 0.1244 108 50 0.177 108 100 0.197 108 150 0.189 108 200 0.197 108 250 0.208 108 300 0.164 108 350 0.190 train_err: 0.05618 test_err: 0.1215 109 50 0.178 109 100 0.182 109 150 0.191 109 200 0.189 109 250 0.197 109 300 0.196 109 350 0.185 train_err: 0.0588 test_err: 0.1203 110 50 0.189 110 100 0.175 110 150 0.186 110 200 0.184 110 250 0.189 110 300 0.181 110 350 0.193 train_err: 0.0558 test_err: 0.122 111 50 0.165 111 100 0.185 111 150 0.191 111 200 0.181 111 250 0.181 111 300 0.186 111 350 0.176 train_err: 0.05782 test_err: 0.124 112 50 0.186 112 100 0.168 112 150 0.181 112 200 0.179 112 250 0.191 112 300 0.189 112 350 0.180 train_err: 0.06058 test_err: 0.1237 113 50 0.174 113 100 0.174 113 150 0.182 113 200 0.174 113 250 0.188 113 300 0.178 113 350 0.180 train_err: 0.05692 test_err: 0.1219 114 50 0.174 114 100 0.174 114 150 0.179 114 200 0.182 114 250 0.175 114 300 0.185 114 350 0.182 train_err: 0.05548 test_err: 0.1247 115 50 0.158 115 100 0.176 115 150 0.181 115 200 0.191 115 250 0.169 115 300 0.185 115 350 0.171 train_err: 0.05706 test_err: 0.1269 116 50 0.168 116 100 0.183 116 150 0.178 116 200 0.179 116 250 0.172 116 300 0.185 116 350 0.178 train_err: 0.05598 test_err: 0.127 117 50 0.157 117 100 0.163 117 150 0.175 117 200 0.171 117 250 0.190 117 300 0.194 117 350 0.167 train_err: 0.0533 test_err: 0.1225 118 50 0.163 118 100 0.165 118 150 0.183 118 200 0.173 118 250 0.163 118 300 0.168 118 350 0.172 train_err: 0.0586 test_err: 0.126 119 50 0.158 119 100 0.157 119 150 0.165 119 200 0.179 119 250 0.165 119 300 0.175 119 350 0.171 train_err: 0.0523 test_err: 0.127 120 50 0.162 120 100 0.168 120 150 0.166 120 200 0.166 120 250 0.180 120 300 0.168 120 350 0.166 train_err: 0.05406 test_err: 0.1284 121 50 0.167 121 100 0.161 121 150 0.177 121 200 0.169 121 250 0.165 121 300 0.172 121 350 0.176 train_err: 0.05784 test_err: 0.1279 122 50 0.149 122 100 0.160 122 150 0.161 122 200 0.158 122 250 0.168 122 300 0.171 122 350 0.175 train_err: 0.05598 test_err: 0.1263 123 50 0.160 123 100 0.163 123 150 0.163 123 200 0.159 123 250 0.175 123 300 0.173 123 350 0.172 train_err: 0.0544 test_err: 0.1245 124 50 0.156 124 100 0.160 124 150 0.162 124 200 0.172 124 250 0.170 124 300 0.166 124 350 0.173 train_err: 0.05138 test_err: 0.1221 125 50 0.162 125 100 0.143 125 150 0.146 125 200 0.137 125 250 0.126 125 300 0.151 125 350 0.128 train_err: 0.03978 test_err: 0.1168 126 50 0.129 126 100 0.136 126 150 0.128 126 200 0.125 126 250 0.142 126 300 0.131 126 350 0.118 train_err: 0.03762 test_err: 0.1162 127 50 0.127 127 100 0.123 127 150 0.131 127 200 0.128 127 250 0.129 127 300 0.128 127 350 0.124 train_err: 0.03694 test_err: 0.1166 128 50 0.115 128 100 0.130 128 150 0.124 128 200 0.122 128 250 0.124 128 300 0.123 128 350 0.126 train_err: 0.03696 test_err: 0.1167 129 50 0.129 129 100 0.121 129 150 0.113 129 200 0.120 129 250 0.123 129 300 0.125 129 350 0.116 train_err: 0.0361 test_err: 0.1155 130 50 0.117 130 100 0.132 130 150 0.107 130 200 0.121 130 250 0.121 130 300 0.119 130 350 0.124 train_err: 0.0366 test_err: 0.1153 131 50 0.121 131 100 0.123 131 150 0.117 131 200 0.116 131 250 0.120 131 300 0.118 131 350 0.121 train_err: 0.03472 test_err: 0.1157 132 50 0.116 132 100 0.121 132 150 0.112 132 200 0.113 132 250 0.123 132 300 0.126 132 350 0.128 train_err: 0.0336 test_err: 0.114 133 50 0.110 133 100 0.119 133 150 0.124 133 200 0.119 133 250 0.121 133 300 0.109 133 350 0.120 train_err: 0.03462 test_err: 0.1161 134 50 0.110 134 100 0.119 134 150 0.116 134 200 0.122 134 250 0.117 134 300 0.118 134 350 0.113 train_err: 0.03332 test_err: 0.115 135 50 0.109 135 100 0.126 135 150 0.121 135 200 0.114 135 250 0.119 135 300 0.111 135 350 0.118 train_err: 0.0335 test_err: 0.1162 136 50 0.125 136 100 0.108 136 150 0.111 136 200 0.116 136 250 0.117 136 300 0.117 136 350 0.119 train_err: 0.03416 test_err: 0.1135 137 50 0.114 137 100 0.109 137 150 0.116 137 200 0.124 137 250 0.124 137 300 0.105 137 350 0.108 train_err: 0.03292 test_err: 0.1165 138 50 0.118 138 100 0.118 138 150 0.110 138 200 0.106 138 250 0.115 138 300 0.109 138 350 0.107 train_err: 0.03256 test_err: 0.1141 139 50 0.118 139 100 0.126 139 150 0.108 139 200 0.118 139 250 0.112 139 300 0.105 139 350 0.117 train_err: 0.03156 test_err: 0.1143 140 50 0.112 140 100 0.113 140 150 0.113 140 200 0.113 140 250 0.113 140 300 0.119 140 350 0.109 train_err: 0.0331 test_err: 0.1142 141 50 0.111 141 100 0.110 141 150 0.112 141 200 0.111 141 250 0.110 141 300 0.121 141 350 0.110 train_err: 0.03252 test_err: 0.1165 142 50 0.102 142 100 0.100 142 150 0.115 142 200 0.115 142 250 0.123 142 300 0.117 142 350 0.119 train_err: 0.03248 test_err: 0.1176 143 50 0.113 143 100 0.110 143 150 0.106 143 200 0.108 143 250 0.109 143 300 0.118 143 350 0.116 train_err: 0.0317 test_err: 0.1159 144 50 0.107 144 100 0.109 144 150 0.110 144 200 0.111 144 250 0.112 144 300 0.109 144 350 0.120 train_err: 0.03152 test_err: 0.1155 145 50 0.112 145 100 0.109 145 150 0.100 145 200 0.112 145 250 0.117 145 300 0.118 145 350 0.109 train_err: 0.03214 test_err: 0.1163 146 50 0.113 146 100 0.110 146 150 0.111 146 200 0.109 146 250 0.103 146 300 0.111 146 350 0.107 train_err: 0.03174 test_err: 0.1142 147 50 0.104 147 100 0.099 147 150 0.114 147 200 0.111 147 250 0.111 147 300 0.107 147 350 0.119 train_err: 0.03118 test_err: 0.1153 148 50 0.106 148 100 0.105 148 150 0.119 148 200 0.111 148 250 0.107 148 300 0.113 148 350 0.110 train_err: 0.02992 test_err: 0.1159 149 50 0.110 149 100 0.130 149 150 0.109 149 200 0.094 149 250 0.108 149 300 0.110 149 350 0.103 train_err: 0.03054 test_err: 0.1154 150 50 0.101 150 100 0.111 150 150 0.101 150 200 0.102 150 250 0.115 150 300 0.106 150 350 0.097 train_err: 0.03044 test_err: 0.1147 151 50 0.120 151 100 0.100 151 150 0.097 151 200 0.111 151 250 0.114 151 300 0.106 151 350 0.119 train_err: 0.03078 test_err: 0.1155 152 50 0.109 152 100 0.105 152 150 0.101 152 200 0.114 152 250 0.107 152 300 0.109 152 350 0.104 train_err: 0.03052 test_err: 0.1158 153 50 0.105 153 100 0.110 153 150 0.109 153 200 0.110 153 250 0.107 153 300 0.110 153 350 0.109 train_err: 0.03054 test_err: 0.1157 154 50 0.105 154 100 0.111 154 150 0.112 154 200 0.099 154 250 0.105 154 300 0.103 154 350 0.100 train_err: 0.0309 test_err: 0.1154 155 50 0.101 155 100 0.099 155 150 0.106 155 200 0.107 155 250 0.105 155 300 0.103 155 350 0.100 train_err: 0.02912 test_err: 0.1163 156 50 0.086 156 100 0.106 156 150 0.106 156 200 0.103 156 250 0.104 156 300 0.106 156 350 0.097 train_err: 0.0295 test_err: 0.1163 157 50 0.099 157 100 0.101 157 150 0.108 157 200 0.090 157 250 0.107 157 300 0.109 157 350 0.110 train_err: 0.02912 test_err: 0.1156 158 50 0.096 158 100 0.095 158 150 0.101 158 200 0.110 158 250 0.102 158 300 0.102 158 350 0.118 train_err: 0.03084 test_err: 0.1158 159 50 0.106 159 100 0.106 159 150 0.103 159 200 0.104 159 250 0.097 159 300 0.101 159 350 0.104 train_err: 0.02862 test_err: 0.1172 160 50 0.100 160 100 0.096 160 150 0.095 160 200 0.103 160 250 0.108 160 300 0.098 160 350 0.109 train_err: 0.02896 test_err: 0.1155 161 50 0.104 161 100 0.101 161 150 0.109 161 200 0.108 161 250 0.106 161 300 0.104 161 350 0.108 train_err: 0.02938 test_err: 0.1163 162 50 0.098 162 100 0.107 162 150 0.106 162 200 0.103 162 250 0.093 162 300 0.106 162 350 0.110 train_err: 0.02842 test_err: 0.1159 163 50 0.099 163 100 0.104 163 150 0.094 163 200 0.106 163 250 0.099 163 300 0.096 163 350 0.103 train_err: 0.02848 test_err: 0.117 164 50 0.094 164 100 0.098 164 150 0.102 164 200 0.104 164 250 0.104 164 300 0.097 164 350 0.100 train_err: 0.0276 test_err: 0.1156 Finished Training MODEL SIZE: n=9 Files already downloaded and verified Files already downloaded and verified cuda:0 Epoch Batch NLLLoss_Train 1 50 2.351 1 100 2.313 1 150 2.300 1 200 2.305 1 250 2.299 1 300 2.297 1 350 2.298 train_err: 0.89294 test_err: 0.9003 2 50 2.296 2 100 2.296 2 150 2.289 2 200 2.291 2 250 2.290 2 300 2.285 2 350 2.259 train_err: 0.80934 test_err: 0.8085 3 50 2.157 3 100 2.100 3 150 2.093 3 200 2.065 3 250 2.028 3 300 2.043 3 350 2.014 train_err: 0.74268 test_err: 0.7167 4 50 2.066 4 100 2.011 4 150 1.985 4 200 1.981 4 250 1.963 4 300 1.960 4 350 1.939 train_err: 0.73314 test_err: 0.7141 5 50 1.942 5 100 1.933 5 150 1.915 5 200 1.906 5 250 1.907 5 300 1.891 5 350 1.898 train_err: 0.7137 test_err: 0.6824 6 50 1.859 6 100 1.857 6 150 1.861 6 200 1.854 6 250 1.834 6 300 1.861 6 350 1.815 train_err: 0.67328 test_err: 0.6536 7 50 1.806 7 100 1.823 7 150 1.817 7 200 1.786 7 250 1.789 7 300 1.781 7 350 1.773 train_err: 0.66966 test_err: 0.65 8 50 1.767 8 100 1.747 8 150 1.757 8 200 1.776 8 250 1.763 8 300 1.734 8 350 1.722 train_err: 0.66306 test_err: 0.6312 9 50 1.715 9 100 1.732 9 150 1.714 9 200 1.697 9 250 1.683 9 300 1.700 9 350 1.703 train_err: 0.66712 test_err: 0.6516 10 50 1.680 10 100 1.683 10 150 1.665 10 200 1.691 10 250 1.664 10 300 1.645 10 350 1.667 train_err: 0.65072 test_err: 0.6228 11 50 1.654 11 100 1.635 11 150 1.648 11 200 1.661 11 250 1.616 11 300 1.619 11 350 1.614 train_err: 0.62232 test_err: 0.5953 12 50 1.601 12 100 1.604 12 150 1.593 12 200 1.606 12 250 1.620 12 300 1.600 12 350 1.606 train_err: 0.58176 test_err: 0.5607 13 50 1.551 13 100 1.577 13 150 1.585 13 200 1.570 13 250 1.547 13 300 1.542 13 350 1.534 train_err: 0.56552 test_err: 0.5532 14 50 1.541 14 100 1.523 14 150 1.518 14 200 1.508 14 250 1.507 14 300 1.492 14 350 1.508 train_err: 0.56788 test_err: 0.5583 15 50 1.473 15 100 1.478 15 150 1.488 15 200 1.491 15 250 1.421 15 300 1.472 15 350 1.461 train_err: 0.5921 test_err: 0.5606 16 50 1.452 16 100 1.434 16 150 1.457 16 200 1.427 16 250 1.437 16 300 1.414 16 350 1.396 train_err: 0.54162 test_err: 0.5217 17 50 1.384 17 100 1.362 17 150 1.387 17 200 1.378 17 250 1.366 17 300 1.384 17 350 1.365 train_err: 0.53574 test_err: 0.5159 18 50 1.367 18 100 1.315 18 150 1.337 18 200 1.352 18 250 1.327 18 300 1.326 18 350 1.301 train_err: 0.61848 test_err: 0.5961 19 50 1.311 19 100 1.309 19 150 1.306 19 200 1.305 19 250 1.286 19 300 1.288 19 350 1.267 train_err: 0.5045 test_err: 0.4864 20 50 1.261 20 100 1.263 20 150 1.250 20 200 1.234 20 250 1.212 20 300 1.239 20 350 1.241 train_err: 0.49946 test_err: 0.492 21 50 1.175 21 100 1.220 21 150 1.212 21 200 1.188 21 250 1.180 21 300 1.225 21 350 1.172 train_err: 0.46242 test_err: 0.4416 22 50 1.161 22 100 1.170 22 150 1.150 22 200 1.163 22 250 1.149 22 300 1.132 22 350 1.129 train_err: 0.48176 test_err: 0.4687 23 50 1.126 23 100 1.127 23 150 1.097 23 200 1.108 23 250 1.115 23 300 1.108 23 350 1.096 train_err: 0.50002 test_err: 0.4758 24 50 1.084 24 100 1.072 24 150 1.067 24 200 1.066 24 250 1.082 24 300 1.034 24 350 1.052 train_err: 0.45326 test_err: 0.4464 25 50 1.051 25 100 1.044 25 150 1.020 25 200 1.042 25 250 1.026 25 300 1.030 25 350 1.011 train_err: 0.36984 test_err: 0.3745 26 50 0.994 26 100 1.003 26 150 0.997 26 200 0.995 26 250 0.974 26 300 0.982 26 350 0.981 train_err: 0.38252 test_err: 0.3712 27 50 0.996 27 100 0.980 27 150 0.966 27 200 0.952 27 250 0.941 27 300 0.959 27 350 0.972 train_err: 0.3616 test_err: 0.3581 28 50 0.931 28 100 0.937 28 150 0.962 28 200 0.930 28 250 0.929 28 300 0.938 28 350 0.945 train_err: 0.34376 test_err: 0.3449 29 50 0.882 29 100 0.931 29 150 0.922 29 200 0.890 29 250 0.915 29 300 0.904 29 350 0.926 train_err: 0.38362 test_err: 0.3934 30 50 0.888 30 100 0.878 30 150 0.896 30 200 0.915 30 250 0.904 30 300 0.883 30 350 0.888 train_err: 0.49184 test_err: 0.4931 31 50 0.871 31 100 0.859 31 150 0.878 31 200 0.891 31 250 0.862 31 300 0.866 31 350 0.863 train_err: 0.40958 test_err: 0.4148 32 50 0.838 32 100 0.851 32 150 0.847 32 200 0.880 32 250 0.871 32 300 0.845 32 350 0.831 train_err: 0.35526 test_err: 0.363 33 50 0.818 33 100 0.831 33 150 0.813 33 200 0.837 33 250 0.834 33 300 0.830 33 350 0.839 train_err: 0.36568 test_err: 0.3597 34 50 0.822 34 100 0.805 34 150 0.808 34 200 0.809 34 250 0.854 34 300 0.811 34 350 0.820 train_err: 0.35234 test_err: 0.3422 35 50 0.811 35 100 0.819 35 150 0.793 35 200 0.781 35 250 0.807 35 300 0.794 35 350 0.810 train_err: 0.3151 test_err: 0.3213 36 50 0.797 36 100 0.783 36 150 0.763 36 200 0.790 36 250 0.791 36 300 0.805 36 350 0.791 train_err: 0.35436 test_err: 0.3519 37 50 0.768 37 100 0.770 37 150 0.768 37 200 0.778 37 250 0.778 37 300 0.774 37 350 0.772 train_err: 0.33772 test_err: 0.3328 38 50 0.730 38 100 0.763 38 150 0.770 38 200 0.800 38 250 0.757 38 300 0.765 38 350 0.755 train_err: 0.28484 test_err: 0.2869 39 50 0.725 39 100 0.744 39 150 0.726 39 200 0.720 39 250 0.752 39 300 0.750 39 350 0.745 train_err: 0.31114 test_err: 0.31 40 50 0.750 40 100 0.703 40 150 0.734 40 200 0.716 40 250 0.734 40 300 0.709 40 350 0.739 train_err: 0.33286 test_err: 0.3305 41 50 0.695 41 100 0.689 41 150 0.718 41 200 0.708 41 250 0.699 41 300 0.718 41 350 0.738 train_err: 0.3211 test_err: 0.3333 42 50 0.688 42 100 0.716 42 150 0.715 42 200 0.696 42 250 0.687 42 300 0.712 42 350 0.726 train_err: 0.31338 test_err: 0.319 43 50 0.686 43 100 0.682 43 150 0.685 43 200 0.691 43 250 0.718 43 300 0.687 43 350 0.701 train_err: 0.29886 test_err: 0.295 44 50 0.658 44 100 0.648 44 150 0.679 44 200 0.692 44 250 0.706 44 300 0.681 44 350 0.692 train_err: 0.28004 test_err: 0.2916 45 50 0.653 45 100 0.692 45 150 0.660 45 200 0.673 45 250 0.677 45 300 0.669 45 350 0.687 train_err: 0.2582 test_err: 0.2686 46 50 0.668 46 100 0.670 46 150 0.675 46 200 0.655 46 250 0.691 46 300 0.668 46 350 0.672 train_err: 0.31224 test_err: 0.3137 47 50 0.633 47 100 0.648 47 150 0.666 47 200 0.677 47 250 0.680 47 300 0.653 47 350 0.645 train_err: 0.25746 test_err: 0.2625 48 50 0.647 48 100 0.631 48 150 0.631 48 200 0.628 48 250 0.672 48 300 0.662 48 350 0.643 train_err: 0.36048 test_err: 0.3615 49 50 0.645 49 100 0.653 49 150 0.603 49 200 0.663 49 250 0.632 49 300 0.644 49 350 0.630 train_err: 0.24892 test_err: 0.2575 50 50 0.612 50 100 0.606 50 150 0.655 50 200 0.637 50 250 0.659 50 300 0.654 50 350 0.641 train_err: 0.26888 test_err: 0.273 51 50 0.621 51 100 0.622 51 150 0.625 51 200 0.606 51 250 0.660 51 300 0.634 51 350 0.630 train_err: 0.3006 test_err: 0.3074 52 50 0.597 52 100 0.641 52 150 0.623 52 200 0.625 52 250 0.613 52 300 0.652 52 350 0.635 train_err: 0.30956 test_err: 0.3184 53 50 0.619 53 100 0.615 53 150 0.622 53 200 0.615 53 250 0.612 53 300 0.621 53 350 0.625 train_err: 0.29332 test_err: 0.2978 54 50 0.624 54 100 0.596 54 150 0.606 54 200 0.625 54 250 0.606 54 300 0.608 54 350 0.636 train_err: 0.29852 test_err: 0.3107 55 50 0.621 55 100 0.618 55 150 0.596 55 200 0.607 55 250 0.628 55 300 0.571 55 350 0.605 train_err: 0.28678 test_err: 0.2969 56 50 0.587 56 100 0.595 56 150 0.603 56 200 0.599 56 250 0.617 56 300 0.596 56 350 0.610 train_err: 0.26636 test_err: 0.2722 57 50 0.585 57 100 0.586 57 150 0.588 57 200 0.572 57 250 0.582 57 300 0.617 57 350 0.618 train_err: 0.33648 test_err: 0.3373 58 50 0.563 58 100 0.571 58 150 0.565 58 200 0.601 58 250 0.598 58 300 0.597 58 350 0.592 train_err: 0.2233 test_err: 0.2407 59 50 0.564 59 100 0.573 59 150 0.598 59 200 0.564 59 250 0.597 59 300 0.582 59 350 0.607 train_err: 0.29888 test_err: 0.2954 60 50 0.588 60 100 0.588 60 150 0.572 60 200 0.580 60 250 0.596 60 300 0.574 60 350 0.592 train_err: 0.2361 test_err: 0.2486 61 50 0.557 61 100 0.575 61 150 0.562 61 200 0.607 61 250 0.592 61 300 0.575 61 350 0.562 train_err: 0.2262 test_err: 0.2455 62 50 0.541 62 100 0.577 62 150 0.539 62 200 0.582 62 250 0.581 62 300 0.564 62 350 0.576 train_err: 0.25732 test_err: 0.28 63 50 0.567 63 100 0.555 63 150 0.541 63 200 0.577 63 250 0.595 63 300 0.583 63 350 0.577 train_err: 0.23472 test_err: 0.2464 64 50 0.565 64 100 0.560 64 150 0.598 64 200 0.547 64 250 0.582 64 300 0.547 64 350 0.566 train_err: 0.25078 test_err: 0.2471 65 50 0.546 65 100 0.571 65 150 0.541 65 200 0.554 65 250 0.580 65 300 0.551 65 350 0.561 train_err: 0.21682 test_err: 0.2337 66 50 0.545 66 100 0.551 66 150 0.562 66 200 0.544 66 250 0.565 66 300 0.575 66 350 0.547 train_err: 0.21044 test_err: 0.2325 67 50 0.540 67 100 0.546 67 150 0.541 67 200 0.572 67 250 0.530 67 300 0.568 67 350 0.548 train_err: 0.2681 test_err: 0.2792 68 50 0.573 68 100 0.531 68 150 0.555 68 200 0.549 68 250 0.528 68 300 0.569 68 350 0.553 train_err: 0.22454 test_err: 0.2369 69 50 0.540 69 100 0.519 69 150 0.529 69 200 0.534 69 250 0.553 69 300 0.571 69 350 0.566 train_err: 0.268 test_err: 0.2753 70 50 0.525 70 100 0.533 70 150 0.569 70 200 0.543 70 250 0.535 70 300 0.537 70 350 0.557 train_err: 0.25954 test_err: 0.2703 71 50 0.522 71 100 0.523 71 150 0.549 71 200 0.545 71 250 0.537 71 300 0.536 71 350 0.553 train_err: 0.2211 test_err: 0.2432 72 50 0.532 72 100 0.534 72 150 0.538 72 200 0.559 72 250 0.515 72 300 0.540 72 350 0.549 train_err: 0.30934 test_err: 0.3275 73 50 0.519 73 100 0.515 73 150 0.523 73 200 0.528 73 250 0.539 73 300 0.546 73 350 0.541 train_err: 0.21568 test_err: 0.2332 74 50 0.512 74 100 0.520 74 150 0.522 74 200 0.512 74 250 0.539 74 300 0.526 74 350 0.556 train_err: 0.25638 test_err: 0.2756 75 50 0.542 75 100 0.526 75 150 0.508 75 200 0.539 75 250 0.517 75 300 0.549 75 350 0.534 train_err: 0.3276 test_err: 0.326 76 50 0.522 76 100 0.488 76 150 0.475 76 200 0.527 76 250 0.515 76 300 0.521 76 350 0.552 train_err: 0.24626 test_err: 0.2757 77 50 0.502 77 100 0.512 77 150 0.511 77 200 0.559 77 250 0.533 77 300 0.509 77 350 0.526 train_err: 0.3872 test_err: 0.3952 78 50 0.500 78 100 0.521 78 150 0.534 78 200 0.514 78 250 0.521 78 300 0.516 78 350 0.538 train_err: 0.33916 test_err: 0.3459 79 50 0.501 79 100 0.490 79 150 0.518 79 200 0.510 79 250 0.513 79 300 0.513 79 350 0.513 train_err: 0.21244 test_err: 0.23 80 50 0.503 80 100 0.514 80 150 0.506 80 200 0.511 80 250 0.497 80 300 0.514 80 350 0.533 train_err: 0.25332 test_err: 0.2628 81 50 0.509 81 100 0.511 81 150 0.503 81 200 0.515 81 250 0.528 81 300 0.495 81 350 0.519 train_err: 0.18384 test_err: 0.2114 82 50 0.499 82 100 0.489 82 150 0.490 82 200 0.519 82 250 0.504 82 300 0.510 82 350 0.524 train_err: 0.23028 test_err: 0.2506 83 50 0.465 83 100 0.508 83 150 0.512 83 200 0.508 83 250 0.502 83 300 0.508 83 350 0.543 train_err: 0.41628 test_err: 0.4132 84 50 0.429 84 100 0.389 84 150 0.358 84 200 0.361 84 250 0.356 84 300 0.342 84 350 0.356 train_err: 0.109 test_err: 0.1453 85 50 0.315 85 100 0.332 85 150 0.318 85 200 0.330 85 250 0.322 85 300 0.318 85 350 0.317 train_err: 0.1022 test_err: 0.1404 86 50 0.315 86 100 0.310 86 150 0.288 86 200 0.305 86 250 0.307 86 300 0.312 86 350 0.301 train_err: 0.09706 test_err: 0.1383 87 50 0.294 87 100 0.291 87 150 0.296 87 200 0.298 87 250 0.315 87 300 0.318 87 350 0.305 train_err: 0.09244 test_err: 0.1375 88 50 0.282 88 100 0.291 88 150 0.286 88 200 0.298 88 250 0.283 88 300 0.279 88 350 0.284 train_err: 0.09098 test_err: 0.1385 89 50 0.281 89 100 0.285 89 150 0.273 89 200 0.270 89 250 0.285 89 300 0.277 89 350 0.279 train_err: 0.09316 test_err: 0.1415 90 50 0.275 90 100 0.268 90 150 0.275 90 200 0.258 90 250 0.264 90 300 0.294 90 350 0.269 train_err: 0.08886 test_err: 0.1374 91 50 0.256 91 100 0.273 91 150 0.284 91 200 0.266 91 250 0.260 91 300 0.266 91 350 0.296 train_err: 0.08378 test_err: 0.1353 92 50 0.257 92 100 0.259 92 150 0.277 92 200 0.261 92 250 0.265 92 300 0.256 92 350 0.268 train_err: 0.08444 test_err: 0.1359 93 50 0.256 93 100 0.255 93 150 0.257 93 200 0.259 93 250 0.270 93 300 0.253 93 350 0.271 train_err: 0.08022 test_err: 0.1362 94 50 0.272 94 100 0.247 94 150 0.253 94 200 0.238 94 250 0.267 94 300 0.262 94 350 0.251 train_err: 0.07896 test_err: 0.1354 95 50 0.253 95 100 0.242 95 150 0.249 95 200 0.249 95 250 0.264 95 300 0.256 95 350 0.249 train_err: 0.08034 test_err: 0.1373 96 50 0.244 96 100 0.243 96 150 0.237 96 200 0.239 96 250 0.236 96 300 0.271 96 350 0.254 train_err: 0.07582 test_err: 0.1313 97 50 0.230 97 100 0.246 97 150 0.227 97 200 0.236 97 250 0.241 97 300 0.254 97 350 0.246 train_err: 0.07716 test_err: 0.1358 98 50 0.225 98 100 0.231 98 150 0.235 98 200 0.255 98 250 0.244 98 300 0.241 98 350 0.240 train_err: 0.075 test_err: 0.1342 99 50 0.236 99 100 0.235 99 150 0.237 99 200 0.247 99 250 0.226 99 300 0.231 99 350 0.240 train_err: 0.0749 test_err: 0.1331 100 50 0.218 100 100 0.219 100 150 0.244 100 200 0.239 100 250 0.238 100 300 0.242 100 350 0.237 train_err: 0.07058 test_err: 0.1365 101 50 0.204 101 100 0.225 101 150 0.231 101 200 0.235 101 250 0.226 101 300 0.239 101 350 0.231 train_err: 0.07144 test_err: 0.1353 102 50 0.221 102 100 0.224 102 150 0.222 102 200 0.217 102 250 0.213 102 300 0.230 102 350 0.243 train_err: 0.07556 test_err: 0.1342 103 50 0.208 103 100 0.224 103 150 0.217 103 200 0.229 103 250 0.200 103 300 0.215 103 350 0.234 train_err: 0.06934 test_err: 0.1395 104 50 0.202 104 100 0.214 104 150 0.230 104 200 0.210 104 250 0.228 104 300 0.212 104 350 0.241 train_err: 0.07108 test_err: 0.1367 105 50 0.207 105 100 0.204 105 150 0.215 105 200 0.217 105 250 0.224 105 300 0.221 105 350 0.229 train_err: 0.07146 test_err: 0.1379 106 50 0.218 106 100 0.217 106 150 0.214 106 200 0.202 106 250 0.223 106 300 0.209 106 350 0.228 train_err: 0.06874 test_err: 0.1399 107 50 0.209 107 100 0.206 107 150 0.204 107 200 0.215 107 250 0.207 107 300 0.228 107 350 0.216 train_err: 0.06534 test_err: 0.1322 108 50 0.212 108 100 0.202 108 150 0.214 108 200 0.219 108 250 0.212 108 300 0.213 108 350 0.218 train_err: 0.06724 test_err: 0.1363 109 50 0.195 109 100 0.202 109 150 0.197 109 200 0.210 109 250 0.189 109 300 0.209 109 350 0.204 train_err: 0.07428 test_err: 0.1422 110 50 0.187 110 100 0.190 110 150 0.189 110 200 0.211 110 250 0.216 110 300 0.225 110 350 0.211 train_err: 0.07192 test_err: 0.1393 111 50 0.193 111 100 0.179 111 150 0.198 111 200 0.199 111 250 0.205 111 300 0.216 111 350 0.208 train_err: 0.0638 test_err: 0.1338 112 50 0.194 112 100 0.202 112 150 0.194 112 200 0.189 112 250 0.216 112 300 0.209 112 350 0.205 train_err: 0.06584 test_err: 0.1347 113 50 0.185 113 100 0.193 113 150 0.202 113 200 0.188 113 250 0.198 113 300 0.227 113 350 0.191 train_err: 0.0642 test_err: 0.1377 114 50 0.193 114 100 0.204 114 150 0.183 114 200 0.196 114 250 0.188 114 300 0.205 114 350 0.205 train_err: 0.0637 test_err: 0.1387 115 50 0.183 115 100 0.182 115 150 0.199 115 200 0.196 115 250 0.192 115 300 0.217 115 350 0.210 train_err: 0.06392 test_err: 0.1334 116 50 0.191 116 100 0.186 116 150 0.185 116 200 0.192 116 250 0.193 116 300 0.194 116 350 0.175 train_err: 0.06252 test_err: 0.1357 117 50 0.183 117 100 0.184 117 150 0.197 117 200 0.179 117 250 0.186 117 300 0.198 117 350 0.203 train_err: 0.0665 test_err: 0.1404 118 50 0.197 118 100 0.190 118 150 0.186 118 200 0.187 118 250 0.187 118 300 0.196 118 350 0.186 train_err: 0.06744 test_err: 0.1387 119 50 0.174 119 100 0.184 119 150 0.176 119 200 0.192 119 250 0.192 119 300 0.191 119 350 0.187 train_err: 0.06126 test_err: 0.1372 120 50 0.182 120 100 0.193 120 150 0.192 120 200 0.187 120 250 0.189 120 300 0.176 120 350 0.203 train_err: 0.06304 test_err: 0.1359 121 50 0.184 121 100 0.180 121 150 0.179 121 200 0.181 121 250 0.190 121 300 0.186 121 350 0.181 train_err: 0.06092 test_err: 0.1413 122 50 0.171 122 100 0.173 122 150 0.188 122 200 0.191 122 250 0.197 122 300 0.173 122 350 0.185 train_err: 0.05902 test_err: 0.1378 123 50 0.172 123 100 0.179 123 150 0.178 123 200 0.198 123 250 0.187 123 300 0.186 123 350 0.187 train_err: 0.0619 test_err: 0.1386 124 50 0.181 124 100 0.170 124 150 0.177 124 200 0.163 124 250 0.188 124 300 0.176 124 350 0.192 train_err: 0.05782 test_err: 0.1386 125 50 0.164 125 100 0.168 125 150 0.153 125 200 0.146 125 250 0.157 125 300 0.151 125 350 0.160 train_err: 0.04706 test_err: 0.1303 126 50 0.141 126 100 0.155 126 150 0.145 126 200 0.140 126 250 0.149 126 300 0.150 126 350 0.154 train_err: 0.04492 test_err: 0.1288 127 50 0.132 127 100 0.132 127 150 0.138 127 200 0.137 127 250 0.151 127 300 0.143 127 350 0.144 train_err: 0.04212 test_err: 0.1295 128 50 0.138 128 100 0.137 128 150 0.140 128 200 0.139 128 250 0.138 128 300 0.137 128 350 0.137 train_err: 0.04248 test_err: 0.1286 129 50 0.138 129 100 0.140 129 150 0.144 129 200 0.138 129 250 0.139 129 300 0.142 129 350 0.142 train_err: 0.04308 test_err: 0.1297 130 50 0.139 130 100 0.133 130 150 0.137 130 200 0.136 130 250 0.150 130 300 0.136 130 350 0.140 train_err: 0.03982 test_err: 0.1283 131 50 0.135 131 100 0.129 131 150 0.133 131 200 0.137 131 250 0.139 131 300 0.138 131 350 0.140 train_err: 0.03872 test_err: 0.1291 132 50 0.137 132 100 0.129 132 150 0.131 132 200 0.130 132 250 0.130 132 300 0.140 132 350 0.143 train_err: 0.0394 test_err: 0.1297 133 50 0.129 133 100 0.130 133 150 0.130 133 200 0.132 133 250 0.130 133 300 0.133 133 350 0.122 train_err: 0.04092 test_err: 0.1309 134 50 0.128 134 100 0.128 134 150 0.132 134 200 0.139 134 250 0.130 134 300 0.135 134 350 0.139 train_err: 0.0379 test_err: 0.1296 135 50 0.122 135 100 0.127 135 150 0.133 135 200 0.125 135 250 0.136 135 300 0.127 135 350 0.139 train_err: 0.03874 test_err: 0.1284 136 50 0.119 136 100 0.136 136 150 0.121 136 200 0.130 136 250 0.128 136 300 0.118 136 350 0.140 train_err: 0.03986 test_err: 0.1277 137 50 0.127 137 100 0.125 137 150 0.129 137 200 0.130 137 250 0.121 137 300 0.120 137 350 0.134 train_err: 0.03862 test_err: 0.1288 138 50 0.125 138 100 0.122 138 150 0.120 138 200 0.127 138 250 0.134 138 300 0.131 138 350 0.134 train_err: 0.0385 test_err: 0.1308 139 50 0.116 139 100 0.129 139 150 0.123 139 200 0.144 139 250 0.131 139 300 0.121 139 350 0.144 train_err: 0.03918 test_err: 0.1285 140 50 0.134 140 100 0.129 140 150 0.129 140 200 0.121 140 250 0.124 140 300 0.131 140 350 0.138 train_err: 0.03882 test_err: 0.1283 141 50 0.113 141 100 0.126 141 150 0.124 141 200 0.132 141 250 0.133 141 300 0.120 141 350 0.133 train_err: 0.03722 test_err: 0.1286 142 50 0.123 142 100 0.130 142 150 0.135 142 200 0.122 142 250 0.124 142 300 0.122 142 350 0.126 train_err: 0.03642 test_err: 0.1291 143 50 0.131 143 100 0.124 143 150 0.128 143 200 0.126 143 250 0.128 143 300 0.125 143 350 0.112 train_err: 0.03774 test_err: 0.1283 144 50 0.117 144 100 0.132 144 150 0.126 144 200 0.126 144 250 0.118 144 300 0.120 144 350 0.129 train_err: 0.0367 test_err: 0.1278 145 50 0.128 145 100 0.121 145 150 0.117 145 200 0.118 145 250 0.122 145 300 0.122 145 350 0.129 train_err: 0.03612 test_err: 0.1288 146 50 0.128 146 100 0.126 146 150 0.123 146 200 0.117 146 250 0.117 146 300 0.120 146 350 0.124 train_err: 0.03608 test_err: 0.129 147 50 0.122 147 100 0.125 147 150 0.128 147 200 0.135 147 250 0.126 147 300 0.124 147 350 0.115 train_err: 0.0375 test_err: 0.1287 148 50 0.113 148 100 0.133 148 150 0.133 148 200 0.120 148 250 0.118 148 300 0.119 148 350 0.129 train_err: 0.0357 test_err: 0.1306 149 50 0.126 149 100 0.111 149 150 0.120 149 200 0.123 149 250 0.116 149 300 0.128 149 350 0.123 train_err: 0.03662 test_err: 0.1302 150 50 0.116 150 100 0.124 150 150 0.123 150 200 0.124 150 250 0.117 150 300 0.117 150 350 0.120 train_err: 0.036 test_err: 0.1297 151 50 0.106 151 100 0.115 151 150 0.121 151 200 0.128 151 250 0.118 151 300 0.119 151 350 0.124 train_err: 0.03702 test_err: 0.1311 152 50 0.142 152 100 0.117 152 150 0.127 152 200 0.120 152 250 0.117 152 300 0.118 152 350 0.122 train_err: 0.03672 test_err: 0.128 153 50 0.122 153 100 0.117 153 150 0.116 153 200 0.115 153 250 0.118 153 300 0.122 153 350 0.119 train_err: 0.03546 test_err: 0.1298 154 50 0.124 154 100 0.113 154 150 0.123 154 200 0.125 154 250 0.117 154 300 0.122 154 350 0.122 train_err: 0.0351 test_err: 0.1291 155 50 0.118 155 100 0.113 155 150 0.115 155 200 0.121 155 250 0.117 155 300 0.121 155 350 0.119 train_err: 0.03576 test_err: 0.1288 156 50 0.115 156 100 0.121 156 150 0.116 156 200 0.117 156 250 0.111 156 300 0.115 156 350 0.113 train_err: 0.0336 test_err: 0.1276 157 50 0.115 157 100 0.119 157 150 0.119 157 200 0.115 157 250 0.119 157 300 0.115 157 350 0.116 train_err: 0.03368 test_err: 0.1299 158 50 0.111 158 100 0.114 158 150 0.123 158 200 0.125 158 250 0.117 158 300 0.112 158 350 0.121 train_err: 0.03486 test_err: 0.1294 159 50 0.113 159 100 0.114 159 150 0.112 159 200 0.132 159 250 0.113 159 300 0.118 159 350 0.114 train_err: 0.03452 test_err: 0.1287 160 50 0.117 160 100 0.115 160 150 0.107 160 200 0.103 160 250 0.117 160 300 0.111 160 350 0.106 train_err: 0.03504 test_err: 0.1296 161 50 0.112 161 100 0.116 161 150 0.105 161 200 0.119 161 250 0.113 161 300 0.114 161 350 0.115 train_err: 0.03406 test_err: 0.1288 162 50 0.113 162 100 0.110 162 150 0.110 162 200 0.119 162 250 0.111 162 300 0.120 162 350 0.112 train_err: 0.03352 test_err: 0.1277 163 50 0.115 163 100 0.119 163 150 0.116 163 200 0.110 163 250 0.113 163 300 0.112 163 350 0.113 train_err: 0.03354 test_err: 0.129 164 50 0.117 164 100 0.110 164 150 0.121 164 200 0.124 164 250 0.109 164 300 0.107 164 350 0.110 train_err: 0.03332 test_err: 0.1307 Finished Training
Run training loop for residual networks with shortcuts. Here we run for n={3, 5, 7,9} corresponding to networks of depth 20, 32, 44 and 64 layers.
# TRAIN RESNETs
# n determines network size as described in paper
ns = [3, 5, 7, 9]
# Train resnets
for n in ns:
print(f'MODEL SIZE: n={n}')
# Reload data
train_loader, test_loader = get_data_loaders(data_dir,
batch_size,
train_transform,
test_transform,
shuffle=True,
num_workers=4,
pin_memory=True)
model = ResNet(n, shortcuts=True)
criterion = torch.nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=lr, momentum=momentum, weight_decay=weight_decay)
scheduler = optim.lr_scheduler.MultiStepLR(optimizer, milestones=milestones, gamma=gamma)
results_file = f'results/resnet{6*n+2}.csv'
model_file = f'pretrained/resnet{6*n+2}.pt'
train(model, epochs, train_loader, test_loader, criterion,
optimizer, results_file, scheduler=scheduler, MODEL_PATH=model_file)
MODEL SIZE: n=3 Files already downloaded and verified Files already downloaded and verified cuda:0 Epoch Batch NLLLoss_Train 1 50 2.487 1 100 1.962 1 150 1.843 1 200 1.762 1 250 1.698 1 300 1.622 1 350 1.584 train_err: 0.6392 test_err: 0.6367 2 50 1.476 2 100 1.419 2 150 1.394 2 200 1.303 2 250 1.268 2 300 1.214 2 350 1.173 train_err: 0.43492 test_err: 0.4437 3 50 1.146 3 100 1.071 3 150 1.065 3 200 1.022 3 250 1.003 3 300 0.967 3 350 0.952 train_err: 0.37536 test_err: 0.3705 4 50 0.868 4 100 0.867 4 150 0.857 4 200 0.866 4 250 0.857 4 300 0.816 4 350 0.809 train_err: 0.31022 test_err: 0.306 5 50 0.720 5 100 0.751 5 150 0.740 5 200 0.737 5 250 0.728 5 300 0.697 5 350 0.714 train_err: 0.27596 test_err: 0.29 6 50 0.663 6 100 0.653 6 150 0.634 6 200 0.672 6 250 0.667 6 300 0.654 6 350 0.628 train_err: 0.24674 test_err: 0.2619 7 50 0.593 7 100 0.603 7 150 0.618 7 200 0.603 7 250 0.595 7 300 0.600 7 350 0.594 train_err: 0.20812 test_err: 0.219 8 50 0.557 8 100 0.550 8 150 0.566 8 200 0.551 8 250 0.544 8 300 0.560 8 350 0.541 train_err: 0.21312 test_err: 0.2171 9 50 0.530 9 100 0.523 9 150 0.532 9 200 0.513 9 250 0.506 9 300 0.540 9 350 0.514 train_err: 0.21626 test_err: 0.2328 10 50 0.499 10 100 0.485 10 150 0.491 10 200 0.493 10 250 0.499 10 300 0.518 10 350 0.492 train_err: 0.2303 test_err: 0.2378 11 50 0.492 11 100 0.474 11 150 0.480 11 200 0.481 11 250 0.513 11 300 0.489 11 350 0.478 train_err: 0.1659 test_err: 0.1915 12 50 0.459 12 100 0.442 12 150 0.434 12 200 0.466 12 250 0.479 12 300 0.452 12 350 0.474 train_err: 0.16968 test_err: 0.1919 13 50 0.435 13 100 0.445 13 150 0.422 13 200 0.431 13 250 0.442 13 300 0.429 13 350 0.468 train_err: 0.16114 test_err: 0.1886 14 50 0.411 14 100 0.438 14 150 0.431 14 200 0.413 14 250 0.442 14 300 0.428 14 350 0.422 train_err: 0.1762 test_err: 0.2 15 50 0.399 15 100 0.416 15 150 0.413 15 200 0.411 15 250 0.435 15 300 0.401 15 350 0.417 train_err: 0.1598 test_err: 0.1779 16 50 0.400 16 100 0.389 16 150 0.399 16 200 0.401 16 250 0.399 16 300 0.397 16 350 0.412 train_err: 0.13424 test_err: 0.1651 17 50 0.381 17 100 0.384 17 150 0.387 17 200 0.397 17 250 0.403 17 300 0.397 17 350 0.405 train_err: 0.13704 test_err: 0.1608 18 50 0.383 18 100 0.377 18 150 0.393 18 200 0.392 18 250 0.386 18 300 0.396 18 350 0.387 train_err: 0.1551 test_err: 0.1878 19 50 0.348 19 100 0.359 19 150 0.350 19 200 0.391 19 250 0.370 19 300 0.398 19 350 0.378 train_err: 0.14366 test_err: 0.1634 20 50 0.340 20 100 0.359 20 150 0.346 20 200 0.399 20 250 0.375 20 300 0.368 20 350 0.367 train_err: 0.13766 test_err: 0.1674 21 50 0.334 21 100 0.346 21 150 0.356 21 200 0.358 21 250 0.367 21 300 0.380 21 350 0.370 train_err: 0.13922 test_err: 0.1721 22 50 0.327 22 100 0.339 22 150 0.339 22 200 0.355 22 250 0.358 22 300 0.346 22 350 0.375 train_err: 0.13282 test_err: 0.1527 23 50 0.328 23 100 0.350 23 150 0.353 23 200 0.340 23 250 0.343 23 300 0.357 23 350 0.358 train_err: 0.12322 test_err: 0.1562 24 50 0.323 24 100 0.341 24 150 0.345 24 200 0.352 24 250 0.333 24 300 0.324 24 350 0.351 train_err: 0.11852 test_err: 0.1507 25 50 0.313 25 100 0.322 25 150 0.324 25 200 0.340 25 250 0.336 25 300 0.339 25 350 0.356 train_err: 0.16338 test_err: 0.1926 26 50 0.324 26 100 0.313 26 150 0.313 26 200 0.339 26 250 0.340 26 300 0.330 26 350 0.340 train_err: 0.16784 test_err: 0.1937 27 50 0.303 27 100 0.296 27 150 0.329 27 200 0.330 27 250 0.320 27 300 0.341 27 350 0.346 train_err: 0.11896 test_err: 0.1434 28 50 0.296 28 100 0.307 28 150 0.308 28 200 0.317 28 250 0.353 28 300 0.336 28 350 0.314 train_err: 0.1455 test_err: 0.1797 29 50 0.302 29 100 0.308 29 150 0.314 29 200 0.313 29 250 0.318 29 300 0.304 29 350 0.328 train_err: 0.11502 test_err: 0.1498 30 50 0.301 30 100 0.288 30 150 0.313 30 200 0.321 30 250 0.310 30 300 0.315 30 350 0.314 train_err: 0.14116 test_err: 0.1697 31 50 0.291 31 100 0.288 31 150 0.320 31 200 0.323 31 250 0.313 31 300 0.311 31 350 0.290 train_err: 0.1125 test_err: 0.1487 32 50 0.312 32 100 0.289 32 150 0.289 32 200 0.295 32 250 0.306 32 300 0.311 32 350 0.327 train_err: 0.11782 test_err: 0.1537 33 50 0.286 33 100 0.293 33 150 0.290 33 200 0.291 33 250 0.308 33 300 0.305 33 350 0.319 train_err: 0.1198 test_err: 0.1546 34 50 0.283 34 100 0.293 34 150 0.276 34 200 0.297 34 250 0.300 34 300 0.285 34 350 0.308 train_err: 0.12078 test_err: 0.1559 35 50 0.277 35 100 0.281 35 150 0.298 35 200 0.280 35 250 0.280 35 300 0.300 35 350 0.302 train_err: 0.13558 test_err: 0.1745 36 50 0.278 36 100 0.268 36 150 0.271 36 200 0.301 36 250 0.287 36 300 0.321 36 350 0.286 train_err: 0.10638 test_err: 0.1424 37 50 0.272 37 100 0.275 37 150 0.265 37 200 0.296 37 250 0.308 37 300 0.275 37 350 0.314 train_err: 0.14042 test_err: 0.1701 38 50 0.279 38 100 0.284 38 150 0.275 38 200 0.282 38 250 0.274 38 300 0.296 38 350 0.298 train_err: 0.12732 test_err: 0.1596 39 50 0.259 39 100 0.277 39 150 0.255 39 200 0.271 39 250 0.287 39 300 0.294 39 350 0.282 train_err: 0.09856 test_err: 0.1348 40 50 0.261 40 100 0.272 40 150 0.273 40 200 0.290 40 250 0.265 40 300 0.275 40 350 0.277 train_err: 0.14842 test_err: 0.1788 41 50 0.268 41 100 0.295 41 150 0.272 41 200 0.267 41 250 0.279 41 300 0.279 41 350 0.296 train_err: 0.11848 test_err: 0.1572 42 50 0.268 42 100 0.274 42 150 0.277 42 200 0.282 42 250 0.269 42 300 0.280 42 350 0.280 train_err: 0.11756 test_err: 0.1526 43 50 0.228 43 100 0.271 43 150 0.298 43 200 0.282 43 250 0.271 43 300 0.262 43 350 0.308 train_err: 0.10204 test_err: 0.1415 44 50 0.243 44 100 0.262 44 150 0.277 44 200 0.282 44 250 0.258 44 300 0.264 44 350 0.272 train_err: 0.102 test_err: 0.1455 45 50 0.244 45 100 0.256 45 150 0.282 45 200 0.266 45 250 0.263 45 300 0.266 45 350 0.288 train_err: 0.12534 test_err: 0.1613 46 50 0.274 46 100 0.249 46 150 0.260 46 200 0.277 46 250 0.277 46 300 0.265 46 350 0.278 train_err: 0.10412 test_err: 0.1459 47 50 0.237 47 100 0.262 47 150 0.272 47 200 0.272 47 250 0.257 47 300 0.262 47 350 0.292 train_err: 0.10518 test_err: 0.1338 48 50 0.254 48 100 0.246 48 150 0.270 48 200 0.270 48 250 0.267 48 300 0.296 48 350 0.265 train_err: 0.12048 test_err: 0.1595 49 50 0.245 49 100 0.238 49 150 0.253 49 200 0.251 49 250 0.247 49 300 0.263 49 350 0.277 train_err: 0.09346 test_err: 0.1353 50 50 0.241 50 100 0.240 50 150 0.249 50 200 0.259 50 250 0.270 50 300 0.269 50 350 0.266 train_err: 0.1052 test_err: 0.1445 51 50 0.251 51 100 0.269 51 150 0.277 51 200 0.255 51 250 0.254 51 300 0.241 51 350 0.280 train_err: 0.09556 test_err: 0.1287 52 50 0.222 52 100 0.254 52 150 0.266 52 200 0.254 52 250 0.263 52 300 0.245 52 350 0.247 train_err: 0.10326 test_err: 0.1404 53 50 0.241 53 100 0.272 53 150 0.245 53 200 0.256 53 250 0.248 53 300 0.254 53 350 0.278 train_err: 0.11418 test_err: 0.153 54 50 0.233 54 100 0.244 54 150 0.254 54 200 0.245 54 250 0.269 54 300 0.264 54 350 0.248 train_err: 0.09968 test_err: 0.1369 55 50 0.228 55 100 0.247 55 150 0.249 55 200 0.267 55 250 0.246 55 300 0.270 55 350 0.257 train_err: 0.09628 test_err: 0.1333 56 50 0.225 56 100 0.230 56 150 0.239 56 200 0.250 56 250 0.280 56 300 0.258 56 350 0.260 train_err: 0.10846 test_err: 0.151 57 50 0.243 57 100 0.236 57 150 0.237 57 200 0.246 57 250 0.264 57 300 0.263 57 350 0.255 train_err: 0.09678 test_err: 0.1345 58 50 0.255 58 100 0.247 58 150 0.260 58 200 0.260 58 250 0.232 58 300 0.239 58 350 0.254 train_err: 0.10352 test_err: 0.1369 59 50 0.236 59 100 0.229 59 150 0.256 59 200 0.263 59 250 0.253 59 300 0.252 59 350 0.261 train_err: 0.09336 test_err: 0.1347 60 50 0.228 60 100 0.237 60 150 0.260 60 200 0.255 60 250 0.260 60 300 0.245 60 350 0.262 train_err: 0.09044 test_err: 0.131 61 50 0.229 61 100 0.241 61 150 0.264 61 200 0.230 61 250 0.265 61 300 0.258 61 350 0.263 train_err: 0.1276 test_err: 0.1679 62 50 0.209 62 100 0.241 62 150 0.228 62 200 0.239 62 250 0.253 62 300 0.262 62 350 0.263 train_err: 0.1239 test_err: 0.1639 63 50 0.230 63 100 0.232 63 150 0.248 63 200 0.244 63 250 0.258 63 300 0.245 63 350 0.237 train_err: 0.10186 test_err: 0.138 64 50 0.234 64 100 0.242 64 150 0.248 64 200 0.231 64 250 0.248 64 300 0.249 64 350 0.251 train_err: 0.10612 test_err: 0.1457 65 50 0.224 65 100 0.224 65 150 0.216 65 200 0.240 65 250 0.254 65 300 0.256 65 350 0.245 train_err: 0.09174 test_err: 0.1302 66 50 0.208 66 100 0.238 66 150 0.223 66 200 0.226 66 250 0.245 66 300 0.254 66 350 0.269 train_err: 0.08524 test_err: 0.1303 67 50 0.206 67 100 0.220 67 150 0.231 67 200 0.248 67 250 0.252 67 300 0.254 67 350 0.232 train_err: 0.13552 test_err: 0.1784 68 50 0.225 68 100 0.219 68 150 0.227 68 200 0.257 68 250 0.258 68 300 0.239 68 350 0.256 train_err: 0.11142 test_err: 0.1464 69 50 0.246 69 100 0.234 69 150 0.255 69 200 0.233 69 250 0.233 69 300 0.245 69 350 0.239 train_err: 0.11556 test_err: 0.154 70 50 0.228 70 100 0.231 70 150 0.225 70 200 0.258 70 250 0.232 70 300 0.238 70 350 0.234 train_err: 0.0841 test_err: 0.1287 71 50 0.210 71 100 0.236 71 150 0.233 71 200 0.228 71 250 0.232 71 300 0.253 71 350 0.257 train_err: 0.1088 test_err: 0.1537 72 50 0.209 72 100 0.207 72 150 0.249 72 200 0.234 72 250 0.237 72 300 0.241 72 350 0.238 train_err: 0.0914 test_err: 0.1378 73 50 0.216 73 100 0.225 73 150 0.221 73 200 0.240 73 250 0.235 73 300 0.237 73 350 0.234 train_err: 0.10298 test_err: 0.1369 74 50 0.219 74 100 0.216 74 150 0.235 74 200 0.245 74 250 0.235 74 300 0.246 74 350 0.238 train_err: 0.09362 test_err: 0.1268 75 50 0.227 75 100 0.217 75 150 0.225 75 200 0.228 75 250 0.219 75 300 0.254 75 350 0.235 train_err: 0.09104 test_err: 0.1372 76 50 0.219 76 100 0.214 76 150 0.233 76 200 0.239 76 250 0.248 76 300 0.226 76 350 0.247 train_err: 0.08296 test_err: 0.13 77 50 0.213 77 100 0.206 77 150 0.225 77 200 0.222 77 250 0.259 77 300 0.237 77 350 0.241 train_err: 0.09838 test_err: 0.1384 78 50 0.215 78 100 0.221 78 150 0.218 78 200 0.212 78 250 0.235 78 300 0.226 78 350 0.248 train_err: 0.10694 test_err: 0.1459 79 50 0.220 79 100 0.223 79 150 0.230 79 200 0.233 79 250 0.226 79 300 0.231 79 350 0.246 train_err: 0.09402 test_err: 0.1317 80 50 0.226 80 100 0.222 80 150 0.251 80 200 0.230 80 250 0.234 80 300 0.233 80 350 0.229 train_err: 0.0943 test_err: 0.1395 81 50 0.205 81 100 0.220 81 150 0.232 81 200 0.245 81 250 0.218 81 300 0.239 81 350 0.239 train_err: 0.0903 test_err: 0.1314 82 50 0.233 82 100 0.233 82 150 0.230 82 200 0.239 82 250 0.233 82 300 0.221 82 350 0.247 train_err: 0.0949 test_err: 0.135 83 50 0.209 83 100 0.194 83 150 0.243 83 200 0.248 83 250 0.212 83 300 0.236 83 350 0.230 train_err: 0.11272 test_err: 0.1569 84 50 0.186 84 100 0.147 84 150 0.138 84 200 0.133 84 250 0.141 84 300 0.121 84 350 0.118 train_err: 0.03608 test_err: 0.0902 85 50 0.118 85 100 0.116 85 150 0.115 85 200 0.111 85 250 0.109 85 300 0.117 85 350 0.116 train_err: 0.02998 test_err: 0.0868 86 50 0.092 86 100 0.110 86 150 0.101 86 200 0.103 86 250 0.097 86 300 0.109 86 350 0.101 train_err: 0.0283 test_err: 0.0857 87 50 0.098 87 100 0.089 87 150 0.095 87 200 0.095 87 250 0.101 87 300 0.100 87 350 0.097 train_err: 0.02652 test_err: 0.0854 88 50 0.081 88 100 0.099 88 150 0.089 88 200 0.084 88 250 0.099 88 300 0.087 88 350 0.096 train_err: 0.02454 test_err: 0.0829 89 50 0.090 89 100 0.086 89 150 0.087 89 200 0.088 89 250 0.084 89 300 0.090 89 350 0.088 train_err: 0.02326 test_err: 0.0836 90 50 0.080 90 100 0.085 90 150 0.082 90 200 0.077 90 250 0.086 90 300 0.085 90 350 0.082 train_err: 0.02256 test_err: 0.0838 91 50 0.075 91 100 0.083 91 150 0.077 91 200 0.075 91 250 0.073 91 300 0.080 91 350 0.081 train_err: 0.0223 test_err: 0.0846 92 50 0.075 92 100 0.071 92 150 0.083 92 200 0.078 92 250 0.082 92 300 0.078 92 350 0.075 train_err: 0.02074 test_err: 0.0824 93 50 0.072 93 100 0.070 93 150 0.077 93 200 0.073 93 250 0.075 93 300 0.077 93 350 0.077 train_err: 0.0197 test_err: 0.0837 94 50 0.076 94 100 0.072 94 150 0.071 94 200 0.068 94 250 0.074 94 300 0.074 94 350 0.081 train_err: 0.01854 test_err: 0.0844 95 50 0.062 95 100 0.077 95 150 0.066 95 200 0.070 95 250 0.073 95 300 0.067 95 350 0.062 train_err: 0.01794 test_err: 0.0814 96 50 0.064 96 100 0.064 96 150 0.063 96 200 0.067 96 250 0.070 96 300 0.068 96 350 0.065 train_err: 0.01712 test_err: 0.0832 97 50 0.069 97 100 0.059 97 150 0.056 97 200 0.058 97 250 0.068 97 300 0.066 97 350 0.065 train_err: 0.01624 test_err: 0.0824 98 50 0.061 98 100 0.068 98 150 0.056 98 200 0.065 98 250 0.061 98 300 0.069 98 350 0.069 train_err: 0.01696 test_err: 0.0834 99 50 0.060 99 100 0.065 99 150 0.064 99 200 0.066 99 250 0.062 99 300 0.068 99 350 0.064 train_err: 0.01568 test_err: 0.0845 100 50 0.063 100 100 0.057 100 150 0.058 100 200 0.063 100 250 0.056 100 300 0.060 100 350 0.060 train_err: 0.01466 test_err: 0.082 101 50 0.053 101 100 0.058 101 150 0.060 101 200 0.061 101 250 0.064 101 300 0.062 101 350 0.057 train_err: 0.01596 test_err: 0.0868 102 50 0.060 102 100 0.055 102 150 0.057 102 200 0.056 102 250 0.055 102 300 0.054 102 350 0.063 train_err: 0.01556 test_err: 0.0819 103 50 0.053 103 100 0.059 103 150 0.052 103 200 0.058 103 250 0.060 103 300 0.053 103 350 0.066 train_err: 0.01396 test_err: 0.0826 104 50 0.056 104 100 0.055 104 150 0.056 104 200 0.052 104 250 0.056 104 300 0.055 104 350 0.059 train_err: 0.0156 test_err: 0.084 105 50 0.054 105 100 0.059 105 150 0.052 105 200 0.050 105 250 0.054 105 300 0.054 105 350 0.054 train_err: 0.014 test_err: 0.0853 106 50 0.046 106 100 0.052 106 150 0.053 106 200 0.045 106 250 0.055 106 300 0.052 106 350 0.054 train_err: 0.0138 test_err: 0.0857 107 50 0.051 107 100 0.050 107 150 0.051 107 200 0.045 107 250 0.057 107 300 0.055 107 350 0.053 train_err: 0.01238 test_err: 0.0851 108 50 0.050 108 100 0.046 108 150 0.059 108 200 0.043 108 250 0.044 108 300 0.048 108 350 0.056 train_err: 0.01332 test_err: 0.0831 109 50 0.046 109 100 0.048 109 150 0.047 109 200 0.051 109 250 0.050 109 300 0.054 109 350 0.050 train_err: 0.01224 test_err: 0.0836 110 50 0.048 110 100 0.041 110 150 0.042 110 200 0.049 110 250 0.049 110 300 0.053 110 350 0.054 train_err: 0.01246 test_err: 0.0838 111 50 0.048 111 100 0.044 111 150 0.043 111 200 0.042 111 250 0.047 111 300 0.047 111 350 0.049 train_err: 0.01168 test_err: 0.0857 112 50 0.040 112 100 0.047 112 150 0.050 112 200 0.047 112 250 0.050 112 300 0.047 112 350 0.049 train_err: 0.01228 test_err: 0.0849 113 50 0.045 113 100 0.041 113 150 0.051 113 200 0.047 113 250 0.044 113 300 0.049 113 350 0.055 train_err: 0.01134 test_err: 0.084 114 50 0.046 114 100 0.043 114 150 0.043 114 200 0.039 114 250 0.044 114 300 0.049 114 350 0.044 train_err: 0.01204 test_err: 0.0842 115 50 0.044 115 100 0.043 115 150 0.042 115 200 0.047 115 250 0.041 115 300 0.052 115 350 0.048 train_err: 0.01084 test_err: 0.0838 116 50 0.039 116 100 0.047 116 150 0.040 116 200 0.044 116 250 0.044 116 300 0.040 116 350 0.050 train_err: 0.01082 test_err: 0.0838 117 50 0.044 117 100 0.042 117 150 0.043 117 200 0.043 117 250 0.041 117 300 0.044 117 350 0.042 train_err: 0.00916 test_err: 0.0832 118 50 0.035 118 100 0.038 118 150 0.044 118 200 0.043 118 250 0.040 118 300 0.042 118 350 0.040 train_err: 0.0095 test_err: 0.0842 119 50 0.039 119 100 0.040 119 150 0.044 119 200 0.040 119 250 0.042 119 300 0.044 119 350 0.044 train_err: 0.00972 test_err: 0.0842 120 50 0.040 120 100 0.035 120 150 0.044 120 200 0.039 120 250 0.044 120 300 0.041 120 350 0.042 train_err: 0.01 test_err: 0.0839 121 50 0.043 121 100 0.039 121 150 0.043 121 200 0.042 121 250 0.042 121 300 0.040 121 350 0.042 train_err: 0.00998 test_err: 0.084 122 50 0.039 122 100 0.039 122 150 0.040 122 200 0.039 122 250 0.038 122 300 0.040 122 350 0.042 train_err: 0.00884 test_err: 0.0846 123 50 0.036 123 100 0.039 123 150 0.039 123 200 0.040 123 250 0.036 123 300 0.043 123 350 0.036 train_err: 0.0085 test_err: 0.0838 124 50 0.042 124 100 0.035 124 150 0.038 124 200 0.037 124 250 0.039 124 300 0.042 124 350 0.041 train_err: 0.00884 test_err: 0.0833 125 50 0.038 125 100 0.035 125 150 0.035 125 200 0.035 125 250 0.034 125 300 0.028 125 350 0.034 train_err: 0.00706 test_err: 0.0811 126 50 0.033 126 100 0.033 126 150 0.032 126 200 0.030 126 250 0.030 126 300 0.033 126 350 0.032 train_err: 0.0061 test_err: 0.0813 127 50 0.031 127 100 0.029 127 150 0.031 127 200 0.031 127 250 0.032 127 300 0.027 127 350 0.028 train_err: 0.00554 test_err: 0.0826 128 50 0.029 128 100 0.027 128 150 0.028 128 200 0.025 128 250 0.029 128 300 0.031 128 350 0.030 train_err: 0.00584 test_err: 0.0807 129 50 0.027 129 100 0.030 129 150 0.029 129 200 0.028 129 250 0.027 129 300 0.032 129 350 0.027 train_err: 0.00542 test_err: 0.0804 130 50 0.028 130 100 0.029 130 150 0.030 130 200 0.027 130 250 0.030 130 300 0.030 130 350 0.028 train_err: 0.00606 test_err: 0.0813 131 50 0.030 131 100 0.027 131 150 0.030 131 200 0.027 131 250 0.028 131 300 0.028 131 350 0.025 train_err: 0.00526 test_err: 0.0809 132 50 0.029 132 100 0.029 132 150 0.028 132 200 0.031 132 250 0.025 132 300 0.026 132 350 0.029 train_err: 0.00546 test_err: 0.0818 133 50 0.028 133 100 0.027 133 150 0.025 133 200 0.030 133 250 0.030 133 300 0.028 133 350 0.029 train_err: 0.00566 test_err: 0.0804 134 50 0.026 134 100 0.026 134 150 0.027 134 200 0.027 134 250 0.028 134 300 0.031 134 350 0.028 train_err: 0.0053 test_err: 0.0821 135 50 0.029 135 100 0.024 135 150 0.028 135 200 0.029 135 250 0.027 135 300 0.028 135 350 0.028 train_err: 0.0051 test_err: 0.0823 136 50 0.029 136 100 0.027 136 150 0.026 136 200 0.032 136 250 0.030 136 300 0.029 136 350 0.026 train_err: 0.005 test_err: 0.0814 137 50 0.029 137 100 0.030 137 150 0.022 137 200 0.027 137 250 0.023 137 300 0.024 137 350 0.024 train_err: 0.00508 test_err: 0.0816 138 50 0.027 138 100 0.025 138 150 0.026 138 200 0.026 138 250 0.025 138 300 0.030 138 350 0.031 train_err: 0.00486 test_err: 0.0812 139 50 0.024 139 100 0.026 139 150 0.026 139 200 0.021 139 250 0.026 139 300 0.027 139 350 0.029 train_err: 0.0048 test_err: 0.081 140 50 0.029 140 100 0.030 140 150 0.025 140 200 0.026 140 250 0.029 140 300 0.026 140 350 0.025 train_err: 0.0047 test_err: 0.0824 141 50 0.028 141 100 0.026 141 150 0.026 141 200 0.025 141 250 0.027 141 300 0.022 141 350 0.030 train_err: 0.00446 test_err: 0.0807 142 50 0.026 142 100 0.026 142 150 0.027 142 200 0.027 142 250 0.022 142 300 0.027 142 350 0.027 train_err: 0.00546 test_err: 0.0805 143 50 0.028 143 100 0.025 143 150 0.024 143 200 0.026 143 250 0.026 143 300 0.025 143 350 0.023 train_err: 0.00488 test_err: 0.0805 144 50 0.023 144 100 0.029 144 150 0.026 144 200 0.027 144 250 0.023 144 300 0.025 144 350 0.025 train_err: 0.00546 test_err: 0.0805 145 50 0.029 145 100 0.027 145 150 0.026 145 200 0.023 145 250 0.023 145 300 0.024 145 350 0.026 train_err: 0.0048 test_err: 0.0809 146 50 0.023 146 100 0.024 146 150 0.030 146 200 0.026 146 250 0.024 146 300 0.024 146 350 0.025 train_err: 0.00532 test_err: 0.0806 147 50 0.025 147 100 0.028 147 150 0.024 147 200 0.025 147 250 0.025 147 300 0.024 147 350 0.026 train_err: 0.00514 test_err: 0.0808 148 50 0.023 148 100 0.024 148 150 0.025 148 200 0.026 148 250 0.023 148 300 0.025 148 350 0.026 train_err: 0.00464 test_err: 0.081 149 50 0.022 149 100 0.024 149 150 0.025 149 200 0.023 149 250 0.025 149 300 0.028 149 350 0.028 train_err: 0.0042 test_err: 0.0801 150 50 0.026 150 100 0.024 150 150 0.024 150 200 0.027 150 250 0.024 150 300 0.025 150 350 0.026 train_err: 0.00444 test_err: 0.0811 151 50 0.025 151 100 0.024 151 150 0.027 151 200 0.024 151 250 0.023 151 300 0.025 151 350 0.024 train_err: 0.0047 test_err: 0.0801 152 50 0.025 152 100 0.026 152 150 0.027 152 200 0.023 152 250 0.024 152 300 0.021 152 350 0.025 train_err: 0.00396 test_err: 0.08 153 50 0.026 153 100 0.029 153 150 0.023 153 200 0.027 153 250 0.028 153 300 0.024 153 350 0.028 train_err: 0.0044 test_err: 0.08 154 50 0.025 154 100 0.023 154 150 0.024 154 200 0.025 154 250 0.028 154 300 0.023 154 350 0.023 train_err: 0.00422 test_err: 0.0809 155 50 0.024 155 100 0.024 155 150 0.026 155 200 0.025 155 250 0.027 155 300 0.026 155 350 0.025 train_err: 0.00436 test_err: 0.0819 156 50 0.022 156 100 0.024 156 150 0.020 156 200 0.024 156 250 0.024 156 300 0.022 156 350 0.025 train_err: 0.00386 test_err: 0.0805 157 50 0.023 157 100 0.025 157 150 0.023 157 200 0.025 157 250 0.020 157 300 0.023 157 350 0.026 train_err: 0.00456 test_err: 0.0804 158 50 0.022 158 100 0.023 158 150 0.020 158 200 0.024 158 250 0.025 158 300 0.026 158 350 0.024 train_err: 0.00402 test_err: 0.0807 159 50 0.023 159 100 0.025 159 150 0.023 159 200 0.023 159 250 0.026 159 300 0.023 159 350 0.024 train_err: 0.00462 test_err: 0.081 160 50 0.027 160 100 0.018 160 150 0.022 160 200 0.027 160 250 0.025 160 300 0.021 160 350 0.025 train_err: 0.00406 test_err: 0.0817 161 50 0.021 161 100 0.022 161 150 0.023 161 200 0.021 161 250 0.022 161 300 0.023 161 350 0.026 train_err: 0.00424 test_err: 0.0811 162 50 0.023 162 100 0.024 162 150 0.024 162 200 0.023 162 250 0.022 162 300 0.023 162 350 0.025 train_err: 0.00356 test_err: 0.0818 163 50 0.024 163 100 0.024 163 150 0.024 163 200 0.022 163 250 0.021 163 300 0.024 163 350 0.024 train_err: 0.00414 test_err: 0.0815 164 50 0.024 164 100 0.022 164 150 0.021 164 200 0.023 164 250 0.024 164 300 0.025 164 350 0.024 train_err: 0.004 test_err: 0.0804 Finished Training MODEL SIZE: n=5 Files already downloaded and verified Files already downloaded and verified cuda:0 Epoch Batch NLLLoss_Train 1 50 2.607 1 100 1.890 1 150 1.734 1 200 1.656 1 250 1.569 1 300 1.491 1 350 1.432 train_err: 0.57616 test_err: 0.5401 2 50 1.285 2 100 1.244 2 150 1.220 2 200 1.185 2 250 1.134 2 300 1.078 2 350 1.058 train_err: 0.36644 test_err: 0.3625 3 50 1.021 3 100 0.986 3 150 0.979 3 200 0.939 3 250 0.945 3 300 0.908 3 350 0.866 train_err: 0.37974 test_err: 0.3852 4 50 0.861 4 100 0.860 4 150 0.840 4 200 0.823 4 250 0.807 4 300 0.798 4 350 0.775 train_err: 0.27854 test_err: 0.2768 5 50 0.746 5 100 0.748 5 150 0.716 5 200 0.735 5 250 0.677 5 300 0.713 5 350 0.706 train_err: 0.25692 test_err: 0.2744 6 50 0.676 6 100 0.653 6 150 0.689 6 200 0.653 6 250 0.612 6 300 0.615 6 350 0.645 train_err: 0.26252 test_err: 0.27 7 50 0.614 7 100 0.600 7 150 0.588 7 200 0.582 7 250 0.598 7 300 0.584 7 350 0.573 train_err: 0.24122 test_err: 0.2597 8 50 0.560 8 100 0.565 8 150 0.556 8 200 0.542 8 250 0.563 8 300 0.548 8 350 0.530 train_err: 0.21154 test_err: 0.2197 9 50 0.497 9 100 0.511 9 150 0.514 9 200 0.530 9 250 0.518 9 300 0.553 9 350 0.523 train_err: 0.18604 test_err: 0.1968 10 50 0.498 10 100 0.479 10 150 0.515 10 200 0.512 10 250 0.482 10 300 0.488 10 350 0.487 train_err: 0.19588 test_err: 0.1991 11 50 0.456 11 100 0.453 11 150 0.457 11 200 0.470 11 250 0.471 11 300 0.456 11 350 0.460 train_err: 0.20316 test_err: 0.2274 12 50 0.440 12 100 0.463 12 150 0.413 12 200 0.458 12 250 0.471 12 300 0.452 12 350 0.429 train_err: 0.16752 test_err: 0.1795 13 50 0.421 13 100 0.430 13 150 0.438 13 200 0.423 13 250 0.444 13 300 0.424 13 350 0.421 train_err: 0.18254 test_err: 0.2068 14 50 0.411 14 100 0.397 14 150 0.396 14 200 0.430 14 250 0.406 14 300 0.420 14 350 0.423 train_err: 0.14266 test_err: 0.1668 15 50 0.361 15 100 0.406 15 150 0.397 15 200 0.390 15 250 0.412 15 300 0.405 15 350 0.407 train_err: 0.15238 test_err: 0.1695 16 50 0.401 16 100 0.375 16 150 0.385 16 200 0.384 16 250 0.382 16 300 0.402 16 350 0.370 train_err: 0.13972 test_err: 0.1609 17 50 0.363 17 100 0.363 17 150 0.354 17 200 0.375 17 250 0.374 17 300 0.371 17 350 0.374 train_err: 0.16454 test_err: 0.1835 18 50 0.356 18 100 0.370 18 150 0.334 18 200 0.371 18 250 0.379 18 300 0.374 18 350 0.377 train_err: 0.16012 test_err: 0.184 19 50 0.332 19 100 0.372 19 150 0.350 19 200 0.359 19 250 0.373 19 300 0.366 19 350 0.335 train_err: 0.1483 test_err: 0.1786 20 50 0.350 20 100 0.350 20 150 0.332 20 200 0.331 20 250 0.351 20 300 0.360 20 350 0.333 train_err: 0.12624 test_err: 0.1479 21 50 0.321 21 100 0.320 21 150 0.337 21 200 0.364 21 250 0.345 21 300 0.333 21 350 0.341 train_err: 0.14204 test_err: 0.1757 22 50 0.307 22 100 0.328 22 150 0.321 22 200 0.313 22 250 0.339 22 300 0.347 22 350 0.295 train_err: 0.13566 test_err: 0.168 23 50 0.318 23 100 0.301 23 150 0.316 23 200 0.307 23 250 0.336 23 300 0.310 23 350 0.321 train_err: 0.15276 test_err: 0.1877 24 50 0.306 24 100 0.317 24 150 0.297 24 200 0.307 24 250 0.315 24 300 0.328 24 350 0.314 train_err: 0.11162 test_err: 0.1431 25 50 0.292 25 100 0.297 25 150 0.297 25 200 0.312 25 250 0.290 25 300 0.323 25 350 0.312 train_err: 0.13298 test_err: 0.1628 26 50 0.282 26 100 0.289 26 150 0.288 26 200 0.310 26 250 0.318 26 300 0.308 26 350 0.316 train_err: 0.1096 test_err: 0.1419 27 50 0.281 27 100 0.273 27 150 0.284 27 200 0.302 27 250 0.289 27 300 0.304 27 350 0.305 train_err: 0.114 test_err: 0.1523 28 50 0.274 28 100 0.289 28 150 0.307 28 200 0.295 28 250 0.301 28 300 0.287 28 350 0.289 train_err: 0.1117 test_err: 0.1444 29 50 0.286 29 100 0.284 29 150 0.285 29 200 0.297 29 250 0.274 29 300 0.293 29 350 0.309 train_err: 0.12422 test_err: 0.1608 30 50 0.283 30 100 0.269 30 150 0.278 30 200 0.278 30 250 0.293 30 300 0.280 30 350 0.278 train_err: 0.10048 test_err: 0.1389 31 50 0.263 31 100 0.274 31 150 0.264 31 200 0.265 31 250 0.299 31 300 0.299 31 350 0.293 train_err: 0.11704 test_err: 0.1519 32 50 0.253 32 100 0.266 32 150 0.262 32 200 0.277 32 250 0.286 32 300 0.278 32 350 0.271 train_err: 0.10846 test_err: 0.137 33 50 0.258 33 100 0.265 33 150 0.280 33 200 0.273 33 250 0.265 33 300 0.268 33 350 0.262 train_err: 0.10422 test_err: 0.1469 34 50 0.252 34 100 0.262 34 150 0.268 34 200 0.277 34 250 0.275 34 300 0.258 34 350 0.261 train_err: 0.11378 test_err: 0.1542 35 50 0.250 35 100 0.287 35 150 0.261 35 200 0.261 35 250 0.271 35 300 0.274 35 350 0.266 train_err: 0.13408 test_err: 0.1749 36 50 0.243 36 100 0.253 36 150 0.258 36 200 0.261 36 250 0.264 36 300 0.266 36 350 0.276 train_err: 0.08652 test_err: 0.1295 37 50 0.257 37 100 0.258 37 150 0.235 37 200 0.264 37 250 0.273 37 300 0.265 37 350 0.269 train_err: 0.11156 test_err: 0.1533 38 50 0.231 38 100 0.231 38 150 0.242 38 200 0.247 38 250 0.263 38 300 0.274 38 350 0.276 train_err: 0.1416 test_err: 0.1677 39 50 0.233 39 100 0.239 39 150 0.245 39 200 0.264 39 250 0.249 39 300 0.261 39 350 0.272 train_err: 0.1051 test_err: 0.14 40 50 0.227 40 100 0.254 40 150 0.231 40 200 0.251 40 250 0.254 40 300 0.256 40 350 0.277 train_err: 0.10674 test_err: 0.144 41 50 0.242 41 100 0.231 41 150 0.244 41 200 0.257 41 250 0.267 41 300 0.250 41 350 0.244 train_err: 0.08864 test_err: 0.135 42 50 0.241 42 100 0.234 42 150 0.257 42 200 0.247 42 250 0.253 42 300 0.249 42 350 0.251 train_err: 0.09334 test_err: 0.134 43 50 0.228 43 100 0.243 43 150 0.229 43 200 0.234 43 250 0.241 43 300 0.249 43 350 0.251 train_err: 0.11364 test_err: 0.1547 44 50 0.230 44 100 0.232 44 150 0.245 44 200 0.272 44 250 0.231 44 300 0.234 44 350 0.238 train_err: 0.10502 test_err: 0.1431 45 50 0.220 45 100 0.243 45 150 0.252 45 200 0.252 45 250 0.236 45 300 0.247 45 350 0.256 train_err: 0.11338 test_err: 0.1635 46 50 0.222 46 100 0.223 46 150 0.245 46 200 0.228 46 250 0.230 46 300 0.245 46 350 0.265 train_err: 0.07864 test_err: 0.1234 47 50 0.217 47 100 0.221 47 150 0.254 47 200 0.230 47 250 0.223 47 300 0.216 47 350 0.249 train_err: 0.10018 test_err: 0.1435 48 50 0.216 48 100 0.221 48 150 0.239 48 200 0.253 48 250 0.231 48 300 0.250 48 350 0.241 train_err: 0.10214 test_err: 0.1469 49 50 0.195 49 100 0.206 49 150 0.228 49 200 0.241 49 250 0.240 49 300 0.260 49 350 0.233 train_err: 0.09024 test_err: 0.1299 50 50 0.217 50 100 0.226 50 150 0.217 50 200 0.213 50 250 0.232 50 300 0.259 50 350 0.248 train_err: 0.10468 test_err: 0.1468 51 50 0.212 51 100 0.221 51 150 0.226 51 200 0.219 51 250 0.212 51 300 0.240 51 350 0.227 train_err: 0.1108 test_err: 0.1524 52 50 0.203 52 100 0.227 52 150 0.241 52 200 0.233 52 250 0.243 52 300 0.240 52 350 0.235 train_err: 0.0916 test_err: 0.133 53 50 0.205 53 100 0.215 53 150 0.238 53 200 0.224 53 250 0.223 53 300 0.225 53 350 0.231 train_err: 0.09436 test_err: 0.1401 54 50 0.218 54 100 0.212 54 150 0.230 54 200 0.233 54 250 0.233 54 300 0.221 54 350 0.239 train_err: 0.08314 test_err: 0.1321 55 50 0.225 55 100 0.229 55 150 0.216 55 200 0.217 55 250 0.229 55 300 0.217 55 350 0.230 train_err: 0.10468 test_err: 0.1404 56 50 0.206 56 100 0.205 56 150 0.218 56 200 0.244 56 250 0.223 56 300 0.225 56 350 0.233 train_err: 0.08718 test_err: 0.1297 57 50 0.208 57 100 0.226 57 150 0.239 57 200 0.228 57 250 0.225 57 300 0.219 57 350 0.233 train_err: 0.09004 test_err: 0.1313 58 50 0.195 58 100 0.210 58 150 0.209 58 200 0.201 58 250 0.221 58 300 0.226 58 350 0.218 train_err: 0.09746 test_err: 0.1418 59 50 0.186 59 100 0.214 59 150 0.231 59 200 0.229 59 250 0.220 59 300 0.240 59 350 0.235 train_err: 0.07972 test_err: 0.1279 60 50 0.191 60 100 0.200 60 150 0.210 60 200 0.228 60 250 0.217 60 300 0.239 60 350 0.214 train_err: 0.09368 test_err: 0.1351 61 50 0.192 61 100 0.207 61 150 0.235 61 200 0.212 61 250 0.207 61 300 0.215 61 350 0.217 train_err: 0.07476 test_err: 0.1204 62 50 0.185 62 100 0.204 62 150 0.232 62 200 0.210 62 250 0.213 62 300 0.218 62 350 0.214 train_err: 0.0795 test_err: 0.1279 63 50 0.201 63 100 0.225 63 150 0.220 63 200 0.197 63 250 0.208 63 300 0.229 63 350 0.215 train_err: 0.10126 test_err: 0.141 64 50 0.213 64 100 0.194 64 150 0.179 64 200 0.194 64 250 0.208 64 300 0.219 64 350 0.230 train_err: 0.07726 test_err: 0.1263 65 50 0.200 65 100 0.205 65 150 0.209 65 200 0.203 65 250 0.217 65 300 0.216 65 350 0.223 train_err: 0.1354 test_err: 0.1784 66 50 0.203 66 100 0.181 66 150 0.206 66 200 0.217 66 250 0.195 66 300 0.208 66 350 0.216 train_err: 0.08098 test_err: 0.1227 67 50 0.182 67 100 0.206 67 150 0.204 67 200 0.210 67 250 0.207 67 300 0.237 67 350 0.228 train_err: 0.08924 test_err: 0.1387 68 50 0.200 68 100 0.203 68 150 0.198 68 200 0.210 68 250 0.212 68 300 0.207 68 350 0.203 train_err: 0.07574 test_err: 0.1199 69 50 0.190 69 100 0.195 69 150 0.198 69 200 0.208 69 250 0.207 69 300 0.200 69 350 0.210 train_err: 0.09516 test_err: 0.1422 70 50 0.185 70 100 0.203 70 150 0.230 70 200 0.212 70 250 0.188 70 300 0.213 70 350 0.207 train_err: 0.09418 test_err: 0.1399 71 50 0.181 71 100 0.180 71 150 0.213 71 200 0.206 71 250 0.220 71 300 0.236 71 350 0.231 train_err: 0.06948 test_err: 0.1205 72 50 0.186 72 100 0.195 72 150 0.192 72 200 0.204 72 250 0.210 72 300 0.226 72 350 0.224 train_err: 0.07446 test_err: 0.1225 73 50 0.200 73 100 0.192 73 150 0.203 73 200 0.208 73 250 0.210 73 300 0.203 73 350 0.200 train_err: 0.07396 test_err: 0.1253 74 50 0.179 74 100 0.195 74 150 0.204 74 200 0.202 74 250 0.198 74 300 0.203 74 350 0.217 train_err: 0.09534 test_err: 0.1427 75 50 0.193 75 100 0.198 75 150 0.203 75 200 0.198 75 250 0.218 75 300 0.202 75 350 0.202 train_err: 0.0806 test_err: 0.1312 76 50 0.185 76 100 0.189 76 150 0.202 76 200 0.197 76 250 0.215 76 300 0.216 76 350 0.210 train_err: 0.09208 test_err: 0.1354 77 50 0.186 77 100 0.202 77 150 0.183 77 200 0.195 77 250 0.186 77 300 0.199 77 350 0.220 train_err: 0.06618 test_err: 0.1168 78 50 0.189 78 100 0.185 78 150 0.212 78 200 0.215 78 250 0.207 78 300 0.212 78 350 0.219 train_err: 0.12158 test_err: 0.1612 79 50 0.174 79 100 0.194 79 150 0.184 79 200 0.195 79 250 0.198 79 300 0.201 79 350 0.228 train_err: 0.08684 test_err: 0.131 80 50 0.175 80 100 0.188 80 150 0.194 80 200 0.186 80 250 0.205 80 300 0.201 80 350 0.207 train_err: 0.0651 test_err: 0.1143 81 50 0.184 81 100 0.166 81 150 0.180 81 200 0.197 81 250 0.209 81 300 0.201 81 350 0.197 train_err: 0.07764 test_err: 0.1233 82 50 0.166 82 100 0.184 82 150 0.201 82 200 0.196 82 250 0.190 82 300 0.200 82 350 0.201 train_err: 0.1049 test_err: 0.1502 83 50 0.182 83 100 0.173 83 150 0.173 83 200 0.186 83 250 0.187 83 300 0.226 83 350 0.212 train_err: 0.07764 test_err: 0.1303 84 50 0.154 84 100 0.121 84 150 0.112 84 200 0.106 84 250 0.108 84 300 0.098 84 350 0.100 train_err: 0.02434 test_err: 0.0841 85 50 0.090 85 100 0.083 85 150 0.085 85 200 0.081 85 250 0.088 85 300 0.076 85 350 0.080 train_err: 0.0207 test_err: 0.0808 86 50 0.069 86 100 0.077 86 150 0.071 86 200 0.073 86 250 0.069 86 300 0.072 86 350 0.071 train_err: 0.01692 test_err: 0.079 87 50 0.062 87 100 0.061 87 150 0.069 87 200 0.067 87 250 0.068 87 300 0.061 87 350 0.068 train_err: 0.01634 test_err: 0.0788 88 50 0.060 88 100 0.065 88 150 0.059 88 200 0.065 88 250 0.062 88 300 0.056 88 350 0.059 train_err: 0.01504 test_err: 0.0795 89 50 0.055 89 100 0.055 89 150 0.057 89 200 0.053 89 250 0.054 89 300 0.059 89 350 0.061 train_err: 0.01428 test_err: 0.0781 90 50 0.049 90 100 0.052 90 150 0.053 90 200 0.057 90 250 0.056 90 300 0.051 90 350 0.048 train_err: 0.01252 test_err: 0.0806 91 50 0.052 91 100 0.058 91 150 0.048 91 200 0.051 91 250 0.049 91 300 0.050 91 350 0.049 train_err: 0.01178 test_err: 0.0785 92 50 0.042 92 100 0.046 92 150 0.049 92 200 0.050 92 250 0.046 92 300 0.043 92 350 0.043 train_err: 0.01096 test_err: 0.078 93 50 0.044 93 100 0.045 93 150 0.044 93 200 0.042 93 250 0.041 93 300 0.042 93 350 0.044 train_err: 0.01022 test_err: 0.0811 94 50 0.045 94 100 0.038 94 150 0.043 94 200 0.041 94 250 0.045 94 300 0.038 94 350 0.043 train_err: 0.0093 test_err: 0.0794 95 50 0.038 95 100 0.045 95 150 0.041 95 200 0.043 95 250 0.038 95 300 0.039 95 350 0.042 train_err: 0.00916 test_err: 0.0788 96 50 0.036 96 100 0.039 96 150 0.038 96 200 0.034 96 250 0.040 96 300 0.042 96 350 0.038 train_err: 0.00912 test_err: 0.0784 97 50 0.035 97 100 0.042 97 150 0.038 97 200 0.036 97 250 0.040 97 300 0.036 97 350 0.032 train_err: 0.00788 test_err: 0.0772 98 50 0.034 98 100 0.035 98 150 0.035 98 200 0.036 98 250 0.040 98 300 0.037 98 350 0.036 train_err: 0.00776 test_err: 0.0792 99 50 0.032 99 100 0.034 99 150 0.033 99 200 0.029 99 250 0.033 99 300 0.034 99 350 0.031 train_err: 0.007 test_err: 0.0784 100 50 0.032 100 100 0.033 100 150 0.034 100 200 0.033 100 250 0.037 100 300 0.031 100 350 0.034 train_err: 0.00668 test_err: 0.0818 101 50 0.027 101 100 0.034 101 150 0.026 101 200 0.032 101 250 0.029 101 300 0.030 101 350 0.034 train_err: 0.00698 test_err: 0.0796 102 50 0.028 102 100 0.032 102 150 0.028 102 200 0.034 102 250 0.030 102 300 0.030 102 350 0.031 train_err: 0.0067 test_err: 0.0787 103 50 0.025 103 100 0.025 103 150 0.029 103 200 0.031 103 250 0.033 103 300 0.035 103 350 0.031 train_err: 0.00556 test_err: 0.0806 104 50 0.027 104 100 0.025 104 150 0.031 104 200 0.031 104 250 0.027 104 300 0.031 104 350 0.029 train_err: 0.0056 test_err: 0.081 105 50 0.031 105 100 0.025 105 150 0.030 105 200 0.028 105 250 0.029 105 300 0.029 105 350 0.030 train_err: 0.00544 test_err: 0.0807 106 50 0.028 106 100 0.027 106 150 0.024 106 200 0.023 106 250 0.023 106 300 0.027 106 350 0.028 train_err: 0.0048 test_err: 0.0784 107 50 0.026 107 100 0.025 107 150 0.024 107 200 0.026 107 250 0.026 107 300 0.026 107 350 0.023 train_err: 0.00506 test_err: 0.0798 108 50 0.021 108 100 0.025 108 150 0.018 108 200 0.024 108 250 0.027 108 300 0.025 108 350 0.026 train_err: 0.00464 test_err: 0.0794 109 50 0.021 109 100 0.025 109 150 0.026 109 200 0.022 109 250 0.025 109 300 0.025 109 350 0.022 train_err: 0.005 test_err: 0.0791 110 50 0.020 110 100 0.023 110 150 0.023 110 200 0.020 110 250 0.025 110 300 0.022 110 350 0.026 train_err: 0.00412 test_err: 0.0793 111 50 0.021 111 100 0.022 111 150 0.022 111 200 0.022 111 250 0.024 111 300 0.020 111 350 0.022 train_err: 0.00464 test_err: 0.0796 112 50 0.020 112 100 0.020 112 150 0.018 112 200 0.020 112 250 0.029 112 300 0.024 112 350 0.024 train_err: 0.00416 test_err: 0.0772 113 50 0.022 113 100 0.020 113 150 0.019 113 200 0.022 113 250 0.021 113 300 0.022 113 350 0.024 train_err: 0.00384 test_err: 0.0773 114 50 0.022 114 100 0.023 114 150 0.023 114 200 0.022 114 250 0.022 114 300 0.022 114 350 0.023 train_err: 0.00416 test_err: 0.0813 115 50 0.022 115 100 0.023 115 150 0.020 115 200 0.019 115 250 0.020 115 300 0.019 115 350 0.019 train_err: 0.0032 test_err: 0.0807 116 50 0.019 116 100 0.025 116 150 0.018 116 200 0.020 116 250 0.019 116 300 0.018 116 350 0.021 train_err: 0.00392 test_err: 0.0806 117 50 0.017 117 100 0.017 117 150 0.018 117 200 0.022 117 250 0.022 117 300 0.021 117 350 0.019 train_err: 0.0035 test_err: 0.0788 118 50 0.021 118 100 0.016 118 150 0.017 118 200 0.020 118 250 0.016 118 300 0.019 118 350 0.019 train_err: 0.0042 test_err: 0.0821 119 50 0.018 119 100 0.017 119 150 0.020 119 200 0.020 119 250 0.021 119 300 0.019 119 350 0.023 train_err: 0.00352 test_err: 0.0797 120 50 0.019 120 100 0.016 120 150 0.016 120 200 0.020 120 250 0.020 120 300 0.019 120 350 0.019 train_err: 0.00308 test_err: 0.0792 121 50 0.017 121 100 0.018 121 150 0.020 121 200 0.018 121 250 0.019 121 300 0.020 121 350 0.018 train_err: 0.00328 test_err: 0.0792 122 50 0.015 122 100 0.015 122 150 0.017 122 200 0.018 122 250 0.019 122 300 0.021 122 350 0.017 train_err: 0.00332 test_err: 0.0807 123 50 0.019 123 100 0.016 123 150 0.016 123 200 0.016 123 250 0.017 123 300 0.019 123 350 0.020 train_err: 0.00342 test_err: 0.081 124 50 0.018 124 100 0.018 124 150 0.019 124 200 0.018 124 250 0.018 124 300 0.018 124 350 0.016 train_err: 0.0028 test_err: 0.0767 125 50 0.015 125 100 0.017 125 150 0.016 125 200 0.016 125 250 0.015 125 300 0.013 125 350 0.013 train_err: 0.00196 test_err: 0.0767 126 50 0.015 126 100 0.014 126 150 0.017 126 200 0.017 126 250 0.013 126 300 0.014 126 350 0.011 train_err: 0.00194 test_err: 0.0768 127 50 0.013 127 100 0.011 127 150 0.013 127 200 0.014 127 250 0.013 127 300 0.011 127 350 0.013 train_err: 0.0018 test_err: 0.0765 128 50 0.012 128 100 0.013 128 150 0.014 128 200 0.011 128 250 0.012 128 300 0.015 128 350 0.014 train_err: 0.00146 test_err: 0.0759 129 50 0.011 129 100 0.013 129 150 0.012 129 200 0.012 129 250 0.012 129 300 0.012 129 350 0.014 train_err: 0.00164 test_err: 0.0758 130 50 0.014 130 100 0.010 130 150 0.015 130 200 0.012 130 250 0.011 130 300 0.012 130 350 0.013 train_err: 0.00146 test_err: 0.0774 131 50 0.012 131 100 0.012 131 150 0.010 131 200 0.012 131 250 0.011 131 300 0.015 131 350 0.011 train_err: 0.00154 test_err: 0.0774 132 50 0.011 132 100 0.012 132 150 0.010 132 200 0.010 132 250 0.011 132 300 0.012 132 350 0.010 train_err: 0.00148 test_err: 0.0754 133 50 0.012 133 100 0.011 133 150 0.010 133 200 0.011 133 250 0.010 133 300 0.010 133 350 0.013 train_err: 0.00172 test_err: 0.0756 134 50 0.011 134 100 0.011 134 150 0.011 134 200 0.014 134 250 0.009 134 300 0.010 134 350 0.011 train_err: 0.00156 test_err: 0.076 135 50 0.012 135 100 0.012 135 150 0.012 135 200 0.011 135 250 0.014 135 300 0.012 135 350 0.013 train_err: 0.00138 test_err: 0.0764 136 50 0.011 136 100 0.011 136 150 0.010 136 200 0.009 136 250 0.011 136 300 0.013 136 350 0.011 train_err: 0.0013 test_err: 0.076 137 50 0.010 137 100 0.012 137 150 0.012 137 200 0.012 137 250 0.012 137 300 0.009 137 350 0.010 train_err: 0.00136 test_err: 0.0759 138 50 0.010 138 100 0.012 138 150 0.010 138 200 0.012 138 250 0.011 138 300 0.009 138 350 0.012 train_err: 0.00114 test_err: 0.0763 139 50 0.008 139 100 0.011 139 150 0.010 139 200 0.011 139 250 0.012 139 300 0.011 139 350 0.011 train_err: 0.00152 test_err: 0.076 140 50 0.011 140 100 0.011 140 150 0.012 140 200 0.012 140 250 0.010 140 300 0.010 140 350 0.010 train_err: 0.00154 test_err: 0.0764 141 50 0.011 141 100 0.010 141 150 0.009 141 200 0.010 141 250 0.011 141 300 0.011 141 350 0.010 train_err: 0.00132 test_err: 0.0762 142 50 0.011 142 100 0.012 142 150 0.010 142 200 0.013 142 250 0.010 142 300 0.009 142 350 0.009 train_err: 0.00134 test_err: 0.076 143 50 0.011 143 100 0.011 143 150 0.009 143 200 0.011 143 250 0.011 143 300 0.009 143 350 0.009 train_err: 0.00136 test_err: 0.0763 144 50 0.011 144 100 0.013 144 150 0.010 144 200 0.012 144 250 0.010 144 300 0.010 144 350 0.010 train_err: 0.00124 test_err: 0.0771 145 50 0.009 145 100 0.010 145 150 0.011 145 200 0.011 145 250 0.010 145 300 0.010 145 350 0.012 train_err: 0.00126 test_err: 0.0773 146 50 0.008 146 100 0.011 146 150 0.011 146 200 0.011 146 250 0.012 146 300 0.010 146 350 0.009 train_err: 0.00108 test_err: 0.0752 147 50 0.012 147 100 0.010 147 150 0.012 147 200 0.009 147 250 0.010 147 300 0.009 147 350 0.010 train_err: 0.00128 test_err: 0.0757 148 50 0.008 148 100 0.008 148 150 0.010 148 200 0.009 148 250 0.010 148 300 0.010 148 350 0.011 train_err: 0.0012 test_err: 0.0756 149 50 0.008 149 100 0.009 149 150 0.010 149 200 0.011 149 250 0.011 149 300 0.010 149 350 0.009 train_err: 0.00114 test_err: 0.0751 150 50 0.009 150 100 0.012 150 150 0.009 150 200 0.010 150 250 0.011 150 300 0.011 150 350 0.008 train_err: 0.00114 test_err: 0.0761 151 50 0.010 151 100 0.010 151 150 0.011 151 200 0.013 151 250 0.011 151 300 0.008 151 350 0.011 train_err: 0.0011 test_err: 0.0757 152 50 0.008 152 100 0.010 152 150 0.010 152 200 0.009 152 250 0.012 152 300 0.011 152 350 0.011 train_err: 0.00112 test_err: 0.0757 153 50 0.011 153 100 0.010 153 150 0.012 153 200 0.010 153 250 0.008 153 300 0.010 153 350 0.010 train_err: 0.0009 test_err: 0.0774 154 50 0.009 154 100 0.008 154 150 0.010 154 200 0.009 154 250 0.011 154 300 0.009 154 350 0.009 train_err: 0.00108 test_err: 0.0771 155 50 0.011 155 100 0.009 155 150 0.010 155 200 0.010 155 250 0.010 155 300 0.010 155 350 0.009 train_err: 0.00108 test_err: 0.0768 156 50 0.009 156 100 0.010 156 150 0.010 156 200 0.009 156 250 0.009 156 300 0.009 156 350 0.011 train_err: 0.00116 test_err: 0.0774 157 50 0.010 157 100 0.009 157 150 0.011 157 200 0.010 157 250 0.010 157 300 0.009 157 350 0.011 train_err: 0.00086 test_err: 0.0777 158 50 0.010 158 100 0.010 158 150 0.010 158 200 0.012 158 250 0.011 158 300 0.010 158 350 0.009 train_err: 0.00094 test_err: 0.0768 159 50 0.010 159 100 0.010 159 150 0.010 159 200 0.010 159 250 0.008 159 300 0.009 159 350 0.010 train_err: 0.00126 test_err: 0.0778 160 50 0.010 160 100 0.009 160 150 0.010 160 200 0.010 160 250 0.010 160 300 0.009 160 350 0.009 train_err: 0.00118 test_err: 0.0765 161 50 0.011 161 100 0.010 161 150 0.010 161 200 0.010 161 250 0.011 161 300 0.010 161 350 0.010 train_err: 0.001 test_err: 0.0776 162 50 0.011 162 100 0.009 162 150 0.009 162 200 0.009 162 250 0.010 162 300 0.009 162 350 0.010 train_err: 0.0009 test_err: 0.0774 163 50 0.011 163 100 0.012 163 150 0.012 163 200 0.010 163 250 0.008 163 300 0.010 163 350 0.011 train_err: 0.00096 test_err: 0.0768 164 50 0.011 164 100 0.008 164 150 0.009 164 200 0.009 164 250 0.010 164 300 0.009 164 350 0.009 train_err: 0.00116 test_err: 0.0779 Finished Training MODEL SIZE: n=7 Files already downloaded and verified Files already downloaded and verified cuda:0 Epoch Batch NLLLoss_Train 1 50 3.167 1 100 2.241 1 150 2.118 1 200 2.013 1 250 1.935 1 300 1.849 1 350 1.775 train_err: 0.6439 test_err: 0.6232 2 50 1.664 2 100 1.615 2 150 1.572 2 200 1.544 2 250 1.502 2 300 1.463 2 350 1.417 train_err: 0.50872 test_err: 0.5165 3 50 1.331 3 100 1.301 3 150 1.269 3 200 1.247 3 250 1.209 3 300 1.172 3 350 1.141 train_err: 0.54952 test_err: 0.5255 4 50 1.062 4 100 1.026 4 150 1.019 4 200 1.000 4 250 0.974 4 300 0.952 4 350 0.905 train_err: 0.3242 test_err: 0.3205 5 50 0.853 5 100 0.893 5 150 0.833 5 200 0.828 5 250 0.829 5 300 0.839 5 350 0.797 train_err: 0.31932 test_err: 0.3375 6 50 0.781 6 100 0.762 6 150 0.723 6 200 0.738 6 250 0.726 6 300 0.710 6 350 0.707 train_err: 0.27954 test_err: 0.2803 7 50 0.666 7 100 0.677 7 150 0.675 7 200 0.685 7 250 0.649 7 300 0.638 7 350 0.658 train_err: 0.26388 test_err: 0.2782 8 50 0.618 8 100 0.628 8 150 0.605 8 200 0.616 8 250 0.604 8 300 0.576 8 350 0.569 train_err: 0.23452 test_err: 0.2434 9 50 0.601 9 100 0.551 9 150 0.556 9 200 0.556 9 250 0.523 9 300 0.560 9 350 0.571 train_err: 0.19388 test_err: 0.214 10 50 0.556 10 100 0.532 10 150 0.532 10 200 0.536 10 250 0.521 10 300 0.502 10 350 0.508 train_err: 0.20608 test_err: 0.2287 11 50 0.519 11 100 0.492 11 150 0.498 11 200 0.511 11 250 0.466 11 300 0.485 11 350 0.495 train_err: 0.18286 test_err: 0.2092 12 50 0.455 12 100 0.476 12 150 0.481 12 200 0.468 12 250 0.485 12 300 0.465 12 350 0.459 train_err: 0.16248 test_err: 0.1826 13 50 0.436 13 100 0.455 13 150 0.453 13 200 0.445 13 250 0.457 13 300 0.461 13 350 0.470 train_err: 0.14188 test_err: 0.1664 14 50 0.432 14 100 0.446 14 150 0.426 14 200 0.427 14 250 0.430 14 300 0.448 14 350 0.442 train_err: 0.13816 test_err: 0.1699 15 50 0.407 15 100 0.417 15 150 0.438 15 200 0.420 15 250 0.432 15 300 0.428 15 350 0.411 train_err: 0.16096 test_err: 0.1828 16 50 0.378 16 100 0.386 16 150 0.379 16 200 0.403 16 250 0.398 16 300 0.391 16 350 0.397 train_err: 0.16168 test_err: 0.1935 17 50 0.387 17 100 0.393 17 150 0.385 17 200 0.389 17 250 0.382 17 300 0.403 17 350 0.375 train_err: 0.15024 test_err: 0.1797 18 50 0.361 18 100 0.389 18 150 0.368 18 200 0.375 18 250 0.393 18 300 0.380 18 350 0.383 train_err: 0.13994 test_err: 0.1715 19 50 0.363 19 100 0.344 19 150 0.366 19 200 0.357 19 250 0.375 19 300 0.366 19 350 0.368 train_err: 0.14118 test_err: 0.1852 20 50 0.321 20 100 0.337 20 150 0.337 20 200 0.349 20 250 0.356 20 300 0.354 20 350 0.368 train_err: 0.13154 test_err: 0.161 21 50 0.327 21 100 0.334 21 150 0.340 21 200 0.334 21 250 0.350 21 300 0.347 21 350 0.360 train_err: 0.13124 test_err: 0.1718 22 50 0.314 22 100 0.324 22 150 0.341 22 200 0.343 22 250 0.344 22 300 0.322 22 350 0.337 train_err: 0.13362 test_err: 0.165 23 50 0.299 23 100 0.325 23 150 0.342 23 200 0.319 23 250 0.316 23 300 0.331 23 350 0.340 train_err: 0.11844 test_err: 0.1533 24 50 0.307 24 100 0.295 24 150 0.318 24 200 0.306 24 250 0.329 24 300 0.311 24 350 0.351 train_err: 0.1303 test_err: 0.1728 25 50 0.281 25 100 0.318 25 150 0.304 25 200 0.307 25 250 0.324 25 300 0.318 25 350 0.314 train_err: 0.1191 test_err: 0.1568 26 50 0.285 26 100 0.295 26 150 0.310 26 200 0.328 26 250 0.317 26 300 0.313 26 350 0.291 train_err: 0.123 test_err: 0.1669 27 50 0.275 27 100 0.301 27 150 0.309 27 200 0.287 27 250 0.289 27 300 0.299 27 350 0.307 train_err: 0.11416 test_err: 0.1522 28 50 0.263 28 100 0.277 28 150 0.274 28 200 0.284 28 250 0.311 28 300 0.301 28 350 0.313 train_err: 0.1038 test_err: 0.1475 29 50 0.266 29 100 0.270 29 150 0.274 29 200 0.281 29 250 0.271 29 300 0.307 29 350 0.286 train_err: 0.10972 test_err: 0.1496 30 50 0.264 30 100 0.264 30 150 0.272 30 200 0.290 30 250 0.282 30 300 0.295 30 350 0.289 train_err: 0.09712 test_err: 0.1346 31 50 0.253 31 100 0.255 31 150 0.255 31 200 0.279 31 250 0.263 31 300 0.283 31 350 0.312 train_err: 0.08764 test_err: 0.1312 32 50 0.252 32 100 0.253 32 150 0.281 32 200 0.280 32 250 0.269 32 300 0.282 32 350 0.272 train_err: 0.09484 test_err: 0.1349 33 50 0.261 33 100 0.256 33 150 0.261 33 200 0.269 33 250 0.271 33 300 0.275 33 350 0.288 train_err: 0.10292 test_err: 0.143 34 50 0.249 34 100 0.242 34 150 0.250 34 200 0.274 34 250 0.255 34 300 0.266 34 350 0.251 train_err: 0.1152 test_err: 0.1631 35 50 0.239 35 100 0.255 35 150 0.248 35 200 0.262 35 250 0.276 35 300 0.270 35 350 0.271 train_err: 0.10814 test_err: 0.1498 36 50 0.245 36 100 0.238 36 150 0.252 36 200 0.267 36 250 0.251 36 300 0.265 36 350 0.275 train_err: 0.11694 test_err: 0.1615 37 50 0.229 37 100 0.253 37 150 0.247 37 200 0.266 37 250 0.247 37 300 0.248 37 350 0.267 train_err: 0.10592 test_err: 0.1445 38 50 0.212 38 100 0.228 38 150 0.230 38 200 0.246 38 250 0.254 38 300 0.256 38 350 0.257 train_err: 0.10898 test_err: 0.1526 39 50 0.238 39 100 0.241 39 150 0.235 39 200 0.250 39 250 0.239 39 300 0.259 39 350 0.258 train_err: 0.09258 test_err: 0.1331 40 50 0.229 40 100 0.238 40 150 0.253 40 200 0.233 40 250 0.237 40 300 0.255 40 350 0.257 train_err: 0.09876 test_err: 0.1421 41 50 0.220 41 100 0.209 41 150 0.245 41 200 0.232 41 250 0.245 41 300 0.254 41 350 0.231 train_err: 0.1208 test_err: 0.1554 42 50 0.218 42 100 0.241 42 150 0.246 42 200 0.241 42 250 0.246 42 300 0.261 42 350 0.258 train_err: 0.13034 test_err: 0.1718 43 50 0.213 43 100 0.221 43 150 0.221 43 200 0.243 43 250 0.247 43 300 0.246 43 350 0.251 train_err: 0.10348 test_err: 0.1501 44 50 0.215 44 100 0.217 44 150 0.225 44 200 0.226 44 250 0.232 44 300 0.236 44 350 0.241 train_err: 0.09604 test_err: 0.1459 45 50 0.202 45 100 0.233 45 150 0.219 45 200 0.227 45 250 0.229 45 300 0.231 45 350 0.253 train_err: 0.08058 test_err: 0.1277 46 50 0.212 46 100 0.204 46 150 0.237 46 200 0.236 46 250 0.228 46 300 0.240 46 350 0.233 train_err: 0.0814 test_err: 0.1236 47 50 0.206 47 100 0.217 47 150 0.211 47 200 0.232 47 250 0.229 47 300 0.246 47 350 0.247 train_err: 0.08406 test_err: 0.1309 48 50 0.215 48 100 0.203 48 150 0.221 48 200 0.234 48 250 0.231 48 300 0.237 48 350 0.252 train_err: 0.10316 test_err: 0.1508 49 50 0.186 49 100 0.222 49 150 0.229 49 200 0.234 49 250 0.239 49 300 0.235 49 350 0.239 train_err: 0.09672 test_err: 0.1445 50 50 0.203 50 100 0.200 50 150 0.200 50 200 0.207 50 250 0.236 50 300 0.251 50 350 0.230 train_err: 0.0939 test_err: 0.1414 51 50 0.208 51 100 0.207 51 150 0.208 51 200 0.225 51 250 0.228 51 300 0.210 51 350 0.213 train_err: 0.08996 test_err: 0.1343 52 50 0.212 52 100 0.200 52 150 0.212 52 200 0.226 52 250 0.220 52 300 0.220 52 350 0.217 train_err: 0.0963 test_err: 0.145 53 50 0.204 53 100 0.190 53 150 0.224 53 200 0.222 53 250 0.224 53 300 0.226 53 350 0.208 train_err: 0.08436 test_err: 0.1306 54 50 0.190 54 100 0.211 54 150 0.207 54 200 0.236 54 250 0.221 54 300 0.215 54 350 0.218 train_err: 0.0869 test_err: 0.1295 55 50 0.207 55 100 0.204 55 150 0.209 55 200 0.225 55 250 0.230 55 300 0.210 55 350 0.214 train_err: 0.11364 test_err: 0.1636 56 50 0.202 56 100 0.193 56 150 0.217 56 200 0.205 56 250 0.219 56 300 0.210 56 350 0.231 train_err: 0.097 test_err: 0.1431 57 50 0.192 57 100 0.212 57 150 0.195 57 200 0.230 57 250 0.210 57 300 0.214 57 350 0.228 train_err: 0.0788 test_err: 0.1297 58 50 0.206 58 100 0.201 58 150 0.211 58 200 0.190 58 250 0.213 58 300 0.193 58 350 0.208 train_err: 0.10266 test_err: 0.1462 59 50 0.197 59 100 0.198 59 150 0.195 59 200 0.219 59 250 0.218 59 300 0.213 59 350 0.210 train_err: 0.08788 test_err: 0.1397 60 50 0.195 60 100 0.202 60 150 0.195 60 200 0.202 60 250 0.214 60 300 0.212 60 350 0.217 train_err: 0.0672 test_err: 0.124 61 50 0.182 61 100 0.195 61 150 0.210 61 200 0.219 61 250 0.208 61 300 0.204 61 350 0.194 train_err: 0.08782 test_err: 0.1289 62 50 0.188 62 100 0.172 62 150 0.179 62 200 0.200 62 250 0.207 62 300 0.223 62 350 0.214 train_err: 0.07978 test_err: 0.1258 63 50 0.171 63 100 0.187 63 150 0.209 63 200 0.211 63 250 0.205 63 300 0.209 63 350 0.210 train_err: 0.07624 test_err: 0.1286 64 50 0.182 64 100 0.200 64 150 0.188 64 200 0.191 64 250 0.213 64 300 0.213 64 350 0.230 train_err: 0.1118 test_err: 0.1614 65 50 0.163 65 100 0.202 65 150 0.199 65 200 0.209 65 250 0.225 65 300 0.215 65 350 0.210 train_err: 0.06554 test_err: 0.1192 66 50 0.199 66 100 0.180 66 150 0.178 66 200 0.197 66 250 0.187 66 300 0.214 66 350 0.199 train_err: 0.09048 test_err: 0.1412 67 50 0.174 67 100 0.181 67 150 0.200 67 200 0.190 67 250 0.192 67 300 0.175 67 350 0.198 train_err: 0.10338 test_err: 0.1593 68 50 0.184 68 100 0.184 68 150 0.184 68 200 0.197 68 250 0.190 68 300 0.205 68 350 0.199 train_err: 0.08888 test_err: 0.1389 69 50 0.174 69 100 0.169 69 150 0.201 69 200 0.198 69 250 0.189 69 300 0.205 69 350 0.201 train_err: 0.13464 test_err: 0.1752 70 50 0.187 70 100 0.182 70 150 0.185 70 200 0.209 70 250 0.197 70 300 0.212 70 350 0.202 train_err: 0.06154 test_err: 0.1116 71 50 0.173 71 100 0.186 71 150 0.173 71 200 0.186 71 250 0.194 71 300 0.183 71 350 0.222 train_err: 0.1012 test_err: 0.148 72 50 0.202 72 100 0.195 72 150 0.183 72 200 0.200 72 250 0.204 72 300 0.210 72 350 0.190 train_err: 0.07762 test_err: 0.1319 73 50 0.178 73 100 0.182 73 150 0.196 73 200 0.180 73 250 0.200 73 300 0.199 73 350 0.209 train_err: 0.07806 test_err: 0.133 74 50 0.178 74 100 0.183 74 150 0.199 74 200 0.198 74 250 0.192 74 300 0.215 74 350 0.196 train_err: 0.08868 test_err: 0.1457 75 50 0.173 75 100 0.196 75 150 0.175 75 200 0.214 75 250 0.198 75 300 0.194 75 350 0.217 train_err: 0.07348 test_err: 0.1291 76 50 0.151 76 100 0.176 76 150 0.186 76 200 0.189 76 250 0.182 76 300 0.190 76 350 0.190 train_err: 0.09406 test_err: 0.1432 77 50 0.175 77 100 0.170 77 150 0.187 77 200 0.180 77 250 0.184 77 300 0.181 77 350 0.196 train_err: 0.08622 test_err: 0.1386 78 50 0.189 78 100 0.184 78 150 0.182 78 200 0.185 78 250 0.197 78 300 0.194 78 350 0.199 train_err: 0.08278 test_err: 0.1311 79 50 0.171 79 100 0.178 79 150 0.180 79 200 0.186 79 250 0.198 79 300 0.187 79 350 0.201 train_err: 0.0868 test_err: 0.1412 80 50 0.166 80 100 0.174 80 150 0.176 80 200 0.192 80 250 0.208 80 300 0.192 80 350 0.198 train_err: 0.08674 test_err: 0.1408 81 50 0.169 81 100 0.163 81 150 0.185 81 200 0.184 81 250 0.184 81 300 0.212 81 350 0.196 train_err: 0.09244 test_err: 0.1435 82 50 0.186 82 100 0.181 82 150 0.161 82 200 0.173 82 250 0.197 82 300 0.188 82 350 0.217 train_err: 0.07526 test_err: 0.1335 83 50 0.168 83 100 0.154 83 150 0.175 83 200 0.182 83 250 0.192 83 300 0.200 83 350 0.200 train_err: 0.09324 test_err: 0.1409 84 50 0.145 84 100 0.116 84 150 0.104 84 200 0.097 84 250 0.099 84 300 0.096 84 350 0.090 train_err: 0.02184 test_err: 0.0858 85 50 0.077 85 100 0.076 85 150 0.081 85 200 0.080 85 250 0.077 85 300 0.068 85 350 0.070 train_err: 0.01716 test_err: 0.0815 86 50 0.069 86 100 0.061 86 150 0.064 86 200 0.072 86 250 0.065 86 300 0.062 86 350 0.061 train_err: 0.0154 test_err: 0.0817 87 50 0.055 87 100 0.059 87 150 0.061 87 200 0.062 87 250 0.057 87 300 0.063 87 350 0.056 train_err: 0.01338 test_err: 0.077 88 50 0.052 88 100 0.049 88 150 0.056 88 200 0.054 88 250 0.049 88 300 0.051 88 350 0.054 train_err: 0.01182 test_err: 0.0769 89 50 0.042 89 100 0.046 89 150 0.048 89 200 0.044 89 250 0.046 89 300 0.048 89 350 0.046 train_err: 0.0102 test_err: 0.0761 90 50 0.042 90 100 0.041 90 150 0.047 90 200 0.045 90 250 0.041 90 300 0.044 90 350 0.053 train_err: 0.00954 test_err: 0.0786 91 50 0.040 91 100 0.038 91 150 0.042 91 200 0.042 91 250 0.043 91 300 0.043 91 350 0.038 train_err: 0.00852 test_err: 0.0768 92 50 0.038 92 100 0.039 92 150 0.036 92 200 0.035 92 250 0.039 92 300 0.031 92 350 0.034 train_err: 0.00842 test_err: 0.0783 93 50 0.036 93 100 0.043 93 150 0.035 93 200 0.035 93 250 0.038 93 300 0.037 93 350 0.032 train_err: 0.00752 test_err: 0.0755 94 50 0.031 94 100 0.033 94 150 0.034 94 200 0.033 94 250 0.038 94 300 0.034 94 350 0.037 train_err: 0.0075 test_err: 0.0766 95 50 0.032 95 100 0.031 95 150 0.032 95 200 0.029 95 250 0.029 95 300 0.028 95 350 0.035 train_err: 0.00642 test_err: 0.0771 96 50 0.027 96 100 0.031 96 150 0.030 96 200 0.031 96 250 0.030 96 300 0.028 96 350 0.029 train_err: 0.00582 test_err: 0.0746 97 50 0.027 97 100 0.029 97 150 0.026 97 200 0.030 97 250 0.030 97 300 0.026 97 350 0.025 train_err: 0.00582 test_err: 0.0762 98 50 0.025 98 100 0.024 98 150 0.024 98 200 0.028 98 250 0.025 98 300 0.028 98 350 0.026 train_err: 0.00508 test_err: 0.076 99 50 0.030 99 100 0.022 99 150 0.028 99 200 0.026 99 250 0.026 99 300 0.024 99 350 0.024 train_err: 0.00432 test_err: 0.0768 100 50 0.027 100 100 0.021 100 150 0.022 100 200 0.023 100 250 0.024 100 300 0.028 100 350 0.026 train_err: 0.00514 test_err: 0.0761 101 50 0.022 101 100 0.024 101 150 0.024 101 200 0.023 101 250 0.024 101 300 0.024 101 350 0.026 train_err: 0.00398 test_err: 0.0768 102 50 0.023 102 100 0.025 102 150 0.022 102 200 0.021 102 250 0.022 102 300 0.024 102 350 0.022 train_err: 0.00456 test_err: 0.0751 103 50 0.023 103 100 0.021 103 150 0.026 103 200 0.022 103 250 0.021 103 300 0.023 103 350 0.023 train_err: 0.00346 test_err: 0.0749 104 50 0.022 104 100 0.021 104 150 0.020 104 200 0.019 104 250 0.021 104 300 0.023 104 350 0.023 train_err: 0.00342 test_err: 0.0753 105 50 0.021 105 100 0.018 105 150 0.020 105 200 0.021 105 250 0.021 105 300 0.023 105 350 0.020 train_err: 0.00322 test_err: 0.0749 106 50 0.020 106 100 0.018 106 150 0.020 106 200 0.020 106 250 0.020 106 300 0.019 106 350 0.021 train_err: 0.00324 test_err: 0.0749 107 50 0.018 107 100 0.022 107 150 0.019 107 200 0.018 107 250 0.016 107 300 0.021 107 350 0.020 train_err: 0.00284 test_err: 0.076 108 50 0.020 108 100 0.017 108 150 0.015 108 200 0.020 108 250 0.019 108 300 0.017 108 350 0.019 train_err: 0.00302 test_err: 0.0767 109 50 0.020 109 100 0.022 109 150 0.021 109 200 0.017 109 250 0.018 109 300 0.017 109 350 0.020 train_err: 0.00272 test_err: 0.0784 110 50 0.018 110 100 0.017 110 150 0.017 110 200 0.016 110 250 0.016 110 300 0.016 110 350 0.015 train_err: 0.00258 test_err: 0.0776 111 50 0.019 111 100 0.015 111 150 0.013 111 200 0.018 111 250 0.017 111 300 0.015 111 350 0.019 train_err: 0.00256 test_err: 0.077 112 50 0.016 112 100 0.018 112 150 0.015 112 200 0.017 112 250 0.016 112 300 0.014 112 350 0.015 train_err: 0.00264 test_err: 0.0791 113 50 0.013 113 100 0.015 113 150 0.015 113 200 0.014 113 250 0.017 113 300 0.016 113 350 0.015 train_err: 0.00228 test_err: 0.0769 114 50 0.014 114 100 0.014 114 150 0.010 114 200 0.014 114 250 0.014 114 300 0.016 114 350 0.018 train_err: 0.00222 test_err: 0.0768 115 50 0.011 115 100 0.017 115 150 0.018 115 200 0.012 115 250 0.015 115 300 0.014 115 350 0.014 train_err: 0.0027 test_err: 0.0778 116 50 0.014 116 100 0.013 116 150 0.014 116 200 0.014 116 250 0.014 116 300 0.015 116 350 0.016 train_err: 0.00182 test_err: 0.0762 117 50 0.012 117 100 0.014 117 150 0.015 117 200 0.015 117 250 0.015 117 300 0.012 117 350 0.015 train_err: 0.00174 test_err: 0.0776 118 50 0.016 118 100 0.014 118 150 0.012 118 200 0.014 118 250 0.014 118 300 0.014 118 350 0.015 train_err: 0.00184 test_err: 0.0767 119 50 0.011 119 100 0.014 119 150 0.013 119 200 0.014 119 250 0.015 119 300 0.017 119 350 0.012 train_err: 0.00212 test_err: 0.0776 120 50 0.014 120 100 0.016 120 150 0.013 120 200 0.012 120 250 0.012 120 300 0.013 120 350 0.013 train_err: 0.00194 test_err: 0.0768 121 50 0.012 121 100 0.012 121 150 0.013 121 200 0.011 121 250 0.011 121 300 0.011 121 350 0.011 train_err: 0.00138 test_err: 0.0748 122 50 0.011 122 100 0.010 122 150 0.012 122 200 0.011 122 250 0.010 122 300 0.012 122 350 0.012 train_err: 0.00188 test_err: 0.0769 123 50 0.012 123 100 0.014 123 150 0.010 123 200 0.011 123 250 0.013 123 300 0.010 123 350 0.013 train_err: 0.00174 test_err: 0.0753 124 50 0.012 124 100 0.012 124 150 0.011 124 200 0.011 124 250 0.012 124 300 0.011 124 350 0.011 train_err: 0.00148 test_err: 0.0758 125 50 0.012 125 100 0.010 125 150 0.011 125 200 0.009 125 250 0.010 125 300 0.011 125 350 0.012 train_err: 0.00108 test_err: 0.0758 126 50 0.010 126 100 0.008 126 150 0.009 126 200 0.009 126 250 0.012 126 300 0.008 126 350 0.009 train_err: 0.00094 test_err: 0.0759 127 50 0.010 127 100 0.010 127 150 0.009 127 200 0.009 127 250 0.010 127 300 0.011 127 350 0.009 train_err: 0.00134 test_err: 0.076 128 50 0.010 128 100 0.008 128 150 0.010 128 200 0.009 128 250 0.009 128 300 0.008 128 350 0.009 train_err: 0.00066 test_err: 0.0749 129 50 0.010 129 100 0.010 129 150 0.008 129 200 0.008 129 250 0.010 129 300 0.011 129 350 0.009 train_err: 0.00104 test_err: 0.0762 130 50 0.009 130 100 0.008 130 150 0.007 130 200 0.008 130 250 0.010 130 300 0.011 130 350 0.008 train_err: 0.0007 test_err: 0.0765 131 50 0.009 131 100 0.008 131 150 0.010 131 200 0.009 131 250 0.009 131 300 0.008 131 350 0.009 train_err: 0.00102 test_err: 0.0755 132 50 0.007 132 100 0.008 132 150 0.007 132 200 0.009 132 250 0.008 132 300 0.008 132 350 0.008 train_err: 0.00088 test_err: 0.0747 133 50 0.008 133 100 0.008 133 150 0.009 133 200 0.008 133 250 0.007 133 300 0.009 133 350 0.011 train_err: 0.00112 test_err: 0.0756 134 50 0.009 134 100 0.007 134 150 0.009 134 200 0.009 134 250 0.009 134 300 0.009 134 350 0.009 train_err: 0.0008 test_err: 0.0758 135 50 0.009 135 100 0.009 135 150 0.007 135 200 0.006 135 250 0.009 135 300 0.008 135 350 0.007 train_err: 0.00096 test_err: 0.075 136 50 0.009 136 100 0.011 136 150 0.008 136 200 0.007 136 250 0.008 136 300 0.009 136 350 0.010 train_err: 0.00082 test_err: 0.0745 137 50 0.007 137 100 0.008 137 150 0.007 137 200 0.008 137 250 0.009 137 300 0.010 137 350 0.008 train_err: 0.0009 test_err: 0.0741 138 50 0.008 138 100 0.008 138 150 0.010 138 200 0.009 138 250 0.008 138 300 0.007 138 350 0.010 train_err: 0.0007 test_err: 0.075 139 50 0.007 139 100 0.009 139 150 0.007 139 200 0.008 139 250 0.006 139 300 0.007 139 350 0.007 train_err: 0.0006 test_err: 0.0748 140 50 0.010 140 100 0.006 140 150 0.008 140 200 0.008 140 250 0.007 140 300 0.010 140 350 0.009 train_err: 0.00048 test_err: 0.0748 141 50 0.006 141 100 0.009 141 150 0.009 141 200 0.008 141 250 0.008 141 300 0.006 141 350 0.007 train_err: 0.00074 test_err: 0.0762 142 50 0.008 142 100 0.008 142 150 0.009 142 200 0.007 142 250 0.007 142 300 0.007 142 350 0.007 train_err: 0.00104 test_err: 0.0738 143 50 0.009 143 100 0.007 143 150 0.008 143 200 0.009 143 250 0.009 143 300 0.009 143 350 0.007 train_err: 0.00076 test_err: 0.0757 144 50 0.007 144 100 0.008 144 150 0.008 144 200 0.010 144 250 0.009 144 300 0.007 144 350 0.007 train_err: 0.00062 test_err: 0.075 145 50 0.008 145 100 0.007 145 150 0.009 145 200 0.009 145 250 0.007 145 300 0.007 145 350 0.008 train_err: 0.00068 test_err: 0.076 146 50 0.008 146 100 0.007 146 150 0.007 146 200 0.007 146 250 0.007 146 300 0.009 146 350 0.009 train_err: 0.0006 test_err: 0.0762 147 50 0.008 147 100 0.010 147 150 0.008 147 200 0.007 147 250 0.008 147 300 0.008 147 350 0.007 train_err: 0.00054 test_err: 0.0757 148 50 0.007 148 100 0.008 148 150 0.009 148 200 0.008 148 250 0.007 148 300 0.007 148 350 0.007 train_err: 0.00066 test_err: 0.0761 149 50 0.008 149 100 0.006 149 150 0.007 149 200 0.007 149 250 0.008 149 300 0.007 149 350 0.008 train_err: 0.00064 test_err: 0.0755 150 50 0.009 150 100 0.006 150 150 0.007 150 200 0.007 150 250 0.008 150 300 0.006 150 350 0.005 train_err: 0.00056 test_err: 0.076 151 50 0.007 151 100 0.007 151 150 0.008 151 200 0.008 151 250 0.008 151 300 0.007 151 350 0.006 train_err: 0.00064 test_err: 0.077 152 50 0.007 152 100 0.008 152 150 0.007 152 200 0.006 152 250 0.007 152 300 0.007 152 350 0.007 train_err: 0.00066 test_err: 0.0753 153 50 0.006 153 100 0.007 153 150 0.008 153 200 0.008 153 250 0.006 153 300 0.006 153 350 0.008 train_err: 0.0007 test_err: 0.0753 154 50 0.007 154 100 0.008 154 150 0.008 154 200 0.007 154 250 0.007 154 300 0.006 154 350 0.007 train_err: 0.0005 test_err: 0.0759 155 50 0.006 155 100 0.006 155 150 0.008 155 200 0.005 155 250 0.006 155 300 0.007 155 350 0.008 train_err: 0.00058 test_err: 0.0757 156 50 0.007 156 100 0.008 156 150 0.008 156 200 0.006 156 250 0.005 156 300 0.006 156 350 0.006 train_err: 0.00048 test_err: 0.0764 157 50 0.007 157 100 0.008 157 150 0.007 157 200 0.006 157 250 0.007 157 300 0.006 157 350 0.008 train_err: 0.00064 test_err: 0.0748 158 50 0.008 158 100 0.005 158 150 0.008 158 200 0.007 158 250 0.007 158 300 0.007 158 350 0.007 train_err: 0.00044 test_err: 0.0756 159 50 0.007 159 100 0.007 159 150 0.007 159 200 0.006 159 250 0.008 159 300 0.008 159 350 0.007 train_err: 0.00062 test_err: 0.0749 160 50 0.006 160 100 0.008 160 150 0.009 160 200 0.009 160 250 0.007 160 300 0.008 160 350 0.010 train_err: 0.00042 test_err: 0.0753 161 50 0.007 161 100 0.008 161 150 0.007 161 200 0.008 161 250 0.006 161 300 0.007 161 350 0.008 train_err: 0.00028 test_err: 0.0759 162 50 0.006 162 100 0.007 162 150 0.007 162 200 0.008 162 250 0.007 162 300 0.007 162 350 0.006 train_err: 0.00042 test_err: 0.0752 163 50 0.007 163 100 0.006 163 150 0.006 163 200 0.007 163 250 0.008 163 300 0.006 163 350 0.006 train_err: 0.00048 test_err: 0.0752 164 50 0.008 164 100 0.008 164 150 0.008 164 200 0.007 164 250 0.007 164 300 0.007 164 350 0.008 train_err: 0.00048 test_err: 0.0751 Finished Training MODEL SIZE: n=9 Files already downloaded and verified Files already downloaded and verified cuda:0 Epoch Batch NLLLoss_Train 1 50 3.684 1 100 2.265 1 150 2.138 1 200 2.076 1 250 2.005 1 300 1.959 1 350 1.909 train_err: 0.7142 test_err: 0.7235 2 50 1.821 2 100 1.751 2 150 1.709 2 200 1.658 2 250 1.635 2 300 1.593 2 350 1.561 train_err: 0.59724 test_err: 0.5949 3 50 1.500 3 100 1.460 3 150 1.442 3 200 1.377 3 250 1.368 3 300 1.342 3 350 1.316 train_err: 0.51562 test_err: 0.5217 4 50 1.270 4 100 1.252 4 150 1.216 4 200 1.193 4 250 1.176 4 300 1.146 4 350 1.102 train_err: 0.41802 test_err: 0.4206 5 50 1.087 5 100 1.043 5 150 1.035 5 200 1.025 5 250 0.989 5 300 0.974 5 350 0.964 train_err: 0.37786 test_err: 0.3776 6 50 0.943 6 100 0.893 6 150 0.901 6 200 0.903 6 250 0.882 6 300 0.878 6 350 0.865 train_err: 0.34914 test_err: 0.3554 7 50 0.841 7 100 0.819 7 150 0.829 7 200 0.813 7 250 0.799 7 300 0.793 7 350 0.782 train_err: 0.28488 test_err: 0.2933 8 50 0.740 8 100 0.775 8 150 0.778 8 200 0.741 8 250 0.716 8 300 0.712 8 350 0.727 train_err: 0.29246 test_err: 0.2972 9 50 0.681 9 100 0.695 9 150 0.690 9 200 0.679 9 250 0.690 9 300 0.693 9 350 0.714 train_err: 0.24352 test_err: 0.2505 10 50 0.647 10 100 0.635 10 150 0.642 10 200 0.642 10 250 0.634 10 300 0.636 10 350 0.644 train_err: 0.22428 test_err: 0.239 11 50 0.600 11 100 0.606 11 150 0.585 11 200 0.599 11 250 0.609 11 300 0.609 11 350 0.615 train_err: 0.24382 test_err: 0.2577 12 50 0.560 12 100 0.577 12 150 0.563 12 200 0.561 12 250 0.552 12 300 0.586 12 350 0.574 train_err: 0.2016 test_err: 0.2225 13 50 0.533 13 100 0.534 13 150 0.549 13 200 0.544 13 250 0.539 13 300 0.530 13 350 0.547 train_err: 0.23026 test_err: 0.2537 14 50 0.532 14 100 0.538 14 150 0.528 14 200 0.511 14 250 0.505 14 300 0.500 14 350 0.524 train_err: 0.24858 test_err: 0.2642 15 50 0.482 15 100 0.493 15 150 0.512 15 200 0.539 15 250 0.491 15 300 0.496 15 350 0.500 train_err: 0.21054 test_err: 0.2294 16 50 0.475 16 100 0.469 16 150 0.499 16 200 0.483 16 250 0.476 16 300 0.477 16 350 0.473 train_err: 0.17984 test_err: 0.2009 17 50 0.450 17 100 0.458 17 150 0.449 17 200 0.454 17 250 0.472 17 300 0.455 17 350 0.445 train_err: 0.1742 test_err: 0.1957 18 50 0.430 18 100 0.456 18 150 0.437 18 200 0.450 18 250 0.458 18 300 0.430 18 350 0.452 train_err: 0.15004 test_err: 0.1821 19 50 0.411 19 100 0.426 19 150 0.424 19 200 0.445 19 250 0.425 19 300 0.415 19 350 0.419 train_err: 0.1659 test_err: 0.1905 20 50 0.408 20 100 0.422 20 150 0.415 20 200 0.429 20 250 0.412 20 300 0.399 20 350 0.410 train_err: 0.14508 test_err: 0.1707 21 50 0.385 21 100 0.399 21 150 0.418 21 200 0.393 21 250 0.385 21 300 0.400 21 350 0.403 train_err: 0.16224 test_err: 0.2 22 50 0.380 22 100 0.374 22 150 0.380 22 200 0.404 22 250 0.403 22 300 0.390 22 350 0.383 train_err: 0.1743 test_err: 0.2005 23 50 0.354 23 100 0.369 23 150 0.379 23 200 0.385 23 250 0.386 23 300 0.390 23 350 0.374 train_err: 0.13718 test_err: 0.1717 24 50 0.367 24 100 0.360 24 150 0.358 24 200 0.373 24 250 0.363 24 300 0.351 24 350 0.375 train_err: 0.1653 test_err: 0.1996 25 50 0.339 25 100 0.336 25 150 0.342 25 200 0.358 25 250 0.364 25 300 0.366 25 350 0.355 train_err: 0.12756 test_err: 0.1627 26 50 0.337 26 100 0.350 26 150 0.367 26 200 0.341 26 250 0.315 26 300 0.369 26 350 0.364 train_err: 0.1163 test_err: 0.1542 27 50 0.327 27 100 0.305 27 150 0.327 27 200 0.351 27 250 0.344 27 300 0.352 27 350 0.363 train_err: 0.1394 test_err: 0.1723 28 50 0.344 28 100 0.319 28 150 0.313 28 200 0.331 28 250 0.342 28 300 0.370 28 350 0.336 train_err: 0.10606 test_err: 0.1433 29 50 0.315 29 100 0.314 29 150 0.323 29 200 0.328 29 250 0.349 29 300 0.333 29 350 0.339 train_err: 0.12102 test_err: 0.1524 30 50 0.306 30 100 0.308 30 150 0.316 30 200 0.299 30 250 0.349 30 300 0.339 30 350 0.313 train_err: 0.13318 test_err: 0.1654 31 50 0.305 31 100 0.302 31 150 0.306 31 200 0.302 31 250 0.325 31 300 0.316 31 350 0.339 train_err: 0.13518 test_err: 0.1677 32 50 0.297 32 100 0.293 32 150 0.310 32 200 0.304 32 250 0.323 32 300 0.319 32 350 0.321 train_err: 0.1184 test_err: 0.1579 33 50 0.285 33 100 0.299 33 150 0.291 33 200 0.320 33 250 0.319 33 300 0.312 33 350 0.314 train_err: 0.11972 test_err: 0.147 34 50 0.293 34 100 0.287 34 150 0.287 34 200 0.281 34 250 0.294 34 300 0.315 34 350 0.303 train_err: 0.1135 test_err: 0.1523 35 50 0.318 35 100 0.275 35 150 0.299 35 200 0.290 35 250 0.304 35 300 0.286 35 350 0.293 train_err: 0.10202 test_err: 0.1468 36 50 0.262 36 100 0.279 36 150 0.300 36 200 0.278 36 250 0.292 36 300 0.305 36 350 0.300 train_err: 0.15304 test_err: 0.1871 37 50 0.263 37 100 0.255 37 150 0.296 37 200 0.285 37 250 0.276 37 300 0.293 37 350 0.284 train_err: 0.1219 test_err: 0.1578 38 50 0.249 38 100 0.259 38 150 0.266 38 200 0.300 38 250 0.295 38 300 0.281 38 350 0.285 train_err: 0.09866 test_err: 0.1345 39 50 0.262 39 100 0.260 39 150 0.269 39 200 0.272 39 250 0.274 39 300 0.291 39 350 0.274 train_err: 0.11912 test_err: 0.159 40 50 0.281 40 100 0.264 40 150 0.289 40 200 0.260 40 250 0.270 40 300 0.262 40 350 0.266 train_err: 0.09108 test_err: 0.1377 41 50 0.242 41 100 0.273 41 150 0.267 41 200 0.278 41 250 0.266 41 300 0.277 41 350 0.282 train_err: 0.08796 test_err: 0.133 42 50 0.240 42 100 0.254 42 150 0.263 42 200 0.261 42 250 0.271 42 300 0.258 42 350 0.271 train_err: 0.13402 test_err: 0.1739 43 50 0.253 43 100 0.279 43 150 0.248 43 200 0.276 43 250 0.260 43 300 0.267 43 350 0.256 train_err: 0.11202 test_err: 0.1459 44 50 0.254 44 100 0.246 44 150 0.244 44 200 0.243 44 250 0.257 44 300 0.255 44 350 0.273 train_err: 0.11292 test_err: 0.1586 45 50 0.237 45 100 0.247 45 150 0.250 45 200 0.249 45 250 0.256 45 300 0.252 45 350 0.245 train_err: 0.08812 test_err: 0.1379 46 50 0.241 46 100 0.249 46 150 0.240 46 200 0.260 46 250 0.237 46 300 0.268 46 350 0.266 train_err: 0.1172 test_err: 0.1663 47 50 0.227 47 100 0.256 47 150 0.265 47 200 0.246 47 250 0.234 47 300 0.270 47 350 0.254 train_err: 0.11418 test_err: 0.1615 48 50 0.217 48 100 0.242 48 150 0.240 48 200 0.239 48 250 0.253 48 300 0.233 48 350 0.261 train_err: 0.12762 test_err: 0.1709 49 50 0.209 49 100 0.215 49 150 0.246 49 200 0.228 49 250 0.250 49 300 0.266 49 350 0.247 train_err: 0.10136 test_err: 0.1517 50 50 0.212 50 100 0.229 50 150 0.240 50 200 0.233 50 250 0.244 50 300 0.240 50 350 0.246 train_err: 0.07986 test_err: 0.1285 51 50 0.218 51 100 0.209 51 150 0.230 51 200 0.242 51 250 0.252 51 300 0.231 51 350 0.252 train_err: 0.10286 test_err: 0.1511 52 50 0.209 52 100 0.222 52 150 0.222 52 200 0.229 52 250 0.257 52 300 0.246 52 350 0.244 train_err: 0.0912 test_err: 0.1433 53 50 0.208 53 100 0.202 53 150 0.249 53 200 0.238 53 250 0.234 53 300 0.233 53 350 0.245 train_err: 0.09148 test_err: 0.1422 54 50 0.223 54 100 0.218 54 150 0.232 54 200 0.236 54 250 0.224 54 300 0.227 54 350 0.244 train_err: 0.08524 test_err: 0.1306 55 50 0.215 55 100 0.235 55 150 0.217 55 200 0.248 55 250 0.226 55 300 0.228 55 350 0.215 train_err: 0.08718 test_err: 0.1379 56 50 0.212 56 100 0.212 56 150 0.212 56 200 0.217 56 250 0.236 56 300 0.225 56 350 0.231 train_err: 0.10556 test_err: 0.1488 57 50 0.206 57 100 0.195 57 150 0.224 57 200 0.217 57 250 0.199 57 300 0.236 57 350 0.249 train_err: 0.12394 test_err: 0.1698 58 50 0.198 58 100 0.213 58 150 0.237 58 200 0.225 58 250 0.223 58 300 0.223 58 350 0.235 train_err: 0.10036 test_err: 0.1516 59 50 0.200 59 100 0.216 59 150 0.213 59 200 0.217 59 250 0.218 59 300 0.212 59 350 0.213 train_err: 0.09666 test_err: 0.1516 60 50 0.205 60 100 0.225 60 150 0.219 60 200 0.217 60 250 0.202 60 300 0.230 60 350 0.234 train_err: 0.10848 test_err: 0.1646 61 50 0.199 61 100 0.207 61 150 0.207 61 200 0.220 61 250 0.212 61 300 0.229 61 350 0.229 train_err: 0.08404 test_err: 0.1373 62 50 0.187 62 100 0.196 62 150 0.198 62 200 0.227 62 250 0.229 62 300 0.228 62 350 0.230 train_err: 0.0805 test_err: 0.1332 63 50 0.194 63 100 0.206 63 150 0.211 63 200 0.207 63 250 0.213 63 300 0.223 63 350 0.230 train_err: 0.09016 test_err: 0.1433 64 50 0.202 64 100 0.187 64 150 0.191 64 200 0.215 64 250 0.214 64 300 0.218 64 350 0.206 train_err: 0.1054 test_err: 0.1623 65 50 0.199 65 100 0.192 65 150 0.206 65 200 0.203 65 250 0.228 65 300 0.239 65 350 0.223 train_err: 0.07738 test_err: 0.1344 66 50 0.194 66 100 0.204 66 150 0.200 66 200 0.192 66 250 0.205 66 300 0.236 66 350 0.210 train_err: 0.07464 test_err: 0.1282 67 50 0.194 67 100 0.185 67 150 0.213 67 200 0.200 67 250 0.204 67 300 0.209 67 350 0.229 train_err: 0.08482 test_err: 0.1459 68 50 0.196 68 100 0.186 68 150 0.220 68 200 0.202 68 250 0.217 68 300 0.205 68 350 0.220 train_err: 0.08404 test_err: 0.1417 69 50 0.213 69 100 0.186 69 150 0.205 69 200 0.193 69 250 0.202 69 300 0.206 69 350 0.227 train_err: 0.0846 test_err: 0.1358 70 50 0.193 70 100 0.204 70 150 0.196 70 200 0.204 70 250 0.210 70 300 0.207 70 350 0.196 train_err: 0.0894 test_err: 0.1459 71 50 0.174 71 100 0.182 71 150 0.184 71 200 0.203 71 250 0.198 71 300 0.216 71 350 0.220 train_err: 0.06682 test_err: 0.1228 72 50 0.174 72 100 0.184 72 150 0.191 72 200 0.207 72 250 0.205 72 300 0.202 72 350 0.230 train_err: 0.11736 test_err: 0.1705 73 50 0.194 73 100 0.178 73 150 0.196 73 200 0.197 73 250 0.205 73 300 0.206 73 350 0.213 train_err: 0.08612 test_err: 0.1379 74 50 0.185 74 100 0.172 74 150 0.194 74 200 0.199 74 250 0.191 74 300 0.226 74 350 0.205 train_err: 0.06692 test_err: 0.1177 75 50 0.178 75 100 0.178 75 150 0.180 75 200 0.218 75 250 0.194 75 300 0.203 75 350 0.213 train_err: 0.09394 test_err: 0.1449 76 50 0.177 76 100 0.176 76 150 0.194 76 200 0.172 76 250 0.184 76 300 0.198 76 350 0.228 train_err: 0.07352 test_err: 0.1282 77 50 0.172 77 100 0.191 77 150 0.197 77 200 0.195 77 250 0.187 77 300 0.204 77 350 0.226 train_err: 0.0941 test_err: 0.1499 78 50 0.177 78 100 0.184 78 150 0.173 78 200 0.193 78 250 0.192 78 300 0.203 78 350 0.190 train_err: 0.0904 test_err: 0.1533 79 50 0.200 79 100 0.188 79 150 0.172 79 200 0.178 79 250 0.195 79 300 0.202 79 350 0.203 train_err: 0.08742 test_err: 0.1394 80 50 0.186 80 100 0.190 80 150 0.166 80 200 0.199 80 250 0.187 80 300 0.199 80 350 0.199 train_err: 0.06616 test_err: 0.1208 81 50 0.182 81 100 0.172 81 150 0.170 81 200 0.208 81 250 0.196 81 300 0.222 81 350 0.218 train_err: 0.07832 test_err: 0.1388 82 50 0.178 82 100 0.171 82 150 0.191 82 200 0.190 82 250 0.209 82 300 0.190 82 350 0.219 train_err: 0.07782 test_err: 0.1372 83 50 0.179 83 100 0.168 83 150 0.178 83 200 0.191 83 250 0.194 83 300 0.217 83 350 0.206 train_err: 0.07004 test_err: 0.1238 84 50 0.133 84 100 0.124 84 150 0.093 84 200 0.097 84 250 0.095 84 300 0.089 84 350 0.090 train_err: 0.02158 test_err: 0.0867 85 50 0.075 85 100 0.073 85 150 0.077 85 200 0.074 85 250 0.074 85 300 0.073 85 350 0.073 train_err: 0.01766 test_err: 0.0817 86 50 0.065 86 100 0.067 86 150 0.063 86 200 0.063 86 250 0.063 86 300 0.064 86 350 0.063 train_err: 0.01544 test_err: 0.0812 87 50 0.054 87 100 0.057 87 150 0.058 87 200 0.055 87 250 0.056 87 300 0.055 87 350 0.054 train_err: 0.01394 test_err: 0.0799 88 50 0.050 88 100 0.048 88 150 0.055 88 200 0.052 88 250 0.053 88 300 0.053 88 350 0.048 train_err: 0.01126 test_err: 0.0789 89 50 0.048 89 100 0.043 89 150 0.049 89 200 0.045 89 250 0.052 89 300 0.044 89 350 0.046 train_err: 0.01026 test_err: 0.0764 90 50 0.045 90 100 0.043 90 150 0.050 90 200 0.045 90 250 0.048 90 300 0.042 90 350 0.043 train_err: 0.00998 test_err: 0.0772 91 50 0.037 91 100 0.035 91 150 0.044 91 200 0.040 91 250 0.042 91 300 0.038 91 350 0.040 train_err: 0.0095 test_err: 0.0777 92 50 0.039 92 100 0.038 92 150 0.036 92 200 0.036 92 250 0.040 92 300 0.041 92 350 0.034 train_err: 0.00852 test_err: 0.0757 93 50 0.031 93 100 0.041 93 150 0.032 93 200 0.034 93 250 0.034 93 300 0.032 93 350 0.035 train_err: 0.00794 test_err: 0.0758 94 50 0.029 94 100 0.035 94 150 0.033 94 200 0.039 94 250 0.033 94 300 0.032 94 350 0.033 train_err: 0.00772 test_err: 0.0778 95 50 0.026 95 100 0.033 95 150 0.036 95 200 0.031 95 250 0.029 95 300 0.030 95 350 0.032 train_err: 0.00626 test_err: 0.0768 96 50 0.026 96 100 0.028 96 150 0.034 96 200 0.033 96 250 0.030 96 300 0.036 96 350 0.029 train_err: 0.00554 test_err: 0.0774 97 50 0.026 97 100 0.030 97 150 0.029 97 200 0.028 97 250 0.030 97 300 0.030 97 350 0.029 train_err: 0.0056 test_err: 0.0769 98 50 0.025 98 100 0.025 98 150 0.026 98 200 0.028 98 250 0.027 98 300 0.023 98 350 0.028 train_err: 0.00502 test_err: 0.0752 99 50 0.029 99 100 0.024 99 150 0.026 99 200 0.026 99 250 0.029 99 300 0.025 99 350 0.025 train_err: 0.00414 test_err: 0.0783 100 50 0.023 100 100 0.018 100 150 0.022 100 200 0.021 100 250 0.029 100 300 0.027 100 350 0.028 train_err: 0.00448 test_err: 0.0777 101 50 0.021 101 100 0.021 101 150 0.021 101 200 0.023 101 250 0.021 101 300 0.025 101 350 0.025 train_err: 0.00412 test_err: 0.0759 102 50 0.020 102 100 0.021 102 150 0.024 102 200 0.023 102 250 0.025 102 300 0.021 102 350 0.021 train_err: 0.0034 test_err: 0.0775 103 50 0.020 103 100 0.020 103 150 0.025 103 200 0.020 103 250 0.022 103 300 0.020 103 350 0.018 train_err: 0.00376 test_err: 0.0783 104 50 0.018 104 100 0.018 104 150 0.020 104 200 0.019 104 250 0.022 104 300 0.019 104 350 0.021 train_err: 0.00412 test_err: 0.0749 105 50 0.019 105 100 0.020 105 150 0.020 105 200 0.020 105 250 0.020 105 300 0.022 105 350 0.016 train_err: 0.00316 test_err: 0.0776 106 50 0.020 106 100 0.017 106 150 0.020 106 200 0.016 106 250 0.019 106 300 0.019 106 350 0.021 train_err: 0.00288 test_err: 0.0779 107 50 0.020 107 100 0.017 107 150 0.017 107 200 0.017 107 250 0.017 107 300 0.016 107 350 0.019 train_err: 0.00272 test_err: 0.0795 108 50 0.015 108 100 0.015 108 150 0.016 108 200 0.019 108 250 0.018 108 300 0.016 108 350 0.021 train_err: 0.00294 test_err: 0.0794 109 50 0.013 109 100 0.016 109 150 0.016 109 200 0.016 109 250 0.014 109 300 0.017 109 350 0.019 train_err: 0.00324 test_err: 0.0769 110 50 0.013 110 100 0.015 110 150 0.016 110 200 0.015 110 250 0.014 110 300 0.013 110 350 0.018 train_err: 0.00248 test_err: 0.0777 111 50 0.015 111 100 0.014 111 150 0.016 111 200 0.017 111 250 0.014 111 300 0.017 111 350 0.017 train_err: 0.00276 test_err: 0.0771 112 50 0.014 112 100 0.014 112 150 0.014 112 200 0.016 112 250 0.016 112 300 0.015 112 350 0.017 train_err: 0.00264 test_err: 0.0789 113 50 0.014 113 100 0.014 113 150 0.014 113 200 0.014 113 250 0.015 113 300 0.015 113 350 0.014 train_err: 0.00222 test_err: 0.0783 114 50 0.016 114 100 0.012 114 150 0.015 114 200 0.017 114 250 0.013 114 300 0.015 114 350 0.013 train_err: 0.00256 test_err: 0.0782 115 50 0.015 115 100 0.011 115 150 0.014 115 200 0.016 115 250 0.015 115 300 0.012 115 350 0.015 train_err: 0.0022 test_err: 0.0754 116 50 0.012 116 100 0.014 116 150 0.014 116 200 0.012 116 250 0.015 116 300 0.015 116 350 0.013 train_err: 0.00168 test_err: 0.0772 117 50 0.013 117 100 0.013 117 150 0.011 117 200 0.016 117 250 0.017 117 300 0.012 117 350 0.013 train_err: 0.00198 test_err: 0.0768 118 50 0.012 118 100 0.014 118 150 0.013 118 200 0.016 118 250 0.013 118 300 0.012 118 350 0.011 train_err: 0.0019 test_err: 0.0766 119 50 0.012 119 100 0.012 119 150 0.011 119 200 0.015 119 250 0.011 119 300 0.014 119 350 0.013 train_err: 0.00202 test_err: 0.0772 120 50 0.014 120 100 0.011 120 150 0.012 120 200 0.013 120 250 0.014 120 300 0.012 120 350 0.013 train_err: 0.00194 test_err: 0.077 121 50 0.011 121 100 0.011 121 150 0.011 121 200 0.013 121 250 0.010 121 300 0.013 121 350 0.013 train_err: 0.00176 test_err: 0.0788 122 50 0.013 122 100 0.013 122 150 0.014 122 200 0.014 122 250 0.012 122 300 0.012 122 350 0.013 train_err: 0.00164 test_err: 0.0795 123 50 0.011 123 100 0.010 123 150 0.011 123 200 0.014 123 250 0.010 123 300 0.011 123 350 0.011 train_err: 0.00156 test_err: 0.078 124 50 0.013 124 100 0.011 124 150 0.007 124 200 0.010 124 250 0.011 124 300 0.012 124 350 0.012 train_err: 0.0017 test_err: 0.0784 125 50 0.010 125 100 0.011 125 150 0.009 125 200 0.009 125 250 0.009 125 300 0.009 125 350 0.010 train_err: 0.0011 test_err: 0.0779 126 50 0.010 126 100 0.010 126 150 0.009 126 200 0.010 126 250 0.010 126 300 0.009 126 350 0.009 train_err: 0.00106 test_err: 0.0767 127 50 0.010 127 100 0.010 127 150 0.010 127 200 0.008 127 250 0.008 127 300 0.011 127 350 0.010 train_err: 0.0012 test_err: 0.0762 128 50 0.010 128 100 0.010 128 150 0.010 128 200 0.008 128 250 0.010 128 300 0.011 128 350 0.009 train_err: 0.00096 test_err: 0.076 129 50 0.007 129 100 0.010 129 150 0.007 129 200 0.008 129 250 0.008 129 300 0.008 129 350 0.007 train_err: 0.001 test_err: 0.0762 130 50 0.009 130 100 0.008 130 150 0.009 130 200 0.007 130 250 0.008 130 300 0.007 130 350 0.010 train_err: 0.00058 test_err: 0.0758 131 50 0.009 131 100 0.008 131 150 0.008 131 200 0.009 131 250 0.007 131 300 0.008 131 350 0.007 train_err: 0.00114 test_err: 0.0763 132 50 0.008 132 100 0.009 132 150 0.006 132 200 0.008 132 250 0.010 132 300 0.009 132 350 0.009 train_err: 0.0007 test_err: 0.0756 133 50 0.009 133 100 0.008 133 150 0.010 133 200 0.009 133 250 0.008 133 300 0.009 133 350 0.008 train_err: 0.0007 test_err: 0.0751 134 50 0.009 134 100 0.008 134 150 0.008 134 200 0.009 134 250 0.006 134 300 0.009 134 350 0.007 train_err: 0.00072 test_err: 0.0759 135 50 0.008 135 100 0.007 135 150 0.008 135 200 0.007 135 250 0.007 135 300 0.007 135 350 0.008 train_err: 0.00054 test_err: 0.0755 136 50 0.008 136 100 0.008 136 150 0.008 136 200 0.008 136 250 0.007 136 300 0.008 136 350 0.006 train_err: 0.00092 test_err: 0.0749 137 50 0.009 137 100 0.007 137 150 0.008 137 200 0.009 137 250 0.008 137 300 0.008 137 350 0.007 train_err: 0.00068 test_err: 0.0756 138 50 0.007 138 100 0.006 138 150 0.007 138 200 0.007 138 250 0.008 138 300 0.008 138 350 0.008 train_err: 0.00062 test_err: 0.0745 139 50 0.009 139 100 0.007 139 150 0.009 139 200 0.008 139 250 0.008 139 300 0.009 139 350 0.008 train_err: 0.00086 test_err: 0.075 140 50 0.007 140 100 0.007 140 150 0.007 140 200 0.006 140 250 0.008 140 300 0.008 140 350 0.007 train_err: 0.00062 test_err: 0.0743 141 50 0.008 141 100 0.008 141 150 0.010 141 200 0.007 141 250 0.007 141 300 0.007 141 350 0.008 train_err: 0.00054 test_err: 0.076 142 50 0.007 142 100 0.007 142 150 0.007 142 200 0.008 142 250 0.007 142 300 0.008 142 350 0.008 train_err: 0.00076 test_err: 0.0746 143 50 0.008 143 100 0.007 143 150 0.008 143 200 0.007 143 250 0.008 143 300 0.007 143 350 0.006 train_err: 0.0008 test_err: 0.0744 144 50 0.007 144 100 0.008 144 150 0.007 144 200 0.007 144 250 0.008 144 300 0.008 144 350 0.006 train_err: 0.00058 test_err: 0.0746 145 50 0.008 145 100 0.008 145 150 0.008 145 200 0.007 145 250 0.007 145 300 0.007 145 350 0.008 train_err: 0.00088 test_err: 0.075 146 50 0.007 146 100 0.006 146 150 0.007 146 200 0.008 146 250 0.007 146 300 0.008 146 350 0.008 train_err: 0.0005 test_err: 0.0746 147 50 0.008 147 100 0.007 147 150 0.007 147 200 0.008 147 250 0.007 147 300 0.006 147 350 0.009 train_err: 0.00066 test_err: 0.074 148 50 0.007 148 100 0.006 148 150 0.007 148 200 0.008 148 250 0.008 148 300 0.007 148 350 0.007 train_err: 0.00066 test_err: 0.0744 149 50 0.008 149 100 0.007 149 150 0.006 149 200 0.007 149 250 0.006 149 300 0.008 149 350 0.006 train_err: 0.0006 test_err: 0.0748 150 50 0.007 150 100 0.007 150 150 0.007 150 200 0.007 150 250 0.006 150 300 0.007 150 350 0.007 train_err: 0.00046 test_err: 0.0751 151 50 0.006 151 100 0.007 151 150 0.008 151 200 0.008 151 250 0.008 151 300 0.007 151 350 0.008 train_err: 0.0005 test_err: 0.0748 152 50 0.007 152 100 0.007 152 150 0.007 152 200 0.008 152 250 0.006 152 300 0.007 152 350 0.006 train_err: 0.00068 test_err: 0.0738 153 50 0.007 153 100 0.007 153 150 0.007 153 200 0.007 153 250 0.007 153 300 0.007 153 350 0.006 train_err: 0.00064 test_err: 0.0751 154 50 0.006 154 100 0.007 154 150 0.006 154 200 0.008 154 250 0.006 154 300 0.006 154 350 0.005 train_err: 0.00082 test_err: 0.0756 155 50 0.009 155 100 0.008 155 150 0.007 155 200 0.006 155 250 0.007 155 300 0.008 155 350 0.005 train_err: 0.00052 test_err: 0.0744 156 50 0.007 156 100 0.008 156 150 0.007 156 200 0.007 156 250 0.007 156 300 0.008 156 350 0.008 train_err: 0.00054 test_err: 0.0751 157 50 0.006 157 100 0.008 157 150 0.007 157 200 0.007 157 250 0.007 157 300 0.008 157 350 0.008 train_err: 0.00058 test_err: 0.0749 158 50 0.008 158 100 0.007 158 150 0.007 158 200 0.009 158 250 0.006 158 300 0.006 158 350 0.006 train_err: 0.00046 test_err: 0.0739 159 50 0.006 159 100 0.006 159 150 0.006 159 200 0.007 159 250 0.005 159 300 0.007 159 350 0.009 train_err: 0.0007 test_err: 0.0757 160 50 0.006 160 100 0.007 160 150 0.007 160 200 0.007 160 250 0.005 160 300 0.005 160 350 0.007 train_err: 0.0005 test_err: 0.0743 161 50 0.007 161 100 0.006 161 150 0.008 161 200 0.006 161 250 0.007 161 300 0.006 161 350 0.007 train_err: 0.00046 test_err: 0.0756 162 50 0.005 162 100 0.007 162 150 0.007 162 200 0.005 162 250 0.007 162 300 0.007 162 350 0.008 train_err: 0.0005 test_err: 0.0748 163 50 0.008 163 100 0.007 163 150 0.006 163 200 0.007 163 250 0.006 163 300 0.008 163 350 0.007 train_err: 0.00044 test_err: 0.0733 164 50 0.006 164 100 0.006 164 150 0.007 164 200 0.008 164 250 0.006 164 300 0.007 164 350 0.007 train_err: 0.00038 test_err: 0.0746 Finished Training
Table 6. in the paper reports that the ResNet model with 20 layers should have 0.27 million trainable parameters. We reproduce that here.
It is noted elsewhere that the plain net should have the same number of parameters for the CIFAR10 experiment. This is because an identity mapping is used for the residual shortcuts, as opposed to a convolutional layer, an so there are no additional trainable parameters.
print(f'Parameter count: {sum([p.numel() for p in model.parameters()])}')
Parameter count: 270410
The PyTorch model architecture for a 20 layer model.
print(model)
ResNet( (convIn): Conv2d(3, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bnIn): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (relu): ReLU(inplace) (stack1): ModuleList( (0): block( (conv1): Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn1): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (relu): ReLU(inplace) (conv2): Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn2): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (down): AvgPool2d(kernel_size=1, stride=2, padding=0) ) (1): block( (conv1): Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn1): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (relu): ReLU(inplace) (conv2): Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn2): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (down): AvgPool2d(kernel_size=1, stride=2, padding=0) ) (2): block( (conv1): Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn1): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (relu): ReLU(inplace) (conv2): Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn2): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (down): AvgPool2d(kernel_size=1, stride=2, padding=0) ) ) (stack2a): block( (conv1): Conv2d(16, 32, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1)) (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (relu): ReLU(inplace) (conv2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn2): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (down): AvgPool2d(kernel_size=1, stride=2, padding=0) ) (stack2b): ModuleList( (0): block( (conv1): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (relu): ReLU(inplace) (conv2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn2): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (down): AvgPool2d(kernel_size=1, stride=2, padding=0) ) (1): block( (conv1): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (relu): ReLU(inplace) (conv2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn2): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (down): AvgPool2d(kernel_size=1, stride=2, padding=0) ) ) (stack3a): block( (conv1): Conv2d(32, 64, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1)) (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (relu): ReLU(inplace) (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (down): AvgPool2d(kernel_size=1, stride=2, padding=0) ) (stack3b): ModuleList( (0): block( (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (relu): ReLU(inplace) (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (down): AvgPool2d(kernel_size=1, stride=2, padding=0) ) (1): block( (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (relu): ReLU(inplace) (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)) (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=False) (down): AvgPool2d(kernel_size=1, stride=2, padding=0) ) ) (avgpool): AvgPool2d(kernel_size=8, stride=1, padding=0) (fcOut): Linear(in_features=64, out_features=10, bias=True) (softmax): LogSoftmax() )
ns = [3, 5, 7, 9]
clr = ['y', 'c', 'g', 'r']
plainnet_dfs = [pd.read_csv(f'results/plainnet{6*n+2}.csv') for n in ns]
fig = plt.figure(figsize=(20, 10))
plt.axis([0, 164, 0, 20])
for i in range(len(ns)):
plt.plot(plainnet_dfs[i]['epoch'], plainnet_dfs[i]['train_err']*100, f'{clr[i]}--',
label=f'plain-{6*ns[i]+2} train')
plt.plot(plainnet_dfs[i]['epoch'], plainnet_dfs[i]['test_err']*100, f'{clr[i]}',
label=f'plain-{6*ns[i]+2} test')
plt.title('Comparison of four plain convolutional networks with 20, 32, 44 and 56 layers.')
plt.legend(loc='upper right')
plt.xlabel('epochs')
plt.ylabel('error (%)')
plt.axhline(10, color='black', alpha=0.5, dashes=(10., 10.))
plt.axhline(5, color='black', alpha=0.5, dashes=(10., 10.));
bests = [df[df['test_err'] == df['test_err'].min()].iloc[0] for df in plainnet_dfs]
bests_df= pd.concat(bests, axis=1).T
bests_df['model'] = ['PlainNet20', 'PlainNet32', 'PlainNet44', 'PlainNet56']
display(bests_df[['model', 'test_err']])
model | test_err | |
---|---|---|
138 | PlainNet20 | 0.0950 |
152 | PlainNet32 | 0.0992 |
135 | PlainNet44 | 0.1135 |
155 | PlainNet56 | 0.1276 |
ns = [3, 5, 7, 9]
clr = ['y', 'c', 'g', 'r']
resnet_dfs = [pd.read_csv(f'results/resnet{6*n+2}.csv') for n in ns]
fig = plt.figure(figsize=(20, 10))
plt.axis([0, 164, 0, 20])
for i in range(len(ns)):
plt.plot(resnet_dfs[i]['epoch'], resnet_dfs[i]['train_err']*100, f'{clr[i]}--',
label=f'ResNet-{6*ns[i]+2} train')
plt.plot(resnet_dfs[i]['epoch'], resnet_dfs[i]['test_err']*100, f'{clr[i]}',
label=f'ResNet-{6*ns[i]+2} test')
plt.title('Comparison of four residual networks with 20, 32, 44 and 56 layers.')
plt.legend(loc='upper right')
plt.xlabel('epochs')
plt.ylabel('error (%)')
plt.axhline(10, color='black', alpha=0.5, dashes=(10., 10.))
plt.axhline(5, color='black', alpha=0.5, dashes=(10., 10.));
bests = [df[df['test_err'] == df['test_err'].min()].iloc[0] for df in resnet_dfs]
bests_df= pd.concat(bests, axis=1).T
bests_df['model'] = ['ResNet20', 'ResNet32', 'ResNet44', 'ResNet56']
display(bests_df[['model', 'test_err']])
model | test_err | |
---|---|---|
151 | ResNet20 | 0.0800 |
148 | ResNet32 | 0.0751 |
141 | ResNet44 | 0.0738 |
162 | ResNet56 | 0.0733 |
ns = [3, 5, 7, 9]
clr = ['y', 'c', 'g', 'r']
f, (ax1, ax2) = plt.subplots(1, 2, sharey=True, figsize=(25, 7))
plainnet_dfs = [pd.read_csv(f'results/plainnet{6*n+2}.csv') for n in ns]
resnet_dfs = [pd.read_csv(f'results/resnet{6*n+2}.csv') for n in ns]
def plot_results(dfs, ax, title):
ax.axis([0, 164, 0, 20])
for i in range(len(ns)):
ax.plot(dfs[i]['epoch'], dfs[i]['train_err']*100, f'{clr[i]}--',
label=f'plain-{6*ns[i]+2} train')
ax.plot(dfs[i]['epoch'], dfs[i]['test_err']*100, f'{clr[i]}',
label=f'plain-{6*ns[i]+2} test')
ax.set_title(title)
ax.legend(loc='bottom left')
ax.set_xlabel('epochs')
ax.set_ylabel('error (%)')
ax.axhline(10, color='black', alpha=0.5, dashes=(10., 10.))
ax.axhline(5, color='black', alpha=0.5, dashes=(10., 10.));
plot_results(plainnet_dfs, ax1, 'Plain Networks')
plot_results(resnet_dfs, ax2, 'Residual Networks')