Egy képet egy másik kép stílusában komponál át.
Játékosan elérhető hogy hasonló kép készüljön mint Picasso vagy Van Gogh alkotása.
Megjegyzés:
Ez az oktatóanyag bemutatja az eredeti stílusátviteli algoritmust.
Optimalizálja a kép tartalmát egy adott stílushoz.
A modern és antik megközelítések egy-egy modellt képezhet a stilizált kép közvetlen generálására (hasonlóan a cycganhez).
Ez a megközelítés sokkal gyorsabb (akár 1000x). Egy előre kiképzett tetszőleges képstilizáló modul elérhető a TensorFlow Hub-ban és a TensorFlow Lite-hoz.
A neurális stílusátvitel egy olyan optimalizálási technika, amelyet két kép - egy tartalomkép és egy stílus referenciakép (például egy híres festőművész alkotása) készítéséhez használnak, és összekeverik őket, így a kimeneti kép úgy néz ki, mint a tartalomkép, de “festett” a stílus referenciaképének stílusában.
Ezt úgy valósítják meg, hogy a kimeneti képet úgy optimalizálják, hogy megfeleljen a tartalom kép tartalmi statisztikájának és a stílus referencia kép stílus statisztikájának. Ezeket a statisztikákat a képekből egy konvolúciós hálózat segítségével vonják ki.
$conda update python $conda update keras $conda update tensorflow
https://www.tensorflow.org/tutorials/generative/style_transfer
from __future__ import absolute_import, division, print_function, unicode_literals
## tensorflow és más modulok betöltése
try:
# %tensorflow_version ellenőrzése
%tensorflow_version 2.x
except Exception:
pass
import tensorflow as tf
import IPython.display as display
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['figure.figsize'] = (12,12)
mpl.rcParams['axes.grid'] = False
import numpy as np
import PIL.Image
import time
import functools
## Veziok kiírása
print('TF verzio : ', tf.__version__)
print('KERAS verzio : ', tf.keras.__version__)
## képállományok elérése a WEB -en
#content_path = tf.keras.utils.get_file('YellowLabradorLooking_new.jpg', 'https://storage.googleapis.com/download.tensorflow.org/example_images/YellowLabradorLooking_new.jpg')
#style_path = tf.keras.utils.get_file('kandinsky5.jpg','https://storage.googleapis.com/download.tensorflow.org/example_images/Vassily_Kandinsky%2C_1913_-_Composition_7.jpg')
## mokus
# content_path = tf.keras.utils.get_file('forras_kep1.jpg', r'https://1.bp.blogspot.com/-1xfgXDl6mYQ/XmIwnys8MDI/AAAAAAAAaFw/16mXksGvTiE3kgdXzU4LTNkM9YVnbvHXwCLcBGAsYHQ/s320/FB_IMG_1580926207371.jpg')
style_path = tf.keras.utils.get_file('cel_kep1.jpg', r'https://1.bp.blogspot.com/-PA6HO5WxmMo/XmIxUVZsLbI/AAAAAAAAaGI/n4jHuu8NctsdnoFDzvy0mSHAuRJKdYlFwCLcBGAsYHQ/s320/1-style.jpg')
## sas
content_path = tf.keras.utils.get_file('forras_kep2.jpg', r'https://1.bp.blogspot.com/-WaDe31Qr3yg/XmIwn8KKNcI/AAAAAAAAaGE/OZaPJcax2-4_kwUZ8iguZRASS5W7Ycr_gCPcBGAYYCw/s1600/FB_IMG_1581224344102.jpg')
## kép brtöltő eljárás definiciója
def tensor_to_image(tensor):
tensor = tensor*255
tensor = np.array(tensor, dtype=np.uint8)
if np.ndim(tensor)>3:
assert tensor.shape[0] == 1
tensor = tensor[0]
return PIL.Image.fromarray(tensor)
def load_img(path_to_img):
max_dim = 512 ## max
img = tf.io.read_file(path_to_img)
img = tf.image.decode_image(img, channels=3)
img = tf.image.convert_image_dtype(img, tf.float32)
shape = tf.cast(tf.shape(img)[:-1], tf.float32)
long_dim = max(shape)
scale = max_dim / long_dim
new_shape = tf.cast(shape * scale, tf.int32)
img = tf.image.resize(img, new_shape)
img = img[tf.newaxis, :]
return img
## kép megjelenítés
def imshow(image, title=None):
if len(image.shape) > 3:
image = tf.squeeze(image, axis=0)
plt.imshow(image)
if title:
plt.title(title)
## eljárások meghívása
content_image = load_img(content_path) ## képfile bolvasása
style_image = load_img(style_path) ## stilus képfile bolvasása
plt.subplot(1, 2, 1) ## megjelenítési pozició
imshow(content_image, 'Eredeti kép') ## megjelenítés
plt.subplot(1, 2, 2) ## megjelenítési pozició
imshow(style_image, 'Stilus kép') ## megjelenítés
## A hub használathoz installálni kell a modult (ezt csak egyszer kell megtenni)
# !pip install "tensorflow_hub>=0.6.0"
import tensorflow_hub as hub
#hub_module = hub.load('https://tfhub.dev/google/magenta/arbitrary-image-stylization-v1-256/1') ## regi verzio
hub_module = hub.load('https://tfhub.dev/google/magenta/arbitrary-image-stylization-v1-256/2') ## újabb verzio
stylized_image = hub_module(tf.constant(content_image), tf.constant(style_image))[0]
tensor_to_image(stylized_image)
Használja a modell köztes rétegeit a kép tartalmának és stílusának ábrázolásához.
A hálózat bemeneti rétegétől kezdve az első néhány réteg aktiválás alacsony szintű funkciókat képvisel, például éleket és textúrákat.
A hálózaton való áthaladás során az utolsó néhány réteg magasabb szintű funkciókat képvisel - objektumrészeket, mint például a kerekeket vagy a szemét.
Ebben az esetben a VGG19 hálózati architektúrát használjujk egy előre képzett képosztályozó hálózatot.
Ezekre a köztes rétegekre van szükség a tartalom és a stílus képek ábrázolásának meghatározásához.
A bemeneti képhez próbáljuk meg egyeztetni a megfelelő stílus- és tartalomcél reprezentációkat ezeken a közbenső rétegeken.
Model elérése: VGG19
## model betoltés és paraméterezés
x = tf.keras.applications.vgg19.preprocess_input(content_image*255)
x = tf.image.resize(x, (224, 224))
vgg = tf.keras.applications.VGG19(include_top=True, weights='imagenet')
prediction_probabilities = vgg(x)
prediction_probabilities.shape
## Prediktiv modell
predicted_top_5 = tf.keras.applications.vgg19.decode_predictions(prediction_probabilities.numpy())[0]
[(class_name, prob) for (number, class_name, prob) in predicted_top_5]
## VGG19-et betöltése az osztályozó fej nélkül, és rétegnevek felsorolása nélkül
vgg = tf.keras.applications.VGG19(include_top=False, weights='imagenet')
print()
for layer in vgg.layers:
print(layer.name)
Choose intermediate layers from the network to represent the style and content of the image:
## Válasszunk köztes rétegek a hálózatból, hogy hogyan ábrázolja a kép stílusát és tartalmát:
## Tartalmi réteg, ahova behúzza a funkciótérképeket
content_layers = ['block5_conv2']
# Stilus réteg megadása
style_layers = ['block1_conv1',
'block2_conv1',
'block3_conv1',
'block4_conv1',
'block5_conv1']
num_content_layers = len(content_layers)
num_style_layers = len(style_layers)
Ezek a közbenső kimenetek engedik meg az előre képzett képosztályozó hálózatunkban a stílus és a tartalom ábrázolásainak meghatározását.
Magas szinten annak érdekében, hogy egy hálózat elvégezhesse a kép osztályozását (amelyet erre a hálózatra kiképeztek), meg kell értenie a képet.
Ehhez a nyers képet bemeneti képpontként kell venni, és létre kell hozni egy olyan belső ábrázolást, amely a nyers kép pixeleket a képen lévő tulajdonságok komplex megértésévé alakítja.
Ez is az oka annak, hogy a konvolúciós ideghálózatok képesek jól általánosítani: képesek megragadni az osztályokon belüli invarianciákat és meghatározó jellemzőket (pl. Macskák vagy kutyák), amelyek a háttérzajt és más kellemetlenségeket kiváltják.
Így, valahol a nyers kép beillesztése a modellbe és a kimeneti osztályozási címke között, a modell komplex szolgáltatáskivonatként szolgál. A modell köztes rétegeinek elérésével leírhatja a bemeneti képek tartalmát és stílusát.
A tf.keras.applications hálózatait úgy tervezték meg, hogy a Keras funkcionális API segítségével könnyedén kivonhassák a közbenső réteg értékeit.
A modell meghatározásához a funkcionális API használatával adja meg a bemeneteket és a kimeneteket:
Ez a következő függvény egy VGG19 modellt épít fel, amely visszaadja a közbenső réteg kimeneteinek listáját:
def vgg_layers(layer_names):
# # Töltsünk be modellünket. Töltsük be az előképzett VGG-t, a képzett az imagenet adatokon
vgg = tf.keras.applications.VGG19(include_top=False, weights='imagenet')
vgg.trainable = False
outputs = [vgg.get_layer(name).output for name in layer_names]
model = tf.keras.Model([vgg.input], outputs)
return model
style_extractor = vgg_layers(style_layers)
style_outputs = style_extractor(style_image*255)
## Nézzük meg az egyes rétegek kimeneti statisztikáit
for name, output in zip(style_layers, style_outputs):
print(name)
print(" shape: ", output.numpy().shape)
print(" min: ", output.numpy().min())
print(" max: ", output.numpy().max())
print(" mean: ", output.numpy().mean())
print()
A kép tartalmát a közbenső jellemző térképek értékei képviselik.
Kiderült, hogy a kép stílusát leírhatjuk az eszközökkel és a különféle térképek közötti összefüggésekkel.
Számítson ki egy Gram-mátrixot, amely tartalmazza ezt az információt, úgy, hogy az objektumvektor külső termékét magával veszi az egyes helyekre, és átlagolja ezt a külső terméket az összes helyre.
Ez a Gram-mátrix egy adott rétegre kiszámítható:
$$G^l_{cd} = \frac{\sum_{ij} F^l_{ijc}(x)F^l_{ijd}(x)}{IJ}$$Ez tömören megvalósítható a tf.linalg.einsum
függvény használatával:
def gram_matrix(input_tensor):
result = tf.linalg.einsum('bijc,bijd->bcd', input_tensor, input_tensor)
input_shape = tf.shape(input_tensor)
num_locations = tf.cast(input_shape[1]*input_shape[2], tf.float32)
return result/(num_locations)
Készítsünk egy modellt, amely visszatér a stílus és a tartalom informáciokkal tenzoraihoz.
class StyleContentModel(tf.keras.models.Model):
def __init__(self, style_layers, content_layers):
super(StyleContentModel, self).__init__()
self.vgg = vgg_layers(style_layers + content_layers)
self.style_layers = style_layers
self.content_layers = content_layers
self.num_style_layers = len(style_layers)
self.vgg.trainable = False
def call(self, inputs):
"Expects float input in [0,1]"
inputs = inputs*255.0
preprocessed_input = tf.keras.applications.vgg19.preprocess_input(inputs)
outputs = self.vgg(preprocessed_input)
style_outputs, content_outputs = (outputs[:self.num_style_layers],
outputs[self.num_style_layers:])
style_outputs = [gram_matrix(style_output)
for style_output in style_outputs]
content_dict = {content_name:value
for content_name, value
in zip(self.content_layers, content_outputs)}
style_dict = {style_name:value
for style_name, value
in zip(self.style_layers, style_outputs)}
return {'content':content_dict, 'style':style_dict}
Amikor képre hívnak egy képet, ez a modell visszatér a "stílus_rétegek" grammátrixa (stílusa) és a "tartalom_rétegek" tartalmával.
extractor = StyleContentModel(style_layers, content_layers)
results = extractor(tf.constant(content_image))
style_results = results['style']
print('Styles:')
for name, output in sorted(results['style'].items()):
print(" ", name)
print(" shape: ", output.numpy().shape)
print(" min: ", output.numpy().min())
print(" max: ", output.numpy().max())
print(" mean: ", output.numpy().mean())
print()
print("Contents:")
for name, output in sorted(results['content'].items()):
print(" ", name)
print(" shape: ", output.numpy().shape)
print(" min: ", output.numpy().min())
print(" max: ", output.numpy().max())
print(" mean: ", output.numpy().mean())
style_targets = extractor(style_image)['style']
content_targets = extractor(content_image)['content']
image = tf.Variable(content_image) ## tartalmazzák a képet az optimalizálás érdekében. A gyors megvalósítás érdekében inicializálja a tartalomképpel
def clip_0_1(image): ## Mivel ez úszó kép, definiáljon egy funkciót a pixelértékek 0 és 1 közötti tartására:
return tf.clip_by_value(image, clip_value_min=0.0, clip_value_max=1.0)
opt = tf.optimizers.Adam(learning_rate=0.02, beta_1=0.99, epsilon=1e-1) ## optimalizáslás beállításai
style_weight=1e-2
content_weight=1e4
def style_content_loss(outputs):
style_outputs = outputs['style']
content_outputs = outputs['content']
style_loss = tf.add_n([tf.reduce_mean((style_outputs[name]-style_targets[name])**2)
for name in style_outputs.keys()])
style_loss *= style_weight / num_style_layers
content_loss = tf.add_n([tf.reduce_mean((content_outputs[name]-content_targets[name])**2)
for name in content_outputs.keys()])
content_loss *= content_weight / num_content_layers
loss = style_loss + content_loss
return loss
@tf.function()
def train_step(image): ## kép változtatási lépések
with tf.GradientTape() as tape:
outputs = extractor(image)
loss = style_content_loss(outputs)
grad = tape.gradient(loss, image)
opt.apply_gradients([(grad, image)])
image.assign(clip_0_1(image))
train_step(image) ## 1 lépés
train_step(image) ## 2 lépés
train_step(image) ## 3 lépés
train_step(image) ## 4 lépés
train_step(image) ## 5 lépés
tensor_to_image(image) # megjelenítés
import time
start = time.time()
epochs = 5 ## léptető paraméter
steps_per_epoch = 80 ## léptető paraméter
step = 0
for n in range(epochs):
for m in range(steps_per_epoch):
step += 1
train_step(image)
print(".", end='')
display.clear_output(wait=True)
display.display(tensor_to_image(image))
print("Train step: {}".format(step))
end = time.time()
print("Total time: {:.1f}".format(end-start))
Ennek az alapvető megvalósításnak az egyik hátránya, hogy sok magas frekvenciájú művet hoz létre.
Csökkentse ezeket a kép nagyfrekvenciájú összetevőinek kifejezett szabályzási kifejezés használatával.
A stílusátvitel során ezt gyakran így hívják: total variation loss
def high_pass_x_y(image):
x_var = image[:,:,1:,:] - image[:,:,:-1,:]
y_var = image[:,1:,:,:] - image[:,:-1,:,:]
return x_var, y_var
x_deltas, y_deltas = high_pass_x_y(content_image)
plt.figure(figsize=(14,10))
plt.subplot(2,2,1)
imshow(clip_0_1(2*y_deltas+0.5), "Horizontal Deltas: Original")
plt.subplot(2,2,2)
imshow(clip_0_1(2*x_deltas+0.5), "Vertical Deltas: Original")
x_deltas, y_deltas = high_pass_x_y(image)
plt.subplot(2,2,3)
imshow(clip_0_1(2*y_deltas+0.5), "Horizontal Deltas: Styled")
plt.subplot(2,2,4)
imshow(clip_0_1(2*x_deltas+0.5), "Vertical Deltas: Styled")
Ez a magas frekvenciájú elem alapvetõen egy éledetektor is.
Hasonló kimenetet kaphatunk például a Sobel éldetektorról, például:
## plt.figure(figsize=(14,10))
plt.figure(figsize=(10,8))
sobel = tf.image.sobel_edges(content_image)
plt.subplot(1,2,1)
imshow(clip_0_1(sobel[...,0]/4+0.5), "Horizontal Sobel-edges")
plt.subplot(1,2,2)
imshow(clip_0_1(sobel[...,1]/4+0.5), "Vertical Sobel-edges")
def total_variation_loss(image):
x_deltas, y_deltas = high_pass_x_y(image)
return tf.reduce_sum(tf.abs(x_deltas)) + tf.reduce_sum(tf.abs(y_deltas))
total_variation_loss(image).numpy()
tf.image.total_variation(image).numpy()
Válasszon súlyt total_variation_loss
:
total_variation_weight=30
@tf.function()
def train_step(image):
with tf.GradientTape() as tape:
outputs = extractor(image)
loss = style_content_loss(outputs)
loss += total_variation_weight*tf.image.total_variation(image)
grad = tape.gradient(loss, image)
opt.apply_gradients([(grad, image)])
image.assign(clip_0_1(image))
image = tf.Variable(content_image)
import time
start = time.time()
epochs = 6 ##--- 600 ig lépdel
steps_per_epoch = 100
step = 0
for n in range(epochs):
for m in range(steps_per_epoch):
step += 1
train_step(image)
print(".", end='')
display.clear_output(wait=True)
display.display(tensor_to_image(image))
print("Train step: {}".format(step))
end = time.time()
print("Total time: {:.1f}".format(end-start))
file_name = 'stylized-sas.png'
tensor_to_image(image).save(file_name)
try:
from google.colab import files
except ImportError:
pass
else:
files.download(file_name)