函数の凸性と不等式への応用

黒木玄

2018-06-11

このファイルは次の場所できれいに閲覧できる:

このファイルは Julia Box で利用できる.

自分のパソコンにJulia言語をインストールしたい場合には

を参照せよ.

論理的に完璧な説明をするつもりはない. 細部のいい加減な部分は自分で訂正・修正せよ.

$ \newcommand\eps{\varepsilon} \newcommand\ds{\displaystyle} \newcommand\Z{{\mathbb Z}} \newcommand\R{{\mathbb R}} \newcommand\C{{\mathbb C}} \newcommand\QED{\text{□}} \newcommand\root{\sqrt} \newcommand\bra{\langle} \newcommand\ket{\rangle} $

In [1]:
using Plots
gr(); ENV["PLOTS_TEST"] = "true"
#clibrary(:colorcet)
clibrary(:misc)

function pngplot(P...; kwargs...)
    sleep(0.1)
    pngfile = tempname() * ".png"
    savefig(plot(P...; kwargs...), pngfile)
    showimg("image/png", pngfile)
end
pngplot(; kwargs...) = pngplot(plot!(; kwargs...))

showimg(mime, fn) = open(fn) do f
    base64 = base64encode(f)
    display("text/html", """<img src="data:$mime;base64,$base64">""")
end

using SymPy
#sympy[:init_printing](order="lex") # default
#sympy[:init_printing](order="rev-lex")

using SpecialFunctions
using QuadGK

凸函数の定義

定義: 区間 $I$ 上の実数値函数 $f$ が下に凸な函数であるとは, 任意の $a,b\in I$ と実数 $t$ について,

$$ 0\leqq t\leqq 1 \implies f((1-t)a+tb) \leqq (1-t)f(a)+t f(b) $$

を満たしていることである. 逆向きの不等式で上に凸な函数を定義する. すなわち, 区間 $I$ 上の実数値函数 $f$ が上に凸な函数であるとは, 任意の $a,b\in I$ と実数 $t$ について,

$$ 0\leqq t\leqq 1 \implies f((1-t)a+tb) \geqq (1-t)f(a)+t f(b) $$

を満たしていることである.

In [2]:
# log x は上に凸な函数

x = 0:0.01:2.0
a, b = 0.3, 1.5
f(x) = log(x)
t = 0:0.01:1.0
g(a,b,t) = (1-t)*f(a) + t*f(b)
X(a,b,t) = (1-t)*a + t*b
plot(size=(500,350), legend=:topleft, xlims=(0,2.0), ylims=(-2.0, 0.8))
plot!(x, f.(x), label="y = log x")
plot!(X.(a,b,t), g.(a,b,t), label="")
plot!([a,a], [-10.0, f(a)], label="x = a", ls=:dash)
plot!([b,b], [-10.0, f(b)], label="x = b", ls=:dash)
Out[2]:
0.0 0.5 1.0 1.5 2.0 -2.0 -1.5 -1.0 -0.5 0.0 0.5 y = log x x = a x = b
In [3]:
# e^x は下に凸な函数

x = -1:0.01:2
a, b = -0.3, 1.5
f(x) = e^x
t = 0:0.01:1.0
g(a,b,t) = (1-t)*f(a) + t*f(b)
X(a,b,t) = (1-t)*a + t*b
plot(size=(500,350), legend=:topleft, xlims=(-1,2))
plot!(x, f.(x), label="y = e^x")
plot!(X.(a,b,t), g.(a,b,t), label="")
plot!([a,a], [-0.0, f(a)], label="x = a", ls=:dash)
plot!([b,b], [-0.0, f(b)], label="x = b", ls=:dash)
Out[3]:
-1 0 1 2 0 2 4 6 y = e^x x = a x = b

2階の導函数の符号と函数の凸性

定理: 区間 $I$ 上の実数値函数 $f$ が $C^2$ 級でかつ $I$ 上で $f''\geqq 0$ ならば $f$ は下に凸である. 同様に区間 $I$ 上の実数値函数 $f$ が $C^2$ 級でかつ $I$ 上で $f''\leqq 0$ ならば $f$ は上に凸である.

証明: 前者のみを証明する. 区間 $I$ 上の実数値函数 $f$ が $C^2$ 級でかつ $I$ 上で $f''\geqq 0$ であると仮定する. $a,b\in I$ と仮定し, $c=(1-t)a+tb$ とおく. $0\leqq t\leqq 1$ であると仮定する. $(1-t)f(a)+tf(b)\geqq f(c)$ を示せばよい. $f$ は $C^2$ 級なので Taylor の公式より,

$$ \begin{aligned} & f(a) = f(c) + f'(c)(a-c) + R(a), \\ & f(b) = f(c) + f'(c)(b-c) + R(b), \\ & R(x) = \int_c^x dx_1\int_c^{x_1}dx_2\;f''(x_2). \end{aligned} $$

$f''\geqq 0$ という仮定より, $R(x)\geqq 0$ となることがわかる. その理由は以下の通り.

$F(x)=\int_c^x\;

(1) $x\leqq c$ のとき. 積分 $R(x)$ の中の $x_1$ は $x\leqq x_1\leqq c$ の範囲を動き, そのとき $f''\geqq 0$ より $\ds\int_c^{x_1}dx_2\;f''(x_2)\leqq 0$ となるので,

ゆえに

$$ \begin{aligned} & f(a) \geqq f(c) + f'(c)(a-c), \\ & f(b) \geqq f(c) + f'(c)(b-c). \end{aligned} $$

1つ目の不等式の両辺に $(1-t)$ をかけ, 2つめの不等式の両辺に $t$ をかけると

$$ \begin{aligned} (1-t)f(a) &\geqq (1-t)f(c) + f'(c)((1-t)a-(1-t)c), \\ tf(b) &\geqq tf(c) + f'(c)(tb-tc). \end{aligned} $$

これらをたすと, $c = (1-t)a+tb$ とおいたことより,

$$ \begin{aligned} (1-t)f(a)+tf(b) &\geqq f(c) + f'(c)((1-t)a+tb-c) = f(c). \end{aligned} $$

これで $f$ が下に凸であることが示された. $\QED$

注意: 上の証明の本質はTaylorの公式の剰余項 $R$, $S$ が0以上になることである. $f$ が $C^2$ 級であるという仮定を2回微分可能性の仮定にゆるめても, $c$ と $a$ のあいだのある実数 $\xi$ が存在して,

$$ f(a) = f(c) + f'(c)(a-c) + R, \quad R = \frac{1}{2}f''(\xi)(c-a) $$

となるという形でTaylorの定理が成立している. $f''\geqq 0$ ならば $R\geqq 0$ となる. このことを使えば上の定理で $C^2$ 級の仮定を2回微分可能であるという仮定に弱めることができる. $\QED$

問題: 上と同様にして $f''\leqq 0$ ならば $f$ が上に凸であることの証明を書き下せ. さらに上の定理における $C^2$ 級の仮定を2回微分可能性に弱めた場合の証明も書き下せ. $\QED$

例: $f(x)=e^{ax}$ とおくと $f'(x)=ae^{ax}$, $f''(x)=a^2 e^{ax}\geqq 0$ を満たしているので, $f$ は下に凸な函数である. $\QED$

例: $x>0$ に対して $f(x)=\log x$ とおくと $f'(x)=1/x$, $f''(x)=-1/x^2<0$ なので, $f$ は上に凸な函数である. $\QED$

例題: $a$ は実数であるとし, $x>0$ に対して $f(x)=x^a$ とおく. $f(x)$ は凸性について調べよ.

解答例: $x>0$ であるとする. $f'(x)=ax^{a-1}$, $f''(x)=a(a-1)x^{a-2}$ であり, $x^{a-2}>0$ である. ゆえに, $a(a-1)\geqq 0$ のとき, すなわち $a\leqq 0$ または $1\leqq a$ のとき, $f$ は下に凸になり, $a(a-1)\leqq 0$ のとき, すなわち $0\leqq a\leqq 1$ のとき, $f$ は上に凸になる. $\QED$

Jensenの不等式

期待値汎函数

函数を数に対応させる函数を汎函数 (functional)と呼ぶことがある.

函数の例: $x$ を $x$ に対応させる函数を $x$ と書く.

すべての $x$ を一定の値 $\alpha$ に対応させる函数も同じ記号の $\alpha$ で書き, 定数函数と呼ぶ. $f(x)=\alpha$ とおいて記号 $f$ を利用すると煩雑になるので, 単に $\alpha$ と書いて代用するということである. 数としての $\alpha$ と定数函数としての $\alpha$ を同じ記号で書くので混乱しないように注意して欲しい.

例えば, すべての $x$ を $1$ に対応させる函数も単に $1$ と書く. $\QED$

定義: 函数 $f$ を数 $E[f]$ に対応させる函数 $E[\ ]$ (汎函数)が以下の条件を満たしているとき, $E[\ ]$ は期待値汎函数 (expextation functional)であると言うことにする:

(1) 函数 $f,g$ と数 $\alpha,\beta$ に対して, $E[\alpha f+\beta g]=\alpha E[f]+\beta E[g]$ (線形性).

(2) 函数 $f, g$ のあいだで常に $f\leqq g$ が成立しているならば $E[f]\leqq E[g]$ (単調性).

(3) 定数函数 $\alpha$ について, $E[\alpha]=\alpha$ (規格化条件). $\QED$

例: 区間 $I$ 上の函数を数 $E[f]$ に対応させる函数 $E[\ ]$ を以下のように定めると, $E[\ ]$ は期待値汎函数になる. まず $a_1,\ldots,a_n\in I$ を任意に取る. $w_1,\ldots,w_n$ は0以上の実数でかつ $w_1+\cdots+w_n=1$ を満たしていると仮定する. そして区間 $I$ 上の函数 $f$ に対して

$$ E[f] = \sum_{i=1}^n w_i f(a_i) = w_1 f(a_1)+\cdots+w_n f(a_n) $$

と定める. このようにして定められた $E[\ ]$ が実際に期待値汎函数の性質を満たしていることは以下のようにして確認できる.

(1) 区間 $I$ 上の函数 $f,g$ と数 $\alpha,\beta$ について

$$ \begin{aligned} E[\alpha f+\beta g] &= \sum_{i=1}^n w_i(\alpha f(a_i)+\beta g(a_i)) = \sum_{i=1}^n (\alpha w_i f(a_i)+\beta w_i g(a_i)) \\ &= \alpha\sum_{i=1}^n w_i f(a_i) + \beta\sum_{i=1}^n w_i g(a_i) = \alpha E[f]+\beta E[g]. \end{aligned} $$

(2) 区間 $I$ 上で $f\leqq g$ が成立していると仮定すると, $w_i\geqq 0$ より $w_i f(a_i)\leqq w_i g(a_i)$ も成立するので

$$ E[f] = \sum_{i=1}^n w_i f(a_i) \leqq \sum_{i=1}^n w_i g(a_i) = E[g]. $$

(3) 定数函数 $f(x)=\alpha$ について $f(a_i)=\alpha$ が成立しているので, $w_1+\cdots+w_n=1$ という仮定より,

$$ E[\alpha] = E[f] = \sum_{i=1}^n w_i f(a_i) = \sum_{i=1}^n w_i \alpha = \alpha. $$

これで示すべきことがすべて示された.

特に $w_i=1/n$ であるとき, $E[f]$ は

$$ E[f] = \frac{f(a_1)+\cdots+f(a_n)}{n} $$

と $f(a_i)$ たちの加法平均になる. $\QED$

抽象的な期待値汎函数の概念が難しいと感じる人は, 一般的な期待値汎函数の定義を忘れてこの例の $E[f]$ またはさらにその特別な場合である加法平均の場合のみを考えれば十分である.

問題: $a<b$ であるとする. 閉区間 $I=[a,b]$ 上の連続函数 $f$ を

$$ E[f] = \frac{1}{b-a}\int_a^b f(x)\,dx $$

に対応させる函数 $E[\ ]$ は期待値汎函数であることを示せ. $\QED$

問題: $\R$ 上の函数 $p(x)$ は $p(x)\geqq 0$ ($x\in\R$) と $\int_{-\infty}^\infty p(x)\,dx = 1$ を満たしていると仮定する. (このような $p(x)$ は確率密度函数と呼ばれる.) このとき, $\R$ 上の(適当によい条件を仮定した)函数 $f$ を

$$ E[f] = \int_{-\infty}^\infty f(x)p(x)\,dx $$

に対応させる函数 $E[\ ]$ が期待値汎函数であることを示せ. ($E[f]$ は確率密度函数 $p(x)$ が定める確率分布に関する確率変数 $f$ の期待値と呼ばれる.)

注意: 上の問題はこの問題で

$$ p(x) = \begin{cases} \dfrac{1}{b-a} & (a\leqq x\leqq b) \\ 0 & (\text{それ以外}) \\ \end{cases} $$

とした場合になっている. $\QED$

解答例: 以下では $\int_{-\infty}^\infty$ を $\int$ と略記する.

(1) 数 $\alpha$, $\beta$ と函数 $f$, $g$ について

$$ E[\alpha f+\beta g] = \int(\alpha f(x)+\beta g(x))p(x)\,dx = \alpha\int f(x)p(x)\,dx + \beta\int g(x)p(x)\,dx = \alpha E[f]+\beta E[g]. $$

(2) $\R$ 上で $f\leqq g$ が成立していると仮定すると, $p(x)\geqq 0$ より $f(x)p(x)\leqq g(x)p(x)$ も成立するので

$$ E[f] = \int f(x)p(x)\,dx \leqq \int g(x)p(x)\,dx = E[g]. $$

(3) 定数函数 $f(x)=\alpha$ について, $\int p(x)\,dx=1$ という仮定より,

$$ E[\alpha] = \int \alpha p(x)\,dx = \alpha. $$

これで示すべきことがすべて示された. $\QED$

Jensenの不等式とその証明

Jensenの不等式: $E[\ ]$ は区間 $I$ 上の函数の期待値汎函数であるとし, $f$ は区間 $I$ 上の上に凸(もしくは下に凸)な函数であるとする. このとき

$$ E[f(x)] \leqq f(E[x]) \qquad (\text{もしくは}\ E[f(x)]\geqq f(E[x])). $$

例えば

$$ E[f(x)] = \sum_{i=1}^n w_i f(a_i), \quad w_i\geqq 0, \quad \sum_{i=1}^n w_i = 1 $$

のとき,

$$ \begin{aligned} & w_1 f(a_1) + \cdots + w_n f(a_n) \leqq f(w_1 a_1 + \cdots + w_n a_n) \\ & (\text{もしくは}\ w_1 f(a_1) + \cdots + w_n f(a_n) \geqq f(w_1 a_1 + \cdots + w_n a_n)). \end{aligned} $$

特にこれの $n=2$ の場合には $f$ が上に凸(もしくは下に凸)であることの定義とこれらは同値であることに注意せよ. すなわち, 函数 $f$ がJensenの不等式を満たすことと上(もしくは下)に凸なことは同値になる. この意味でJensenの不等式は函数の凸性を言い換えた結果になっている.

証明: 簡単のため $f$ は $C^1$ 級であると仮定する. ($C^1$ 級でない場合にも同様の方法で証明できるが, 「接線」の存在を別に証明する必要が生じる.)

$f$ は上に凸であると仮定する.

$\mu = E[x]$ とおく. $E[f(x)]\leqq f(\mu)$ を示せばよい. $x=\mu$ における $y=f(x)$ の接線を $y=\alpha(x-\mu)+f(\mu)$ と書く. $f$ は上に凸であると仮定したので

$$ f(x)\leqq \alpha(x-\mu)+f(\mu) $$

が成立している(図を描いてみよ). ゆえに $E[\ ]$ の性質より

$$ E[f(x)]\leqq E[\alpha(x-\mu)+f(\mu)] = \alpha(E[x]-E[\mu]) + E[f(\mu)] = f(\mu). $$

最初の不等号は期待値汎函数の単調性より, 1つ目の等号は線形性より, 2つ目の等号は規格化条件より. これで示すべきことがすべて示された. $\QED$

In [4]:
x = 0:0.01:2.0
μ = 0.7
f(x) = log(x)
g(μ,x) = (1/μ)*(x-μ) + f(μ)
plot(size=(500,350), legend=:topleft, xlims=(0,1.7), ylims=(-2.2, 0.8))
plot!(x, f.(x), label="y = log x")
plot!(x, g.(μ,x), label="y = a(x-mu)+f(mu)")
plot!([μ, μ], [-3.0, f(μ)], label="x=mu", ls=:dash)
Out[4]:
0.0 0.5 1.0 1.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 y = log x y = a(x-mu)+f(mu) x=mu

問題: 上に凸な函数 $f(x)$ と

$$ E[g(x)] = w_1 g(a_1)+\cdots+w_n g(a_n), \quad w_i\geqq 0, \quad w_1+\cdots+w_n=1 $$

に関するJensenの不等式

$$ w_1 f(a_1)+\cdots + w_n f(a_n) \leqq f(w_1 a_1 +\cdots+ w_n a_n) \tag{$*$} $$

を $n$ に関する数学的帰納法を用いて直接証明せよ.

解答例: $n=1$ のとき, ($*$) は $f(a_1)\leqq f(a_1)$ を意味するので, 自明に正しい.

$n=N\geqq 1$ に関する ($*$) が常に成立していると仮定し(帰納法の仮定),

$$ w_i \geqq 0, \quad w_1+\cdots+w_N+w_{N+1} = 1 $$

と仮定する. もしも $w_{N+1}=1$ ならば $n=N+1$ の場合の ($*$) は自明に成立している. 以下では $w_{N+1}<1$ と仮定し,

$$ t_i = \frac{w_i}{1-w_{N+1}} $$

とおく. このとき, $w_i\geqq 0$, $w_1+\cdots+w_N=1-w_{N+1}$ より,

$$ t_i \geqq 0, \quad t_1+\cdots+t_N = \frac{w_1+\cdots+w_N}{1-w_{N+1}} = 1. $$

したがって, $n=N$ の場合の($*$)より,

$$ t_1 f(a_1)+\cdots+t_N f(a_N) \leqq f(t_1 a_1+\cdots+t_N a_N). $$

$f$ は上に凸と仮定してあったので, $w_i=(1-w_{N+1})t_i$ を使うと,

$$ \begin{aligned} w_1 f(a_1)+\cdots+w_N f(a_N)+w_{N+1}f(a_{N+1}) &= (1-w_{N+1})(t_1 f(a_1)+\cdots+t_N f(a_N))+w_{N+1}f(a_{N+1}) \\ &\leqq (1-w_{N+1})f(t_1 a_1+\cdots+t_N a_N) + w_{N+1} f(a_{N+1}) \\ &\leqq f((1-w_{N+1})(t_1 a_1+\cdots+t_N a_N)+w_{N+1} a_{N+1}) \\ &= f(w_1 a_1+\cdots+w_N a_N+w_{N+1} a_{N+1}) . \end{aligned} $$

ここで, 2行目で $n=N$ の場合の($*$)を使い, 3行目で $f$ が上に凸であることを使った.

ゆえに数学的帰納法によってすべての $n$ について ($*$) が成立する. $\QED$

相加相乗平均の不等式

例: $a_i>0$ であるとし,

$$ E[f(x)] = \frac{f(a_1)+\cdots+f(a_n)}{n} $$

とおく. $x>0$ に対して $f(x)=\log x$ とおく. このとき, $f(x)=\log x$ は下に凸なので, Jensenの不等式より $E[f(x)] \leqq f(E[x])$. そして,

$$ E[f(x)] = \frac{\log a_1+\cdots+\log a_n}{n} = \log(a_1\cdots a_n)^{1/n}, \quad f(E[x]) = \log\frac{a_1+\cdots+a_n}{n} $$

なので, $\log$ の単調増加性より,

$$ (a_1\cdots a_n)^{1/n} \leqq \frac{a_1+\cdots+a_n}{n}. $$

これでJensenの不等式が相加相乗平均の不等式を含んでいることがわかった. $\QED$

例題: 下に凸な函数 $f(x)=e^x$ に関するJensenの不等式を用いて相加相乗平均の不等式を証明し直せ.

解答例: $a_i>0$ であるとし, $A_i=\log a_i$, $\ds E[f(x)] = \frac{f(A_1)+\cdots+f(A_n)}{n}$ とおくと, $f(x)=e^x$ のとき

$$ \begin{aligned} & E[f(x)] = E[e^x] = \frac{e^{A_1}+\cdots+e^{A_n}}{n} = \frac{a_1+\cdots+a_n}{n}, \\ & f(E[x]) = e^{(A_1+\cdots+A_n)/n} = \left(e^{A_1}\cdots e^{A_n}\right)^{1/n} = (a_1\cdots a_n)^{1/n}. \end{aligned} $$

下に凸な函数 $f(x)=e^x$ に関するJensenの不等式 $E[f(x)] \geqq f(E[x])$ より,

$$ \frac{a_1+\cdots+a_n}{n} \geqq (a_1\cdots a_n)^{1/n}. $$

これで示すべきことが示された. $\QED$

Youngの不等式

Youngの不等式の一般化: $p_i>0$, $\ds\frac{1}{p_1}+\cdots+\frac{1}{p_n}=1$, $a_i>0$ のとき

$$ a_1\cdots a_n \leqq \frac{a_1^{p_1}}{p_1}+\cdots+\frac{a_n^{p_n}}{p_n} $$

$n=2$ の場合をYoungの不等式と呼ぶ. すなわち $p>0$, $q>0$, $\ds\frac{1}{p}+\frac{1}{q}=1$, $a>0$, $b>0$ のときの

$$ ab \leqq \frac{a^p}{p} + \frac{b^q}{q} $$

という不等式をYoungの不等式と呼ぶ.

証明: 上に凸な函数 $f(x)=\log x$ に関するJensenの不等式より

$$ \log(a_1\cdots a_n) = \frac{\log a_1^{p_1}}{p_1} + \cdots + \frac{\log a_n^{p_n}}{p_n} \leqq \log\left(\frac{a_1^{p_1}}{p_1}+\cdots+\frac{a_n^{p_n}}{p_n}\right) $$

ゆえに

$$ a_1\cdots a_n \leqq \frac{a_1^{p_1}}{p_1}+\cdots+\frac{a_n^{p_n}}{p_n} \qquad \QED $$

問題: $a,b>0$, $p,q>0$, $\ds\frac{1}{p}+\frac{1}{q}=1$ のとき

$$ ab \leqq \frac{a^p}{p} + \frac{b^p}{q} $$

となること(つまりYoungの不等式)を直接的に証明してみよ.

解答例1: $f(x)=\log x$ が上に凸であることより, $A,B>0$ について

$$ \frac{1}{p}\log A + \frac{1}{q}\log B\leqq \log\left(\frac{A}{p}+\frac{B}{q}\right). $$

ゆえに $A=a^p$, $B=b^q$ とおくと,

$$ \log(ab) = \frac{1}{p}\log a^p + \frac{1}{q}\log b^q\leqq \log\left(\frac{a^p}{p}+\frac{b^q}{q}\right). $$

したがって,

$$ ab \leqq \frac{a^p}{p} + \frac{b^p}{q}. \qquad \QED $$

解答例2: $f(x)=e^x$ が下に凸であることより, 実数 $A,B$ について

$$ \frac{1}{p}e^A + \frac{1}{q}e^B \geqq e^{A/p+B/q} = e^{A/p} e^{B/q}. $$

ゆえに $A=\log a^p$, $B=\log b^q$ とおくと,

$$ \frac{a^p}{p}+\frac{b^q}{q} \geqq ab. \qquad \QED $$

解答例3: $f(x)$ は $x\geqq 0$ の狭義単調増加連続函数で $f(0)=0$ を満たすものであるとし,

$$ X = \{\,(x,y)\mid 0\leqq x\leqq a,\ 0\leqq y\leqq f(x)\,\}, \quad Y = \{\,(x,y)\mid 0\leqq x\leqq f^{-1}(y),\ 0\leqq y\leqq b\,\} $$

とおくと, $[0,a]\times[0,b]\subset X\cup Y$ となるので(図を描いてみよ), 面積を比較することによって

$$ ab \leqq \int_0^a f(x)\,dx + \int_0^b f^{-1}(y)\,dy. \tag{$\star$} $$

$f(x)=x^{p-1}$ とおくと,

$$ \frac{1}{p}+\frac{1}{q}=1 \iff (p-1)(q-1)=1 $$

より, $f^{-1}(y)=y^{1/(p-1)}=y^{q-1}$ となることがわかる. これに上の不等式を適用すると

$$ ab \leqq \frac{a^p}{p} + \frac{b^p}{q} $$

が得られる. $\QED$

注意: $a^{p-1}=b$ ならば ($\star$) で等号が成立する.

$$ \frac{1}{p}+\frac{1}{q}=1 \iff (p-1)(q-1)=1 \iff (p-1)q = p $$

なので $a^{p-1}=b$ と $a^p = b^q$ は同値である(前者の両辺を $q$ 乗すると後者になる). $\QED$

In [5]:
function plot_Young(a, b; p=2.5, kwarg...)
    q = p/(p-1)
    f(x) = x^(p-1)
    g(y) = y^(q-1)
    A = max(a, g(b))
    x = 0:a/200:a
    y = 0:b/200:b
    x1 = 0:A/200:A
    P = plot(legend=false; kwarg...)
    plot!([a,a], [0,b], color=:black)
    plot!([0,a], [b,b], color=:black)
    plot!(x, f.(x), color=:red, fill=(0, 0.5, :pink))
    plot!(x1, f.(x1), color=:red, fill=(b, 0.5, :pink))
    if A > a
        x2 = a:(A-a)/200:A
        plot!(x2, f.(x2), color=:red, fill=(b, 0.5, :pink))
    end
    P
end

P1 = plot_Young(3,2)
P2 = plot_Young(2,5)
plot(P1, P2, size=(600, 300))
Out[5]:
0 1 2 3 0 1 2 3 4 5 0.0 0.5 1.0 1.5 2.0 2.5 0 1 2 3 4 5

Hölderの不等式

$L^p$ ノルム

区間 $[a,b]$ 乗の連続函数 $f$ に対して $\|f\|_p$ を

$$ \|f\|_p = \left(\int_a^b \left|f(x)\right|^p\,dx\right)^{1/p} $$

と定める. これを函数 $f$ の $L^p$ ノルムと呼ぶ.

問題: 定数 $\alpha$ について $\left\|\alpha f\right\|_p=|\alpha|\left\|f\right\|_p$ が成立していることを示せ.

解答例: $$ \|\alpha f\|_p = \left(\int_a^b \left|\alpha f(x)\right|^p\,dx\right)^{1/p} = \left(\left|\alpha\right|^p \int_a^b \left|f(x)\right|^p\,dx\right)^{1/p} = \left|\alpha\right| \left(\int_a^b \left|f(x)\right|^p\,dx\right)^{1/p} = |\alpha|\|f\|_p. \qquad \QED $$

注意: 上の問題の結果より, 特に $g=\dfrac{f}{\|f\|_p}$ とおくと $\|g\|_p=1$ となることがわかる. $\QED$

一般化されたヘルダーの不等式

$p > 0$, $p_i > 0$ であるとし,

$$ \frac{1}{p_1} + \cdots + \frac{1}{p_n} = \frac{1}{p} $$

と仮定する. このとき, 区間 $[a,b]$ 上の連続函数 $f_i$ 達について

$$ \|f_1\cdots f_n\|_p \leqq \|f_1\|_{p_1}\cdots\|f_n\|_{p_n} \tag{$*$} $$

が成立する. これを一般化されたヘルダーの不等式と呼ぶことにする. $n=2$, $p=1$ の場合はヘルダーの不等式と呼ばれる. すなわち, $p>0$, $q>0$ かつ

$$ \frac{1}{p}+\frac{1}{q}=1 $$

のときの

$$ \|fg\|_1 \leqq \|f\|_p \|g\|_q $$

という不等式はヘルダーの不等式と呼ばれる. さらにこれの $p=q=2$ の場合はCauchy-Schwarzの不等式の特別な場合である.

一般化されたヘルダーの不等式の証明の概略: $g_i(x) = \dfrac{f_i(x)}{\|f_i\|_{p_i}}$ とおく. そのとき $\|g_i\|_{p_i}=1$ となる.

$\ds\frac{1}{p_1} + \cdots + \frac{1}{p_n} = \frac{1}{p}$ は $\ds\frac{p}{p_1} + \cdots + \frac{p}{p_n} = 1$ と同値なので, $q_i=p_i/p$ とおくと,

$$ q_i>0, \quad p q_i = p_i, \quad \frac{1}{q_1}+\cdots+\frac{1}{q_n} = 1. $$

ゆえに $a_i = |g_i(x)|^p$ にYoungの不等式の一般化を適用することによって,

$$ |g_1(x)\cdots g_n(x)|^p = |g_1(x)|^p\cdots|g_n(x)|^p \leqq \frac{|g_1(x)|^{pq_1}}{q_1}+\cdots+\frac{|g_n(x)|^{pq_n}}{q_n} = \frac{|g_1(x)|^{p_1}}{q_1}+\cdots+\frac{|g_n(x)|^{p_n}}{q_n}. $$

これを $x$ で積分すると,

$$ (\|g_1\cdots g_n\|_p)^p \leqq \frac{(\|g_1(x)\|_{p_1})^{p_1}}{q_1}+\cdots+\frac{(\|g_n(x)\|_{p_n})^{p_n}}{q_n} = \frac{1}{q_1}+\cdots+\frac{1}{q_n}=1. $$

ゆえに,

$$ \frac{\|f_1\cdots f_n\|_p}{\|f_1\|_{p_1}\cdots\|f_n\|_{p_n}} = \|g_1\cdots g_n\|_p\leqq 1. $$.

したがって,

$$ \|f_1\cdots f_n\|_p\leqq \|f_1\|_{p_1}\cdots\|f_n\|_{p_n}. \qquad\QED $$

問題: (一般化されていない)Youngの不等式から(一般化されていない)ヘルダーの不等式を導け.

解答例の概略: $p,q>0$, $\ds\frac{1}{p}+\frac{1}{q}=1$ と仮定する.

$$ \|fg\|_1 \leqq \|f\|_p \|g\|_q $$

を証明したい. 左辺を右辺で割ったものが $1$ 以下になることを示せばよい.

$$ a(x) = \frac{|f(x)|}{\|f\|_p}, \quad b(x) = \frac{|g(x)|}{\|g\|_q} $$

とおくと, $\|a\|_p=\|b\|_q=1$ となる. $a(x)$, $b(x)$ にYoungの不等式を適用すると,

$$ a(x)b(x) \leqq \frac{a(x)^p}{p} + \frac{b(x)^q}{q}. $$

両辺を $x$ について積分すると,

$$ \begin{aligned} & \int_a^b a(x)b(x)\,dx = \|ab\|_1 = \frac{\|fg\|_1}{\|f\|_p \|g\|_q}, \\ & \int_a^b \left(\frac{a(x)^p}{p} + \frac{b(x)^q}{q}\right)\,dx = \frac{(\|a\|_p)^p}{p}+\frac{(\|b\|_q)^q}{q} = \frac{1}{p}+\frac{1}{q} = 1. \end{aligned} $$

ゆえに

$$ \frac{\|fg\|_1}{\|f\|_p \|g\|_q} \leqq 1. $$

これより, ヘルダーの不等式が成立することがわかる. $\QED$

分配函数の対数凸性

問題: $a<b$ と仮定する. $Z(\beta)=\int_a^b e^{-\beta f(x)+g(x)}\,dx$ の形の函数 $Z(\beta)$ について, $\log Z(\beta)$ が $\beta$ の下に凸な函数になることをヘルダーの不等式を使って示せ.

解答例: $0<t<1$ であるとし, $p=1/(1-t)$, $q=1/t$ とおく. そのとき $\ds\frac{1}{p}+\frac{1}{q}=1$ となる. ゆえにヘルダーの不等式より,

$$ \begin{aligned} Z((1-t)\alpha+t\beta) &= Z\left(\frac{\alpha}{p}+\frac{\beta}{q}\right) = \int_a^b e^{-(\alpha/p+\beta/q)f(x)+(1/p+1/q)g(x)}\,dx = \int_a^b \left(e^{-\alpha f(x)+g(x)}\right)^{1/p} \left(e^{-\beta f(x)+g(x)}\right)^{1/q}\,dx \\ &\leqq \left(\int_a^b e^{-\alpha f(x)+g(x)}\,dx\right)^{1/p} \left(\int_a^b e^{-\beta f(x)+g(x)}\,dx\right)^{1/q} \\ &= Z(\alpha)^{1/p}\, Z(\beta)^{1/q} = Z(\alpha)^{1-t}\; Z(\beta)^t. \end{aligned} $$

ゆえに

$$ \log Z((1-t)\alpha+t\beta) \leqq (1-t)\log Z(\alpha) + t\log Z(\beta). $$

これは $\log Z(\beta)$ が $\beta$ に関する下に凸な函数であることを意味している. $\QED$

注意: 上の問題の $Z(\beta)$ の形の函数を分配函数と呼ぶことがある(統計力学). 上の問題より, ヘルダーの不等式は分配函数の対数が下に凸な函数になることを意味していることがわかる. $\QED$

例(ガンマ函数の対数凸性): $s>0$ に対して $\Gamma(s) = \int_0^\infty e^{-x} x^{s-1}\,dx = \int_0^\infty e^{(s-1)\log x-x}\,dx$ とおくと, その対数 $\log\Gamma(s)$ は $s>0$ の下に凸な函数になる. $\QED$

注意: 上の問題の記号のもとで, 函数 $h(x)$ に対する $\bra h(x)\ket=\bra h(y)\ket$ を次のように定める:

$$ \bra h(x)\ket = \frac{1}{Z(\beta)}\int_a^b h(x) e^{-\beta f(x)+g(x)}\,dx, \quad \bra h(y)\ket = \frac{1}{Z(\beta)}\int_a^b h(y) e^{-\beta f(y)+g(y)}\,dy. $$

さらに函数 $h(x,y)$ に対する $\bra h(x,y)\ket$ を次のように定める:

$$ \bra h(x,y)\ket = \frac{1}{Z(\beta)^2}\int_a^b\int_a^b h(x,y) e^{-\beta f(x)+g(x)}e^{-\beta f(y)+g(y)}\,dx\,dy. $$

このとき $\bra f(x)\ket^2=\bra f(x)f(y)\ket$ などが成立している.

もしも上の問題の $Z(\beta)$ が $\beta$ について2回微分可能でかつ微分と積分の順序交換を自由にできるならば

$$ \begin{aligned} & -\frac{d}{d\beta}\log Z(\beta) = \frac{\int_a^b e^{-\beta f(x)+g(x)}f(x)\,dx}{Z(\beta)} = \bra f(x)\ket, \\ & \frac{d^2}{d\beta^2}\log Z(\beta) = \bra f(x)^2\ket - \bra f(x)\ket^2 = \bra f(x)f(x)\ket - \bra f(x)f(y)\ket \\ &\qquad= \frac{1}{2}(\bra f(x)f(x)\ket - 2\bra f(x)f(y)\ket + \bra f(y)f(y)\ket) = \frac{1}{2}\bra (f(x)+f(y))^2\ket \geqq 0. \end{aligned} $$

これからも, $\log Z(\beta)$ が下に凸な函数であることがわかる. $\QED$

Minkowskiの不等式

$L^1$ ノルムについては, 三角不等式 $|f(x)+g(x)|\leqq |f(x)|+|g(x)|$ より,

$$ \|f+g\|_1 = \int_a^b |f(x)+g(x)|\,dx \leqq \int_a^b(|f(x)|+|g(x)|)\,dx = \|f\|_1 + \|g\|_1 $$

が成立している. この $L^1$ ノルムに関する三角不等式はそのまま $L^p$ ノルム($p>1$)に一般化される.

$p>1$ であると仮定する. $q=\dfrac{p}{p-1}$ とおくと, $\ds\frac{1}{p}+\frac{1}{q}=1$. このとき,

$$ \left\|\,\left|\varphi\right|^{p-1}\right\|_q= \left\|\,\left|\varphi\right|^{p-1}\right\|_{p/(p-1)}= \left(\int_a^b \left|\varphi(x)\right|^p\,dx\right)^{(p-1)/p}= (\|\varphi\|_p)^{p-1}. $$

これを $\varphi=f+g$ に適用することによって,

$$ \begin{aligned} (\|f+g\|_p)^p &= \int_a^b \left|f(x)+g(x)\right|^p\,dx = \int_a^b \left|f(x)+g(x)\right|\left|f(x)+g(x)\right|^{p-1}\,dx \\ &\leqq \int_a^b \left|f(x)\right| \left|f(x)+g(x)\right|^{p-1}\,dx + \int_a^b \left|g(x)\right| \left|f(x)+g(x)\right|^{p-1}\,dx \\ &\leqq \|f\|_p \left\|\left|f(x)+g(x)\right|^{p-1}\right\|_q + \|g\|_p \left\|\left|f(x)+g(x)\right|^{p-1}\right\|_q \\ &= \|f\|_p (\|f(x)+g(x)\|_p)^{p-1} + \|g\|_p (\|f(x)+g(x)\|_p)^{p-1} \\ &= (\|f\|_p+\|g\|_p) (\|f(x)+g(x)\|_p)^{p-1} \end{aligned} $$

ここで, 2行目の不等号で三角不等式 $|f(x)+g(x)|\leqq |f(x)|+|g(x)|$ を使い, 3行目の不等号でヘルダーの不等式を使った. したがって,

$$ \|f+g\|_p \leqq \|f\|_p+\|g\|_p. $$

これをMinkowskiの不等式と呼ぶ.