大量のデータを処理する場合には,ファイル入出力は欠かせない. まず,ファイルへの文字列の書き込みを説明する.
Pythonでファイルへ書き込む手続きは,大きく分けて
の3段階に別れる.
まず,ファイルを開くには組込み関数openを使う.
test_file = open('test.txt', 'w')
組込み関数openの第1引数は,開くファイルのファイル名である. ファイル名は文字列で指定する. この例ではtest.txtという名前のファイルを開いている.
組込み関数openの第2引数は「どう開くか」の指定である.
この例では,test.txtというファイルに書き込むつもりで開いている. 指定された名前のファイルが存在しないならば,ファイルを開く瞬間に新たにファイルが生成される.
組込み関数openの戻り値はファイルオブジェクトである. ファイルオブジェクトは,大雑把に言えば,ファイルとプログラムをつなぐパイプみたいなものである. パイプの中をデータが流れるとイメージして欲しい.
次に,ファイルオブジェクトのメソッドwriteを使って,ファイルに書き込んでみる.
test_file.write('Hello!')
6
ファイルオブジェクトのメソッドwriteは,ファイルに文字列を書き込む. より正確には,そのファイルオブジェクトに文字列を送る.
メソッドwriteの引数は文字列である. この例ではHello!という文字列を送って(書き込んで)いる.
メソッドwriteの戻り値は,送られた(書き込まれた)文字数である. この戻り値を使う場面は,あまりないかもしれない.
なお,メソッドwriteを使っても,すぐにファイルに書き込まれるとは限らない. 処理速度の向上のため,多くのプログラミング言語では「書き込む文字数がある程度多く溜まったら,まとめて書き込む」という方針を取っている. Pythonもその方針を取っている.
確実にファイルに書き込ませるには,ファイルオブジェクトのメソッドflushを使う.
test_file.flush()
ファイルオブジェクトのメソッドflushは,それまでにファイルオブジェクトに溜められている文字を強制的にファイルに書き込む命令である.
イメージ的には,パイプの中に溜まっているものを押し出すと思ってよい.
ファイルに書き込みたい文字列を全てファイルオブジェクトに送ったら,最後にメソッドcloseでファイルオブジェクトを閉じる.
test_file.close()
ファイルオブジェクトのメソッドcloseはファイルを閉じる.
これでファイルへの文字列の書き込みは完了である. なお,メソッドcloseの直前には必ずflushが行われるので,実はこの例ではflushは必要なかった.
メソッドcloseを使わなくても上手くいく場合も多い. しかし,確実ではないので,必ずcloseを使うことを習慣として欲しい.
実際に文字列Hello!が書き込まれたファイルtest.txtを確認してみよう.
Pythonでファイルから読み込む手続きも,書き込む場合と同様で,大きく分けて
の3段階に別れる.
やはり,ファイルを開くには組込み関数openを使う.
test_file = open('test.txt', 'r')
書き込む場合と同様なので,説明は省略する.
なお,組込み関数openの第2引数は省略可能で,省略すると'r'(すなわち読み込み)と見なされる. 言い換えると,組込み関数openの第2引数のデフォルト値は'r'である.
test_file = open('test.txt') # これでもtest.txtが「読み込みモードで」開かれる.
ファイルから文字列を読み込むメソッドはいろいろあるが,ここでは1行読み込むメソッドreadlineを使う
read_str = test_file.readline()
ファイルオブジェクトのメソッドreadlineの戻り値は,読み込まれた文字列である.
この例では,読み込まれた文字列が変数read_strに代入される.
read_str
'Hello!'
read_strの中身を確認すると,確かに文字列が読み込まれている.
ファイルから読み込みたい文字列をすべて読みこんだら,最後にメソッドcloseでファイルオブジェクトを閉じる.
test_file.close()
これでファイルからの文字列の読み込みは完了である.
ファイルからの読み込みの場合には,ファイルに書かれている文字列の全てを読み込む必要は必ずしもない. 途中でやめても問題ない.
また,ファイルからの読み込みの場合には,closeメソッドを使わなくても不具合は生じにくい. しかし,自分で書いたコードの可読性の維持のためにも,「お行儀よく」必ずcloseを使うことを習慣として欲しい.
ファイルを閉じても,読み込んだ情報が消えるわけではない.
この例では,read_strに代入された値はそのままである.
print(read_str)
Hello!
ここまでは1行の文字列をファイルに書き込んだり,ファイルから読み込んだりするだけであった. これだけでは複数行の文字列のファイルへの書き込み,ファイルからの読み込みはわからないかもしれない. 次に複数行の文字列を扱う.
以下に,2つのファイルtest2.txtとtest3.txtに複数行の文字列を書き込む例を挙げる.
test_file = open('test2.txt', 'w')
test_file.write('Hello!\nPython')
test_file.flush() # 直後にcloseがあるので,この命令はなくても良い.
test_file.close()
test_file = open('test3.txt', 'w')
test_file.write('Hello!\nPython\n')
test_file.flush() # こちらも直後にcloseがあるので,この命令はなくても良い.
test_file.close()
'\n'は改行を表す特殊な文字である.\nで1文字という扱いである.改行文字とよばれる.
この例では,test2.txtというファイルに'Hello!'という行と'Python'という行が書き込まれる. つまり,複数行の文字列は,改行文字で区切られた「1つの文字列」である.
test3.txtにも'Hello!'という行と'Python'という行が書き込まれる. test2.txtとの違いは「最後にも改行文字が入っている」というところだけである.
test2.txtとtest3.txtの2つのファイルをテキストエディターで見て,その内容を確認してみよう.
次に,2行の文字列が書かれているファイルtest2.txtの文字列を読み込んでみる. 複数行の文字列を読む方法はいくつかあるが,まずはファイルオブジェクトのreadlinesというメソッドを使ってみる.
test_file = open('test2.txt', 'r') # この場合は第2引数を省略しても良い.
lines = test_file.readlines()
test_file.close()
print(lines)
['Hello!\n', 'Python']
この例でわかるように,複数行の文字列が書かれているファイル(のファイルオブジェクト)でreadlinesを使うと,各行が要素となった文字列が得られる. あとは,リストに対する操作を駆使して,好きに文字列をいじってほしい.
なお,改行文字は入ったままなので,場合によっては注意が必要である.
念のため,上記リストlineの中身をそれぞれ確認してみる.
lines[0]
'Hello!\n'
lines[1]
'Python'
改行文字が入ったままだと,いろいろ扱いづらい場合も多い. よって,改行文字などを取り除くメソッドも用意されている.
lines[0].rstrip()
'Hello!'
lines[1].rstrip()
'Python'
文字列のメソッドrstrip()は文字列の最後の空白文字(スペース,改行文字,タブ文字など)をすべて除いた文字列を返すメソッドである.
この例でわかるように,もともと最後に空白文字がないならば何もしない.
rstripの類似品にlstripがある. lstripは文字列の最初の空白文字をすべて除いた文字列を返すメソッドである. また,rstripとlstripの両方の仕事を一度にやってくれるstripというメソッドもある.
他にも同様に有用なメソッドはいろいろある. 必要に応じて「Python 文字列 メソッド」で検索すると良い.