from pandas import DataFrame, Series import pandas as pd !cat ch06/ex1.csv df = pd.read_csv('ch06/ex1.csv') pd.read_csv('ch06/ex1.csv', header=None) # 원래 있던 Column명 무시하고 내가 원하는 Column명 설정 pd.read_csv('ch06/ex1.csv', names=[5,6,7,8,9]) pd.read_csv('ch06/ex1.csv', names=['a1', 'b1', 'c1', 'd1', 'message1']) df # csv는 DataFrame으로 읽어온다. type(df) pd.read_table('ch06/ex1.csv', sep=',') pd.read_table('ch06/ex1.csv', sep=',', header=None) !cat ch06/ex2.csv # header 자동 생성 pd.read_csv('ch06/ex2.csv', header=None) # header 옵션이 없을시 header를 첫번째 줄로 이용 pd.read_csv('ch06/ex2.csv') # Column명 추가 pd.read_csv('ch06/ex2.csv', names=['a', 'b', 'c', 'message']) names = ['a', 'b', 'c', 'd', 'message'] pd.read_csv('ch06/ex2.csv', names=names) # message -> index pd.read_csv('ch06/ex2.csv', names=names, index_col='message') pd.read_csv('ch06/ex2.csv', names=names, index_col='a') !cat ch06/csv_mindex.csv parsed = pd.read_csv('ch06/csv_mindex.csv', index_col=['key1', 'key2']) parsed list(open('ch06/ex3.txt')) result = pd.read_table('ch06/ex3.txt', sep='\s+') result pd.read_csv('ch06/ex3.txt', delimiter='\s+') # Read CSV(comma-separated) file into DataFrame pd.read_csv? !cat ch06/ex4.csv pd.read_csv('ch06/ex4.csv', skiprows=[0, 2, 3]) !cat ch06/ex5.csv result = pd.read_csv('ch06/ex5.csv') result pd.isnull(result) result = pd.read_csv('ch06/ex5.csv', na_values=['NULL']) result # world를 NA값으로 처리하니 NaN으로 나온다. # 특정한 값을 NA 처리할 수 있을것 같다. pd.read_csv('ch06/ex5.csv', na_values=['world']) sentinels = {'message': ['foo', 'NA'], 'something': ['two']} pd.read_csv('ch06/ex5.csv', na_values=sentinels) # 이 명령어로 어떤 함수인지, 어떤 파라미터를 넘겨야 하는지 정확히 알 수 있다. # 굳이 명령어들을 따라칠 필요는 없는데 어떤 파라미터들을 넘기는지 한 번 공부하는 겸겸해서 쳐봤다. pd.read_csv? NA REPresentation data.to_csv? data.to_csv(sys.stdout, na_rep='NULL') data.to_csv(sys.stdout, na_rep='NaN') data.to_csv(sys.stdout, index=False, header=False) data.to_csv(sys.stdout, index=False, cols=['a', 'b', 'c']) dates = pd.date_range('1/1/2000', periods=7) ts = Series(np.arange(7), index=dates) ts.to_csv('ch06/tseries.csv') !cat ch06/tseries.csv pd.DataFrame.to_csv? Series.from_csv('ch06/tseries.csv', parse_dates=True) type( Series.from_csv('ch06/tseries.csv', parse_dates=True) ) # parse dates: boolean, default True. # Parse dates. Different default from read_table Series.from_csv? pd.read_csv('ch06/tseries.csv', header=None) type(pd.read_csv('ch06/tseries.csv', header=None)) pd.read_csv? !cat ch06/ex7.csv import csv f = open('ch06/ex7.csv') reader = csv.reader(f) for line in reader: print line lines = list(csv.reader(open('ch06/ex7.csv'))) header, values = lines[0], lines[1:] header values # header = a,b,c # values를 1,1을 같이 묶는다. 2,2 묶고. 3,3 묶고. 4는 header가 a,b,c 3개 밖에 없기 때문에 포함되지 않는다. data_dict = {h: v for h, v in zip(header, zip(*values))} data_dict class my_dialect(csv.Dialect): lineterminator = '\n' delimiter = ';' quotechar = '"' reader = csv.reader reader = csv.reader? reader = csv.reader reader = csv.reader # quoting이 꼭 integer여야 한다는 오류가 발생해서 삽질하다가 뒤에 quoting keyword를 붙여줌.. reader = csv.reader(f, dialect=my_dialect) reader = csv.reader(f, dialect=my_dialect, quoting=csv.QUOTE_NONE) csv.QUOTE_NONE reader = csv.reader(f, delimiter='|') # 어떤 옵션들 있는지 보려고 했더니 안 보여주네... csv.reader?? with open('ch06/mydata.csv', 'w') as f: writer = csv.writer(f, dialect=my_dialect, quoting=csv.QUOTE_NONE) writer.writerow(('one', 'two', 'three')) writer.writerow(('1', '2', '3')) writer.writerow(('4', '5', '6')) writer.writerow(('7', '8', '9')) !cat ch06/mydata.csv # json은 python에서처럼 '으로 하면 안된다. 현재 """로 감싸 문자열로 저장되어 있기 때문에 # javascript에서는 '를 string 값으로 인식하지 않아서 에러 발생 obj = """ { 'name': 'Wes', 'places_lived': ['United States', 'Spain', 'Germany'], 'pet': null, 'siblings': [{'name': 'Scott', 'age':25, 'pet':'Zuko'}, {'name': 'Katie', 'age':33, 'pet': 'Cisco'}] } """ import json # ValueError: Expecting property name: line 3 column 5 (char 7) result = json.loads(obj) obj = """ { "name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age":25, "pet":"Zuko"}, {"name": "Katie", "age":33, "pet": "Cisco"}] } """ obj # ValueError: Expecting property name: line 3 column 5 (char 7) result = json.loads(obj) result asjson = json.dumps(result) # '가 아니라 "인 것을 확인하자 asjson siblings = DataFrame(result['siblings'], columns=['name', 'age']) siblings # 책에 나와있지 않은 내용을 한 번 더 해봐야 쉽게 이해가 되는듯 siblings2 = DataFrame(result['siblings'], columns=['name', 'age', 'pet']) siblings2 from lxml.html import parse from urllib2 import urlopen # 데이터를 가져 올 url을 넘긴 후 # 데이터를 받아 온 후 parse parsed = parse(urlopen('')) doc = parsed.getroot() links = doc.findall('.//a') # 이 객체는 HTML 엘리멘트를 표현하는 객체일뿐 # URL과 링크 이름을 가져오려면 각 엘리먼트에 대해 get 메서드를 호출하여 URL을 얻고 # text_content 메서드를 사용해서 링크 이름을 가져와야 한다. links[15:20] lnk = links[28] lnk lnk.get('href') lnk.text_content() urls = [lnk.get('href') for lnk in doc.findall('.//a')] len(urls) urls[-3:-1] urls[-10:] tables = doc.findall('.//table') tables calls = tables[9] calls puts = tables[13] rows = calls.findall('.//tr') rows def _unpack(row, kind='td'): elts = row.findall('.//%s' % kind) return [val.text_content() for val in elts] _unpack(rows[0], kind='th') _unpack(rows[1], kind='td') from import TextParser def parse_options_data(table): rows = table.findall('.//tr') # rows[0]은 header header = _unpack(rows[0], kind='th') # rows[1:] 부터 실제적인 data data = [_unpack(r) for r in rows[1:]] # TextParser에 data를 넘기고 column명으로 header를 사용 return TextParser(data, names=header).get_chunk() # call option data call_data = parse_options_data(calls) # put option data put_data = parse_options_data(puts) call_data[:10] put_data[:10] %%writefile ch06/Performance_MNR.xml 373889 MEtro-North Railroad Escalator Availability Percent of the time that escalators are operational systemwide. The availability rate is based on physical observations performed the morning of regular business days only. This is a new indicator the agency began reporting in 2009. 2011 12 Service Indicators M U % 1 97.00 97.00 from lxml import objectify import urllib2 path = 'Performance_MNR.xml' # online_path = '' # data = urllib2.urlopen(online_path).read() # f = open(path, 'w') # f.write(data) # f.close() # objectify를 이용해서 파일 파싱 parsed = objectify.parse(open(path)) root = parsed.getroot() data = [] skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ', 'DESIRED_CHANGE', 'DECIMAL_PLACES'] # root.INDICATOR -> root for elt in root: el_data = {} for child in elt.getchildren(): if child.tag in skip_fields: continue el_data[child.tag] = child.pyval data.append(el_data) data # 위의 값과 비교하기 위해 테스트 해본 것 for elt in root: for child in elt.getchildren(): print child.tag, child.pyval perf = DataFrame(data) perf frame = pd.read_csv('ch06/ex1.csv') frame'ch06/frame_pickle') pd.load('ch06/frame_pickle') # 라이브러리 설치해보고 테스트 해보라. store = pd.HDFStore('ch06/mydata.h5') store['obj1'] = frame store['obj1_col'] = frame['a'] store store['obj1'] xls_file = pd.ExcelFile('data.xls') table = xls_file.parse('Sheet1') import requests url = '' resp = requests.get(url) resp resp.text import sqlite3 query = """ CREATE TABLE test (a VARCHAR(20), b VARCHAR(20), c REAL, d INTEGER );""" con = sqlite3.connect(':memory:') con.execute(query) con.commit() data = [('Atlanta', 'Georgia', 1.25, 6), ('Tallahassee', 'Florida', 2.6, 3), ('Sacramento', 'California', 1.7, 5)] stmt = "INSERT INTO test VALUES(?, ?, ?, ?)" con.executemany(stmt, data) con.commit() cursor = con.execute('select * from test') rows = cursor.fetchall() rows cursor.description? cursor.description # cursor.description을 여러개 받아서 0번째 값들을 zip으로 묶는다. zip(*cursor.description)[0] DataFrame(rows, columns=zip(*cursor.description)[0]) DataFrame(rows, columns=zip(*cursor.description)[1]) # readonly attribute 란다. # 난 cursor.description을 수정해서 내가 원하는 컬럼값으로 변경하려고 했는데.. # 그럼 어떻게 변경을 해야하지? cursor.description = '1' # 그냥 column에 내가 쓰고 싶은것 정하면 되네.. DataFrame(rows, columns=['country', 'state', 'grade1', 'grade2']) import as sql sql.read_frame('select * from test', con)