import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
chunk_size=5000
batch_no=1
for chunk in pd.read_csv('COVID19.csv',chunksize=chunk_size):
chunk.to_csv('covid_chunk'+str(batch_no)+'.csv',index=False)
batch_no+=1
d=pd.read_csv('covid_chunk1.csv')
d.columns
Index(['ID', 'age', 'sex', 'city', 'province', 'country', 'wuhan(0)_not_wuhan(1)', 'latitude', 'longitude', 'geo_resolution', 'date_onset_symptoms', 'date_admission_hospital', 'date_confirmation', 'symptoms', 'lives_in_Wuhan', 'travel_history_dates', 'travel_history_location', 'reported_market_exposure', 'additional_information', 'chronic_disease_binary', 'chronic_disease', 'source', 'sequence_available', 'outcome', 'date_death_or_discharge', 'notes_for_discussion', 'location', 'admin3', 'admin2', 'admin1', 'country_new', 'admin_id', 'data_moderator_initials', 'Unnamed: 33', 'Unnamed: 34', 'Unnamed: 35', 'Unnamed: 36', 'Unnamed: 37', 'Unnamed: 38', 'Unnamed: 39', 'Unnamed: 40', 'Unnamed: 41', 'Unnamed: 42', 'Unnamed: 43', 'Unnamed: 44'], dtype='object')
d.drop(columns=['travel_history_dates',
'travel_history_location', 'reported_market_exposure','date_onset_symptoms', 'date_admission_hospital', 'date_confirmation',
'symptoms', 'lives_in_Wuhan'],inplace=True)
d['age']=d['age'].astype(str).astype(int)
g = sns.catplot(x='province',y='age',hue='sex',kind='swarm',aspect=0.8,data=d).set_axis_labels('Province patients belong to','Age of patients')
g.set_xticklabels(rotation=90,horizontalalignment='right')
<seaborn.axisgrid.FacetGrid at 0x1dab61c8488>
df['age'].value_counts().sort_index().plot(kind='bar', figsize=(20,10))
<matplotlib.axes._subplots.AxesSubplot at 0x1dab6771c48>
plt.figure(figsize=(15,4))
plt.plot(df['age'].value_counts().sort_index())
[<matplotlib.lines.Line2D at 0x1dab677d988>]
df['age']=pd.to_numeric(df['age'],errors='coerce')
sns.distplot(df['age'],bins=70)
C:\Users\Asus\Anaconda3\lib\site-packages\numpy\lib\histograms.py:824: RuntimeWarning: invalid value encountered in greater_equal keep = (tmp_a >= first_edge) C:\Users\Asus\Anaconda3\lib\site-packages\numpy\lib\histograms.py:825: RuntimeWarning: invalid value encountered in less_equal keep &= (tmp_a <= last_edge) C:\Users\Asus\Anaconda3\lib\site-packages\statsmodels\nonparametric\kde.py:447: RuntimeWarning: invalid value encountered in greater X = X[np.logical_and(X > clip[0], X < clip[1])] # won't work for two columns. C:\Users\Asus\Anaconda3\lib\site-packages\statsmodels\nonparametric\kde.py:447: RuntimeWarning: invalid value encountered in less X = X[np.logical_and(X > clip[0], X < clip[1])] # won't work for two columns.
<matplotlib.axes._subplots.AxesSubplot at 0x1dab6b6cac8>
df2=pd.read_csv('covid_chunk2.csv')
df2
ID | age | sex | city | province | country | wuhan(0)_not_wuhan(1) | latitude | longitude | geo_resolution | ... | Unnamed: 35 | Unnamed: 36 | Unnamed: 37 | Unnamed: 38 | Unnamed: 39 | Unnamed: 40 | Unnamed: 41 | Unnamed: 42 | Unnamed: 43 | Unnamed: 44 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 5070.0 | NaN | NaN | Jiujiang City | Jiangxi | China | 1.0 | 29.32550 | 115.4418 | admin2 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
1 | 5071.0 | NaN | NaN | Jiujiang City | Jiangxi | China | 1.0 | 29.32550 | 115.4418 | admin2 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
2 | 5072.0 | NaN | NaN | Jiujiang City | Jiangxi | China | 1.0 | 29.32550 | 115.4418 | admin2 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
3 | 5073.0 | NaN | NaN | Jiujiang City | Jiangxi | China | 1.0 | 29.32550 | 115.4418 | admin2 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4 | 5074.0 | NaN | NaN | Jiujiang City | Jiangxi | China | 1.0 | 29.32550 | 115.4418 | admin2 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
4995 | 10295.0 | NaN | NaN | Yokohama Port | Kanagawa Prefecture | Japan | 1.0 | 35.45085 | 139.6651 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4996 | 10296.0 | NaN | NaN | Yokohama Port | Kanagawa Prefecture | Japan | 1.0 | 35.45085 | 139.6651 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4997 | 10297.0 | NaN | NaN | Yokohama Port | Kanagawa Prefecture | Japan | 1.0 | 35.45085 | 139.6651 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4998 | 10298.0 | NaN | NaN | Yokohama Port | Kanagawa Prefecture | Japan | 1.0 | 35.45085 | 139.6651 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4999 | 10299.0 | NaN | NaN | Yokohama Port | Kanagawa Prefecture | Japan | 1.0 | 35.45085 | 139.6651 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
5000 rows × 45 columns
df2.dropna()
ID | age | sex | city | province | country | wuhan(0)_not_wuhan(1) | latitude | longitude | geo_resolution | ... | Unnamed: 35 | Unnamed: 36 | Unnamed: 37 | Unnamed: 38 | Unnamed: 39 | Unnamed: 40 | Unnamed: 41 | Unnamed: 42 | Unnamed: 43 | Unnamed: 44 |
---|
0 rows × 45 columns
#df2['age']=pd.to_numeric(df2['age'],errors='coerce')
pd.factorize(df2.age)[0]
array([ 0, 1, 2, ..., -1, -1, -1], dtype=int64)
df2
ID | age | sex | city | province | country | wuhan(0)_not_wuhan(1) | latitude | longitude | geo_resolution | ... | Unnamed: 35 | Unnamed: 36 | Unnamed: 37 | Unnamed: 38 | Unnamed: 39 | Unnamed: 40 | Unnamed: 41 | Unnamed: 42 | Unnamed: 43 | Unnamed: 44 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
924 | 6202.0 | 0.08333 | female | Nanming District, Guiyang City | Guizhou | China | 1.0 | 26.549280 | 106.718700 | admin3 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
1621 | 6899.0 | 0.50000 | male | KK Women’s and Children’s Hospital | NaN | Singapore | 1.0 | 1.310803 | 103.844684 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
696 | 5767.0 | 0.58333 | NaN | NaN | Shanghai | China | 1.0 | 31.204500 | 121.455500 | admin1 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
3627 | 8924.0 | 1.00000 | female | Huating County, Pingliang City | Gansu | China | 1.0 | 35.201980 | 106.599300 | admin3 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
3894 | 9194.0 | 2.00000 | male | Huaxi District, Guiyang City | Guizhou | China | 1.0 | 26.392400 | 106.660300 | admin3 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
4995 | 10295.0 | NaN | NaN | Yokohama Port | Kanagawa Prefecture | Japan | 1.0 | 35.450850 | 139.665100 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4996 | 10296.0 | NaN | NaN | Yokohama Port | Kanagawa Prefecture | Japan | 1.0 | 35.450850 | 139.665100 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4997 | 10297.0 | NaN | NaN | Yokohama Port | Kanagawa Prefecture | Japan | 1.0 | 35.450850 | 139.665100 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4998 | 10298.0 | NaN | NaN | Yokohama Port | Kanagawa Prefecture | Japan | 1.0 | 35.450850 | 139.665100 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4999 | 10299.0 | NaN | NaN | Yokohama Port | Kanagawa Prefecture | Japan | 1.0 | 35.450850 | 139.665100 | point | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
5000 rows × 45 columns
plt.figure(figsize=(15,4))
plt.plot(df2['age'].value_counts().sort_index())
[<matplotlib.lines.Line2D at 0x2fbf4d07e88>]
d.loc[d['age']=='80-89']
C:\Users\Asus\Anaconda3\lib\site-packages\pandas\core\ops\__init__.py:1115: FutureWarning: elementwise comparison failed; returning scalar instead, but in the future will perform elementwise comparison result = method(y)
ID | age | sex | city | province | country | wuhan(0)_not_wuhan(1) | latitude | longitude | geo_resolution |
---|