nofear_bmt

New Member
Download Ebook Phân tích số liệu và biểu đồ bằng R

Download Ebook Phân tích số liệu và biểu đồ bằng R miễn phí





Mục lục
1 Tải R xuống và cài đặt vào máy tính 4
2 Tải R package và cài đặt vào máy tính 6
3 “Văn phạm” R 7
3.1 Cách đặt tên trong R 9
3.2 Hỗtrợtrong R 9
4 Cách nhập dữliệu vào R 10
4.1 Nhập sốliệu trực tiếp: c() 10
4.2 Nhập sốliệu trực tiếp: edit(data.frame()) 12
4.3 Nhập sốliệu từmột text file: read.table 13
4.4 Nhập sốliệu từExcel 14
4.5 Nhập sốliệu từSPSS 15
4.6 Thông tin vềsốliệu 16
4.7 Tạo dãy sốbằng hàm seq, repvà gl17
5 Biên tập sốliệu 19
5.1 Tách rời sốliệu: subset 19
5.2 Chiết sốliệu từmột data .frame 20
5.3 Nhập hai data.frame thành một: merge21
5.4 Biến đổi sốliệu (data coding) 22
5.5 Biến đổi sốliệu bằng cách dùng replace 23
5.6 Biến đổi thành yếu tố(factor) 23
5.7 Phân nhóm sốliệu bằng cut2 (Hmisc) 24
6 Sửdụng R cho tính toán đơn giản 24
6.1 Tính toán đơn giản 24
6.2 Sửdụng R cho các phép tính ma trận 26
7 Sửdụng R cho tính toán xác suất 31
7.1 Phép hoán vị(permutation) 31
7.2 Biến sốngẫu nhiên và hàm phân phối 32
7.3 Biến sốngẫu nhiên và hàm phân phối 32
7.3.1 Hàm phân phối nhịphân (Binomial distribution) 33
7.3.2 Hàm phân phối Poisson (Poisson distribution) 35
7.3.3 Hàm phân phối chuẩn (Normal distribution) 36
7.3.4 Hàm phân phối chuẩn chuẩn hóa (Standardized Normal distribution) 38
7.4 Chọn mẫu ngẫu nhiên (random sampling) 41
8 Biểu đồ42
8.1 Sốliệu cho phân tích biểu đồ42
8.2 Biểu đồcho một biến sốrời rạc (discrete variable): barplot 44
8.3 Biểu đồcho hai biến sốrời rạc (discrete variable): barplot45
8.4 Biểu đồhình tròn 46
8.5 Biểu đồcho một biến sốliên tục: stripchartvà hist47
8.5.1 Stripchart 47
8.5.2 Histogram 48
8.6 Biểu đồhộp (boxplot) 49
8.7 Phân tích biểu đồcho hai biến liên tục 50
8.7.1 Biểu đồtán xạ(scatter plot) 50
8.8 Phân tích Biểu đồcho nhiều biến: pairs53
8.9 Biểu đồvới sai sốchuẩn (standard error) 54
9 Phân tích thống kê mô tả55
9.1 Thống kê mô tả(descriptive statistics, summary) 55
9.2 Thống kê mô tảtheo từng nhóm 60
9.3 Kiểm định t (t.test) 61
9.3.1 Kiểm định t một mẫu 61
9.3.2 Kiểm định t hai mẫu 62
9.4 Kiểm định Wilcoxon cho hai mẫu (wilcox.test) 63
9.5 Kiểm định t cho các biến sốtheo cặp (paired t-test, t.test) 64
9.6 Kiểm định Wilcoxon cho các biến sốtheo cặp (wilcox.test) 65
9.7 Tần số(frequency) 66
9.8 Kiểm định tỉlệ(proportion test, prop.test, binom.test) 67
9.9 So sánh hai tỉlệ(prop.test, binom.test) 68
9.10 So sánh nhiều tỉlệ(prop.test, chisq.test) 69
9.10.1 Kiểm định Chi bình phương (Chi squared test, chisq.test) 70
9.10.2 Kiểm định Fisher (Fisher’s exact test, fisher.test) 71
10 Phân tích hồi qui tuyến tính 71
10.1 Hệsốtương quan 73
10.1.1 Hệsốtương quan Pearson 73
10.1.2 Hệsốtương quan Spearman 74
10.1.3 Hệsốtương quan Kendall 74
10.2 Mô hình của hồi qui tuyến tính đơn giản 75
10.3 Mô hình hồi qui tuyến tính đa biến (multiple linear regression) 82
11 Phân tích phương sai 85
11.1 Phân tích phương sai đơn giản (one-way analysis of variance) 85
11.2 So sánh nhiều nhóm và điều chỉnh trịsốp 87
11.3 Phân tích bằng phương pháp phi tham số90
11.4 Phân tích phương sai hai chiều (two-way ANOVA) 91
12 Phân tích hồi qui logistic 94
12.1 Mô hình hồi qui logistic 95
12.2 Phân tích hồi qui logistic bằng R 97
12.3 Ước tính xác suất bằng R 101
13 Ước tính cỡmẫu (sample size estimation) 103
13.1 Khái niệm về“power” 104
13.2 Sốliệu để ước tính cỡmẫu 106
13.4 Ước tính cỡmẫu 107
13.4.1 Ước tính cỡmẫu cho một chỉsốtrung bình 107
13.4.2 Ước tính cỡmẫu cho so sánh hai sốtrung bình 108
13.4.3 Ước tính cỡmẫu cho phân tích phương sai 110
13.4.4 Ước tính cỡmẫu để ước tính một tỉlệ111
13.4.5 Ước tính cỡmẫu cho so sánh hai tỉlệ112
14 Tài liệu tham khảo 115
15 Thuật ngữdùng trong sách 117



++ Ai muốn tải bản DOC Đầy Đủ thì Trả lời bài viết này, mình sẽ gửi Link download cho!

Tóm tắt nội dung:

3rd Qu.:53.00 3rd Qu.:168.0
Max. :100.00 Max. :34.00 Max. :60.00 Max. :196.0
igfi igfbp3 als pinp ictp
Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn
58
Min. : 85.71 Min. :2.000 Min. :192.7 Min. : 26.74 Min. : 2.697
1st Qu.:137.17 1st Qu.:3.292 1st Qu.:256.8 1st Qu.: 68.10 1st Qu.: 4.878
Median :161.50 Median :3.550 Median :292.5 Median :103.26 Median : 6.338
Mean :165.59 Mean :3.617 Mean :301.8 Mean :167.17 Mean : 7.420
3rd Qu.:186.46 3rd Qu.:3.875 3rd Qu.:331.2 3rd Qu.:196.45 3rd Qu.: 8.423
Max. :427.00 Max. :5.233 Max. :471.7 Max. :742.68 Max. :21.237
p3np
Min. : 2.343
1st Qu.: 4.433
Median : 5.445
Mean : 6.341
3rd Qu.: 7.150
Max. :16.303
R tính toán tất cả các biến số nào có thể tính toán được! Thành ra, ngay cả cột id
(tức mã số của đối tượng nghiên cứu) R cũng tính luôn! (và chúng ta biết kết quả của cột
id chẳng có ý nghĩa thống kê gì). Đối với các biến số mang tính phân loại như sex và
ethnicity (sắc tộc) thì R chỉ báo cáo tần số cho mỗi nhóm.
Kết quả trên cho tất cả đối tượng nghiên cứu. Nếu chúng ta muốn kết quả cho
từng nhóm nam và nữ riêng biệt, hàm by trong R rất hữu dụng. Trong lệnh sau đây,
chúng ta yêu cầu R tóm lược dữ liệu igfdata theo sex.
> by(igfdata, sex, summary)
sex: Female
id sex age weight height
Min. : 1.0 Female:69 Min. :13.00 Min. :41.00 Min. :149.0
1st Qu.:21.0 Male : 0 1st Qu.:17.00 1st Qu.:47.00 1st Qu.:156.0
Median :47.0 Median :19.00 Median :50.00 Median :162.0
Mean :48.2 Mean :19.59 Mean :49.35 Mean :161.9
3rd Qu.:75.0 3rd Qu.:22.00 3rd Qu.:52.00 3rd Qu.:166.0
Max. :99.0 Max. :34.00 Max. :60.00 Max. :196.0
ethnicity igfi igfbp3 als
African : 4 Min. : 85.71 Min. :2.767 Min. :204.3
Asian :43 1st Qu.:136.67 1st Qu.:3.333 1st Qu.:263.8
Caucasian:22 Median :163.33 Median :3.567 Median :302.7
Others : 0 Mean :167.97 Mean :3.695 Mean :311.5
3rd Qu.:186.17 3rd Qu.:3.933 3rd Qu.:361.7
Max. :427.00 Max. :5.233 Max. :471.7
pinp ictp p3np
Min. : 26.74 Min. : 2.697 Min. : 2.343
1st Qu.: 62.75 1st Qu.: 4.717 1st Qu.: 4.337
Median : 78.50 Median : 5.537 Median : 5.143
Mean :108.74 Mean : 6.183 Mean : 5.643
3rd Qu.:115.26 3rd Qu.: 7.320 3rd Qu.: 6.143
Max. :502.05 Max. :13.633 Max. :14.420
------------------------------------------------------------
sex: Male
id sex age weight height
Min. : 2.00 Female: 0 Min. :14.00 Min. :44.00 Min. :155.0
1st Qu.: 34.50 Male :31 1st Qu.:15.00 1st Qu.:48.50 1st Qu.:161.5
Median : 56.00 Median :17.00 Median :51.00 Median :164.0
Mean : 55.61 Mean :18.23 Mean :51.16 Mean :165.6
3rd Qu.: 75.00 3rd Qu.:20.00 3rd Qu.:53.50 3rd Qu.:169.0
Max. :100.00 Max. :27.00 Max. :59.00 Max. :191.0
ethnicity igfi igfbp3 als
Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn
59
African : 4 Min. : 94.67 Min. :2.000 Min. :192.7
Asian :17 1st Qu.:138.67 1st Qu.:3.183 1st Qu.:249.8
Caucasian: 8 Median :160.00 Median :3.500 Median :276.0
Others : 2 Mean :160.29 Mean :3.443 Mean :280.2
3rd Qu.:183.00 3rd Qu.:3.775 3rd Qu.:311.3
Max. :274.00 Max. :4.500 Max. :388.7
pinp ictp p3np
Min. : 56.28 Min. : 3.650 Min. : 3.390
1st Qu.:135.07 1st Qu.: 6.900 1st Qu.: 5.375
Median :245.92 Median : 9.513 Median : 7.140
Mean :297.21 Mean :10.173 Mean : 7.895
3rd Qu.:450.38 3rd Qu.:13.517 3rd Qu.:10.010
Max. :742.68 Max. :21.237 Max. :16.303
Để xem qua phân phối của các hormones và chỉ số sinh hóa cùng một lúc, chúng
ta có thể vẽ đồ thị cho tất cả 6 biến số. Trước hết, chia màn ảnh thành 6 cửa sổ (với 2
dòng và 3 cột); sau đó lần lượt vẽ:
> op <- par(mfrow=c(2,3))
> hist(igfi)
> hist(igfbp3)
> hist(als)
> hist(pinp)
> hist(ictp)
> hist(p3np)
Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn
60
Histogram of igfi
igf i
Fr
eq
ue
nc
y
100 200 300 400
0
10
20
30
40
Histogram of igfbp3
igfbp3
Fr
eq
ue
nc
y
2.0 3.0 4.0 5.0
0
10
20
30
40
Histogram of als
als
Fr
eq
ue
nc
y
150 250 350 450
0
10
20
30
Histogram of pinp
pinp
Fr
eq
ue
nc
y
0 200 400 600 800
0
10
20
30
40
50
Histogram of ictp
ictp
Fr
eq
ue
nc
y
5 10 15 20
0
10
20
30
Histogram of p3np
p3np
Fr
eq
ue
nc
y
5 10 15
0
10
20
30
40
9.2 Thống kê mô tả theo từng nhóm
Nếu chúng ta muốn tính trung bình của một biến số như igfi cho mỗi nhóm nam
và nữ giới, hàm tapply trong R có thể dùng cho việc này:
> tapply(igfi, list(sex), mean)
Female Male
167.9741 160.2903
Trong lệnh trên, igfi là biến số chúng ta cần tính, biến số phân nhóm là sex, và chỉ số
thống kê chúng ta muốn là trung bình (mean). Qua kết quả trên, chúng ta thấy số trung
bình của igfi cho nữ giới (167.97) cao hơn nam giới (160.29).
Nhưng nếu chúng ta muốn tính cho từng giới tính và sắc tộc, chúng ta chỉ cần thêm một
biến số trong hàm list:
> tapply(igfi, list(ethnicity, sex), mean)
Female Male
African 145.1252 120.9168
Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn
61
Asian 165.6589 160.4999
Caucasian 176.6536 169.4790
Others NA 200.5000
Trong kết quả trên, NA có nghĩa là “not available”, tức không có số liệu cho phụ nữ trong
các sắc tộc “others”.
9.3 Kiểm định t (t.test)
Kiểm định t dựa vào giả thiết phân phối chuẩn. Có hai loại kiểm định t: kiểm
định t cho một mẫu (one-sample t-test), và kiểm định t cho hai mẫu (two-sample t-test).
Kiểm định t một mẫu nằm trả lời câu hỏi dữ liệu từ một mẫu có phải thật sự bằng một
thông số nào đó hay không. Còn kiểm định t hai mẫu thì nhằm trả lời câu hỏi hai mẫu có
cùng một luật phân phối, hay cụ thể hơn là hai mẫu có thật sự có cùng trị số trung bình
hay không. tui sẽ lần lượt minh họa hai kiểm định này qua số liệu igfdata trên.
9.3.1 Kiểm định t một mẫu
Ví dụ 10. Qua phân tích trên, chúng ta thấy tuổi trung bình của 100 đối tượng
trong nghiên cứu này là 19.17 tuổi. Chẳng hạn như trong quần thể này, trước đây chúng
ta biết rằng tuổi trung bình là 30 tuổi. Vấn đề đặt ra là có phải mẫu mà chúng ta có được
có thay mặt cho quần thể hay không. Nói cách khác, chúng ta muốn biết giá trị trung bình
19.17 có thật sự khác với giá trị trung bình 30 hay không.
Để trả lời câu hỏi này, chúng ta sử dụng kiểm định t. Theo lí thuyết thống kê,
kiểm định t được định nghĩa bằng công thức sau đây:
/
xt
s n
µ−=
Trong đó, x là giá trị trung bình của mẫu, µ là trung bình theo giả thiết (trong trường
hợp này, 30), s là độ lệch chuẩn, và n là số lượng mẫu (100). Nếu giá trị t cao hơn giá trị
lí thuyết theo phân phối t ở một tiêu chuẩn có ý nghĩa như 5% chẳng hạn thì chúng ta có
lí do để phát biểu khác biệt có ý nghĩa thống kê. Giá trị này cho mẫu 100 có thể tính toán
bằng hàm qt của R như sau:
> qt(0.95, 100)
[1] 1.660234
Nhưng có một cách tính toán nhanh gọn hơn để trả lời câu hỏi trên, bằng cách dùng hàm
t.test như sau:
> t.test(age, mu=30)
One Sample t-test
Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn
62
data: age
t = -27.6563, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 30
95 percent confidence interval:
18.39300 19.94700
sample estimates:
mean of x
19.17
Trong lệnh trên age là biến số chúng ta cần kiểm định, và mu=30 là giá trị giả thiết. R
trình bày trị số t = -27.66, với 99 bậc tự do, và trị số p < 2.2e-16 (tức rất thấp). R
cũng cho biết độ tin cậy 95% của age là từ 18.4 tuổi đến 19.9 tuổi (30 tuổi nằm quá ngoài
khoảng tin cậy này). Nói cách khác, chúng ta có lí do để phát biểu rằng độ tuổi trung
bình trong mẫu này thật sự thấp hơn độ tuổi trung bình của quần thể.
9.3.2 Kiểm định t hai mẫu
Ví dụ 11. Qua phân tích mô tả trên (phầm summary) chúng ta thấy phụ nữ có độ
hormone igfi cao hơn nam giới...
 

daigai

Well-Known Member
Trích dẫn từ levunam90:
cho mình xin tài liệu này nhé bạn. Thank bạn nhiều


Bạn download tại đây nhé
 

Các chủ đề có liên quan khác

Top