Gow

New Member

Download miễn phí Luận văn Từ điển Việt-Nhật





MỤC LỤC
----------
NỘI DUNG TRANG
PHẦN 0: MỞ ĐẦU 3
 
PHẦN 1: TỔNG QUAN
I. Khái quát 4
II. Phạm vi sử dụng 4
III. Người sử dụng 4
IV. Nhiệm vụ 4
 
PHẦN 2 : QUÁ TRÌNH PHÁT TRIỂN VÀ ĐẶC ĐIỂM CỦA NHẬT NGỮ.
I. Sự du nhập chữ Hán vào Nhật Bản 6
II. Hoàn cảnh ra đời hệ chữ Kana 7
III. Quá trình phát triển của hệ chữ Kana 9
IV. Đặc điểm của hệ chữ Kana 11
V. Chữ Hiragana 11
1. Nguồn gốc chữ Hiragana 11
2. Phạm vi sử dụng 12
3. Bảng ký tự Hiragana 13
4. Âm hữu thanh 13
5. Ảo âm 14
6. Nguyên âm 14
7. Xúc âm 15
VI. Chữ Katakana 15
1. Nguồn gốc hình thành chữ Katakana 15
2. Phạm vi sử dụng 16
3. Cách viết chữ Katakana 18
4. Việc ký âm các từ vay mượn từ tiếng nước ngoài 19
VII. Các kiểu chữ khác trong Nhật Ngữ. 20
VIII. Các dấu câu trong Nhật ngữ. 20
 
PHẦN 3 : NHẬT NGỮ TRONG TIN HỌC
I. Quá trình phát triển font chữ 2 byte. 21
1. Bộ kí tự tiếng Nhật 21
2. ASCII và Katakana 22
3. 7 bit JIS 23
4. 8 bit JIS 23
5. Sự phát triển của bộ kí tự Kanji 24
6. Bộ ký tự 2 byte (DBCS) 25
7. Sự chuyển đổi giữa SBCS và DBCS 26
8. Shift JIS and JIS 26
9. Unicode và ISO 106-46 27
 
II. Các phần mềm hỗ trợ việc nhập chữ Kana và Kanji 28
1. IME (Input Method Editor) 29
2. TwinBridge 35
3. Kết luận 41
 
PHẦN 4 : TÌM HIỂU CÁC CÔNG CỤ HỖ TRỢ CHO PHÁT ÂM
I. Tìm hiểu về Microftsoft Agent 40
1. Microsoft Agent là gì ? 40
2. Cấu hình yêu cầu. 41
3. Cài đặt Microsoft Agent 41
4. Lập trình với Microsoft Agent . 42
5. Cửa sổ các lệnh phát âm (Voice Commands Window). 43
6. Cửa sổ các chức năng hỗ trợ cho đối tượng (Advanced Character Options Window). 44
7. Ví dụ về MS Agent 45
8. .Kết luận 47
 
II. Tìm hiểu về công cụ Microsoft Linguistic Information Sound Editing 47
1. Cài đặt trình soạn thảo âm thanh 47
2. Tạo mới một tập tin âm thanh 48
3. Tạo thông tin cho ngôn ngữ 48
4. Lưu tập tin âm thanh 49
 
5. Sử dụng Editor cho Speech Engine khác. 50
6. Kết luật 51
 
PHẦN 5 : TÌM HIỂU MỘT SỐ TỪ ĐIỂN ĐÃ CÓ.
I. Từ điển EDICT 52
II. Từ điển JEDICT 54
III. Từ điển Babylon 57
IV. Kết luận 60
 
PHẦN 6 : XÂY DỰNG ỨNG DỤNG MINH HỌA TỪ ĐIỂN VIỆT NHẬT
I. Yêu cầu chung 61
II. Phân tích yêu cầu 61
1. Lựa chọn DBMS và ngôn ngữ lập trình 61
2. Các yêu cầu của đề tài và cách giải quyết 63
3. Thông tin cần lưu trữ 64
III. Các công cụ, phần mềm cài đặt cho chương trình 64
IV. Các lưu đồ
1. Lưu đồ tìm kiếm 65
2. Lưu đồ phát âm 66
V. Các giao diện
1. Màn hình chính 67
2. Màn hình điều chỉnh giọng nói 68
3. Màn hình tra cứu ký tự Kanji 69
4. Bàn phím nhập các ký tự tiếng Việt 69
 
PHẦN 7 : TỔNG KẾT
I. KẾT LUẬN 70
II. HƯỚNG PHÁT TRIỂN 70
 
 



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

t (KO), ở 0E Hex) được dùng để thay đổi giữa bảng mã ASCII va Katakana.
Điều này có nghĩa là ban đầu hệ thống in các ký tự ASCII cho tới khi nó chạy trên SO thì tất cả các ký tự sau đó được in ra là ký tự Katakana. Nó ngừng khi hệ thống tìm ra được ký tự SI, đó là sự chuyển đổi từ chế độ Katakana sang chế độ ASCII. Việc sử dụng một ký tự SI và một ký tự SO để chuyển đổi giữa 2 bảng mã đã xảy ra một số vấn đề, vấn đề này sẽ được đề cập ở phần sau.
8 bit JIS
Vấn đề xảy này không xảy ra khi hệ thống của bạn có thể sử dụng phiên bản 8 bit của JIS X0201- 1989. Trong trường hơp này hệ thống phải có thể làm việc với những ký tự 8 bit (được gọi là 8 bit clean, mà nó thì thường có thể không xảy ra, trong những bổ sung mới nhất của UNIX, thỉnh thoảng chúng được sử dụng bit cao nhất là một bit chẵn lẻ).
Với phiên bản 8 bit bạn không phải dùng kí tự SI và SO để chuyển đổi giữa bảng mã ASCII và Katakana. Ký tự Katakana được định vị ở vùng trên 7F Hex ( vùng không dùng đến). Việc sử dụng vùng này đã nảy sinh một số vấn đề khi bạn làm việc với phầm mềm máy tính PC IBC cũ của Mỹ chẳng hạn, ở máy PC IBM có một bảng mã hoàn toàn khác trong vùng từ 7F Hex đến FF Hex. Nếu bạn bắt đầu dùng phầm mềm nước ngoài thì có thể xảy ra một màn hình nền trông rất tức cười bởi vì có sự xuất hiện của những ký tự Katakana đã được thay thế mà không có luật lệ nào cả. Kết quả là bảng mã ASCII gần như không tương thích.
Ở phiên bản 8 bit, vùng dưới 7F Hex gần như tương thích. Chỉ khác là nó làm cho một số các ký tự chỉ gần như tương thích như là có dấu \ (5C Hex) thay thế cho ký tự yên và dấu “ (7Fhex) được thay thế bằng dấu (-). Còn tất cả các ký tự khác thì đúng với ASCII tương ứng.
Những ký tự Katakana có cùng kích thước với kí tư ASCII này được gọi là Half-Width Katakana (trong Japanese Hankaku). Điều này vẫn chưa là giải pháp thõa mãn cho những người sử dụng máy tính tiếng Nhật trước đây. Sự thiếu các ký tự Kanji là một điều quan trọng làm cho họ bắt đầu nghĩ đến cách để tích hợp các ký tự Kanji vào hệ thống máy tính.
Sự phát triển của bộ kí tự Kanji
Để hiểu về quá trình phát triển của bảng mã Kanji chúng ta phải xem bộ ký tự non-electric mà đang được dùng để định nghĩa cho JIS C6226-1978 đang đi theo hướng JIS X0208-1990, là chuẩn hiện nay.
Nhật ngữ có khoảng 40000 đến 60000 chữ Kanji được biết. Vấn đề là không ai có thể nhớ được tất cả chúng. Bộ Giáo Dục đã bắt đầu giới hạn số lượng chữ Kanji được dùng trong giáo dục. Ngày nay một sinh viên Nhật học khoảng 2000 chữ Kanji.
Lịch sử phát triển của chuẩn được bắt đầu với những chữ Kanji được cho phép trong giáo dục. Bảng đầu tiên này được gọi là Toyo Kanji và vào năm 1946 nó có 1850 chữ Kanji. Vào 1981 bảng này được thay thế bằng bảng Yoyo Kanji, có 1946 chữ Kanji.
Những bảng khác được dùng để định dạng bộ ký tự chuẩn là Gakushu Kanji với 1006 chữ Kanji thay thế cho bảng Koyiku Kanji cũ có 881 chữ Kanji, nó tăng thêm 996 chữ Kanji ( năm 1992 ) và bảng ký tự Jimei-yo Kanji có 85 chữ (năm 1946), 112 chữ (năm 1976), 166 chữ (năm 1981) và đến năm 1990 có 284 chữ . Một sự việc thú vị là Gatushu Kanji là một tập hợp con của Joyo Kanji.
Bộ ký tự 2 byte (DBCS)
Bộ ký tự non-electric này được dùng để xác định bộ ký tự chuẩn DBCS JIS X0208-1990 hiện nay. Ngoài những kí tự Kanji, 83 kí tự Hiragana và 86 kí tự Katakana thì chuẩn này còn bao gồm các ký tự xếp theo chữ cái (10 kí tự số, 52 ký tự Latinh), ký tự đặc biệt có 147 ký tự), ký tự Hylạp có 48 kí tự và ký tự Nga có 66 kí tự và những thành phần không luật lệ khác. Suốt những năm sau đã có những thay đổi (X208 được phát hành đầu tiên vào năm 1978, sự thay đổi đầu tiên được thấy năm 1983, phiên bản hiện nay là có từ 1990) nó được thêm vào một số chữ Kanji mới, hình dạng một số chữ thay đổi và có sự thay đổi ở vị trí của một số chữ được thay thế.
Ngày nay chuẩn này chứa 2 cấp độ với 2965 ký tự ở cấp độ 1 và 3388 ký tự ở cấp độ 2. Vào năm 1990 JSA đã giới thiệu một bộ ký tự DBCS bổ sung được gọi là JIS X0212- 1990 (đôi khi còn gọi là JIS cấp độ 3) với 6067 chữ thêm vào. Với sự thêm vào 5801 chữ Kanji thì chuẩn này có 21 ký tự đặc biệt và 245 chữ Latinh, chữ Kirin, chữ Hy Lạp (hầu hết có các dấu trọng âm như các ký tự của German Umlauts, Pháp, Tây Ban Nha, Đan Mạch).
Cái này cho chúng ta tổng cộng 12156 ký tự chuẩn, được chia thành 3 cấp độ. Nhìn theo khía cạnh này thì JIS X0212-1990 là một chuẩn rất tốt cho hầu hết các hệ thống dùng chỉ những ký tự được định nghĩa bởi chuẩn JIS X0212-19XX, tuy nhiên số lượng từ rất lớn này cần nhiều bộ nhớ và nó cũng không thể cho hiển thị ký tự được dùng bởi SBCS. Do đó để mà hiển thị số lượng từ lớn này chúng tai cần ít nhất là một bộ ký tự 2 byte (DBCS).
Ở môi trường chuẩn 7 (hay 8 bit) chúng ta có thể dùng bảng mã có 127 (hay 255) ký tự. Nó thì đủ cho bộ kí tự ASCII chuẩn và một số cái mở rộng cho mỗi quốc gia nhưng nó không đủ lớn để xử lý hàng ngàn ký tự tượng hình Kanji.Để xử lý một số lượng ký tự rất lớn chúng ta cần mở rộng số bit để lưu thông tin của ký tự. Ở môi trường 7 bit một bước logic là dùng 2 byte 7 bit (tức là 14 bit) để lưu thông tin, cái này sẽ cho chúng ta khả năng lưu trữ lên 214 tức là 16384 ký tự. Nếu chúng ta dùng 2 byte 8bit thì chúng ta có thể lưu đến 216 tức là 65536 ký tự). Vấn đề nảy sinh là làm cách nào để phân biệt giữa ký tự SBCS và ký tự DBCS.
Để mà tiếp tục tương thích với bộ ký tự SBCS cũ, bạn phải tìm một giải pháp để định rõ một byte thật sự là một ký tự SBCS hay là một phần của bộ ký tự DBCS .
Sự chuyển đổi giữa SBCS và DBCS
Đáp lại sự đề cập ở trên, nó thì có khả năng sử dụng cơ chế Shift In/Out để phân biệt giữa SBCS và DBCS. Điều này hoàn toàn có ích trong môi trường 7 bit. Nó cũng có thể được dùng trong một môi trưởng 8 bit. Khả năng có thể khác là trong một môi trường 8 bit nó dùng MSB (Most Significant Big) như là cớ để cho thấy rằng byte này là một ký tự SBCS (MSB=0) hay một phần của một ký tự DBCS (MSB=1). Một SBCS có thể thấy sự biểu diễn cùa số nhị phân như 0XXXXXXX và DBCS sẽ là 1XXXXXXX.
Ngày nay hầu hết các hệ thống cỡ vừa hay lớn đều dùng một trình tự SI/SO (hay còn gọi là KI /KO) để thay đổi giữa những ký tự SBCS và DBCS. Có một cách khác là JSA cho dãy SI /SO này nhưng đáng tiếc là hầu hết những cửa hàng đại lý phần cứng đã chọn dãy SI /SO khác (thường là giữa 1 và 3 byte).
Đôi khi có 2 dãy SI/KO khác nhau, một cái chuyễn đổi về bộ kí tự JIS Roman, cái còn lại chuyển đổi về bộ kí tư ASCII.
Không chỉ dãy SI/SO (KI/KO) có khác nhau về sự thực thi của bộ kí tự Kana/Kanji mà còn khác nhau về vị trí trong ma trận được xác định bằng hai byte. Ngoài ra một số công ty như IBM thì không dùng chuẩn JIS.
Nếu như bạn nhìn kỹ hơn vào những ma trận này, bạn sẽ nhận ra rằng tất cả các nhà buôn đã thay thế vùng JIS hay vùng mở rộng ở những nơi khác nhau. Mặc dù nếu các ma trận có cùng một nơi thì không có nghĩa là sẽ có cùng mộ...
 
Top