Hỏi đáp mọi chủ đề liên qua đến công nghệ thông tin, internet, lập trình, SEO...
Nội quy chuyên mục: Hỏi đáp mọi chủ đề liên qua đến công nghệ thông tin, internet, lập trình, SEO...

- Chuyên nhận giải đáp thắc mắc sử dụng Word, Excel, Power Point

- Ai cần download driver hay Firmware cho máy tính máy in, thì vào đây nhé, tìm gì cũng có Driver 360

- Cập nhật tin tức với Mr Công nghệ tại đây
By linkhoi_91193
#940429 Em tải về rồi mà không biết cài đặt và sử dụng sao hết.Hầu như nó đều là file rar.Giải nén ra rồi đọc cách sử dụng rồi mà vẫn không hiểu nó nói gì.Ai xài rồi hướng dẫn giúp em với.

P/s:Ai có tài liệu về code phân đoạn từ cho em luon ạ.Em cảm ơn
By luckystar_n2t_tt
#940439 Bấm vào đây để đăng nhập và xem link! => Mình tìm được trang chính của nó ở đây.

Theo giới thiệu ban đầu thì nó có tác dung tự động phân các đoạn chữ tiếng Việt thành các đơn vị từ vựng (như ngày, tên, số, biểu thức...)

phiên bản mới hiện có: 4.1.1

dòng: Binary package là gói cài đặt của phần mềm, tải về.

Source Package: đây là dòng mã nguồn của phần mềm (code), phần mềm này được viết bằng Java vậy nên phải có các Ide như net bin hay eclipse và Jdk Java để chạy mã nguồn của phần mềm.

Cuối cùng là dòng User Guide: là phần hướng dẫn người dùng. (cũng chẳng có gì đâu)


Ví dụ dòng Binary package, nháy vào tải về được file có đuôi là tar.gz bạn dùng 7zip giải nén 2 lần.

Sau đó nháy vào "vnTokenizer.bat" để khởi động phần mềm.

phần mềm không giao diện GUI, thao tác bằng dòng lệnh


Phân tích một File:


./vnTokenizer.sh -i <inputFile> -o <outputFile> [options]


Trong đó phần [options] có thể có hay không, nếu có thể là 1 trong 3 loại sau: -xo hay -sd hay -nu

-xo nghĩa là kết quả xuất ra file xml

-nu nghĩa là kết quả xuất ra không có dấu gạch dưới để kết nối các âm tiết trong một từ

-sd nghĩa là phát hiện câu, thích hợp trong trường hợp văn bản dài.


<inputFile> là file đầu vào, yêu cầu nó có đuôi txt, khi lưu phải chọn encoding của nó là UTF8.

<outputFile> là file đầu ra, nếu không dùng -xo thì đầu ra là .txt, dùng -xo thì đầu ra là .xml


Ví dụ:

./vnTokenizer.sh -i samples/0.txt -o samples/0.tok.txt

câu lệnh này nghĩa là: file đầu vào có tên là 0.txt, file đầu ra có tên 0.tok.txt, samples là thư mục - thư mục này nằm chung một thư mục với "vnTokenizer.bat"

./vnTokenizer.sh -i samples/0.txt -o samples/0.tok.xml -xo

câu lệnh này nghĩa là: file đầu vào có tên 0.txt, file đầu ra có tên 0.tok.xml, -xo là file xuất ra dạng xml

./vnTokenizer.sh -i samples/0.txt -o samples/0.tok.txt -sd

câu lệnh này nghĩa là file đầu vào 0.txt, file đầu ra 0.tok.txt, -sd nghĩa là phát hiện câu


Phân tích một thư mục:


./vnTokenizer.sh -i <inputDirectory> -o <outputDirectory> [options]


Câu lệnh trên sẽ phân tích tấc cả các file đầu vào từ một thư mục sau đó xuất tấc cả các file đầu ra vào một thư mục.

Phần [options] có thể có hay không, nếu có thì là -e .extension

-e .extension, có nghĩa là chỉ chuyển đổi những tập tin có đuôi là extension, ví dụ: -e .abc hay -e .doc

<inputDirectory> là tên thư mục nằm chung thư mục với "vntokenizer.bat" tương tự <outputDirectory> là tên thư mục nằm chung thư mục với "vntokenizer.bat"


Ví dụ:

Bất kì 1 USD tăng trưởng nào của ASEAN cũng có 6 cent xuất khẩu của Nhật Bản tới ASEAN.

Điều này cho thấy tỉ trọng của kinh tế ASEAN trong GDP Nhật Bản lớn như thế nào.

Tình hình với Trung Quốc cũng như vậy.

Như bạn đã biết, Biển Đông là tuyến đường biển chiến lược.

Bất chấp những căng thẳng và phản ứng của các bên, giữa các quốc gia liên quan vẫn chia sẻ lợi ích chung: duy trì Biển Đông an ninh và ổn định.

80% nguồn năng lượng cung cấp cho ba quốc gia lớn nhất ở Đông Á là Nhật Bản, Hàn Quốc và Trung Quốc đều từ Biển Đông hay đi qua Biển Đông.

Thương mại và các sản phẩm cũng vậy.

Nhờ đó, chúng ta có thể kiềm chế căng thẳng và các xung đột tiếm năng không dẫn tới xung đột quân sự.


===========>

Bất_kì 1 USD tăng_trưởng nào của ASEAN cũng có 6 cent xuất_khẩu của Nhật_Bản tới ASEAN .

Điều này cho thấy tỉ_trọng của kinh_tế ASEAN trong GDP Nhật_Bản lớn như_thế_nào .

Tình_hình với Trung_Quốc cũng như_vậy .

Như bạn đã biết , Biển_Đông là tuyến đường_biển chiến_lược .

Bất_chấp những căng_thẳng và phản_ứng của các bên , giữa các quốc_gia liên_quan vẫn chia_sẻ lợi_ích chung : duy_trì Biển_Đông an_ninh và ổn_định .

80% nguồn năng_lượng cung_cấp cho ba quốc_gia lớn nhất ở Đông Á là Nhật_Bản , Hàn_Quốc và Trung_Quốc đều từ Biển_Đông hay đi qua Biển_Đông .

Thương_mại và các sản_phẩm cũng vậy .

Nhờ đó , chúng_ta có_thể kiềm_chế căng_thẳng và các xung_đột tiếm năng không dẫn tới xung_đột quân_sự .



Sau khi vào đất liền, bão số 4 nhanh chóng suy yếu thành áp thấp nhiệt đới, gây mưa trên toàn bộ miền Bắc và Bắc Trung Bộ.

Trên đường đi của áp thấp, ngày 12/7, hàng loạt tỉnh thành phía Bắc chìm trong mưa lớn trên 100 mm như Nam Định, Hà Nam, Ninh Bình, Thái Bình, Hòa Bình.

Đến sáng nay, mưa tại các địa phương này giảm dần.

Cụ thể, lương của một lao động trong doanh nghiệp nhà nước là 3,2 triệu đồng, tăng 1,2%.

Ông *************** đã tham gia lễ khởi công nhà máy A.

*************** đã tham gia lễ khởi công nhà máy A.


==========>

[.txt]

Sau khi vào đất_liền , bão số 4 nhanh_chóng suy_yếu thành áp_thấp_nhiệt_đới , gây mưa trên toàn_bộ miền Bắc và Bắc_Trung_Bộ .


Trên đường đi của áp_thấp , ngày 12/7 , hàng_loạt tỉnh_thành phía Bắc chìm trong mưa lớn trên 100 mm như Nam_Định , Hà_Nam , Ninh_Bình , Thái_Bình , Hòa_Bình .


Đến sáng nay , mưa tại các địa_phương này giảm dần .


Cụ_thể , lương của một lao_động trong doanh_nghiệp nhà_nước là 3,2 triệu đồng , tăng 1,2% .


Ông Nguyễn_Tấn_Dũng đã tham_dự lễ khởi_công nhà_máy A .


Nguyễn_Tấn_Dũng đã tham_dự lễ khởi_công nhà_máy A .



[.xml]


<?xml version="1.0" encoding="UTF-8" standalone="true"?>


-<corpus id="Wed Aug 04 15:27:22 CEST 2010">



-<body>



-<s>


<w t="word">Sau</w>


<w t="word">khi</w>


<w t="word">vào</w>


<w t="word">đất liền</w>


<w t="ponctuation">,</w>


(còn dài)

>>>>>>>>>>>>>>>>>

Mình ngu code lắm bạn tự đọc tự hiểu nhé (java programming language nhé)
Kết nối đề xuất:
Learn Synonym
Advertisement