LaWGPT: Căn cứ vào tiếng Trung pháp luật tri thức đại ngôn ngữ mô hình

LaWGPT là một loạt căn cứ vào tiếng Trung pháp luật tri thức khai nguyên đại ngôn ngữ mô hình.

Nên hệ liệt mô hình ở thông dụng tiếng Trung nền mô hình ( như Chinese-LLaMA, ChatGLM chờ ) cơ sở thượng mở rộng pháp luật lĩnh vực đặc biệt từ biểu,Đại quy mô tiếng Trung pháp luật tài liệu ngôn ngữ dự huấn luyện,Tăng cường đại mô hình ở pháp luật lĩnh vực cơ sở ngữ nghĩa lý giải năng lực. Tại đây cơ sở thượng,Cấu tạo pháp luật lĩnh vực đối thoại hỏi đáp số liệu tập, Trung Quốc tư pháp khảo thí số liệu tập tiến hành mệnh lệnh tinh điều,Tăng lên mô hình đối pháp luật nội dung lý giải cùng chấp hành năng lực.

Kỹ càng tỉ mỉ nội dung thỉnh tham khảoKỹ thuật báo cáo.

Bổn hạng mục liên tục khai triển, pháp luật lĩnh vực số liệu tập cập hệ liệt mô hình kế tiếp lần lượt khai nguyên, kính thỉnh chú ý.

Đổi mới

🌟 2023/05/30: Công khai tuyên bố
- LaWGPT-7B-beta1.1:Pháp luật đối thoại mô hình, cấu tạo 35w cao chất lượng pháp luật hỏi đáp số liệu tập căn cứ vào Chinese-alpaca-plus-7B mệnh lệnh tinh điều
📣 2023/05/26: Mở raDiscussions thảo luận khu,Hoan nghênh các bằng hữu giao lưu tham thảo, đưa ra ý kiến, chia sẻ quan điểm!
🛠️ 2023/05/22: Hạng mục chủ chi nhánh kết cấu điều chỉnh, tường thấyHạng mục kết cấu;Duy trìMệnh lệnh hành phê lượng trinh thám
🪴 2023/05/15: Tuyên bốTiếng Trung pháp luật số liệu nguyên tập hợp ( Awesome Chinese Legal Resources )CùngPháp luật lĩnh vực từ biểu
🌟 2023/05/13: Công khai tuyên bố
- Legal-Base-7B:Pháp luật nền mô hình, sử dụng 50w tiếng Trung trọng tài công văn số liệu lần thứ hai dự huấn luyện
- LaWGPT-7B-beta1.0:Pháp luật đối thoại mô hình, cấu tạo 30w cao chất lượng pháp luật hỏi đáp số liệu tập căn cứ vào Legal-Base-7B mệnh lệnh tinh điều
🌟 2023/04/12: Bên trong thí nghiệm
- LaWGPT-7B- Alpha:Ở Chinese-LLaMA-7B cơ sở thượng trực tiếp cấu tạo 30w pháp luật hỏi đáp số liệu tập mệnh lệnh tinh điều

Nhanh chóng bắt đầu

Chuẩn bị số hiệu, sáng tạo hoàn cảnh

#Download số hiệu
git clone git@github:pengxiao-song/LaWGPT.git
cdLaWGPT

#Sáng tạo hoàn cảnh
conda create -n lawgpt Python =3.10 -y
conda activate lawgpt
pip install -r requirements.txt

Khởi động web ui ( nhưng tuyển, dễ dàng điều tiết tham số )
- Đầu tiên, chấp hành phục vụ khởi động kịch bản gốc:bash scripts/webui.sh
- Tiếp theo, phỏng vấnhttp://127.0.0.1:7860:
Mệnh lệnh hành trinh thám ( nhưng tuyển, duy trì phê lượng thí nghiệm )
- Đầu tiên, tham khảoresources/example_infer_data.jsonVăn kiện nội dung cấu tạo thí nghiệm hàng mẫu tập;
- Tiếp theo, chấp hành trinh thám kịch bản gốc:bash scripts/infer.sh.Trong đó--infer_data_pathTham số vì thí nghiệm hàng mẫu tập đường nhỏ, nếu vì không hoặc là đường nhỏ làm lỗi, tắc lấy lẫn nhau hình thức vận hành.

Chú ý, trở lên bước đi cam chịu mô hình vì LaWGPT-7B- Alpha, nếu ngài tưởng sử dụng LaWGPT-7B-beta1.0 mô hình:

Bởi vìLLaMACùngChinese-LLaMAĐều chưa khai nguyên mô hình quyền trọng. Căn cứ tương ứng khai nguyên cho phép,Bổn hạng mục chỉ có thể tuyên bố LoRA quyền trọng,Vô pháp tuyên bố hoàn chỉnh mô hình quyền trọng, thỉnh các vị thông cảm.
Bổn hạng mục cấp raXác nhập phương thức,Thỉnh các vị thu hoạch nguyên bản quyền trọng sau tự hành trọng cấu mô hình.

Hạng mục kết cấu

LaWGPT
├── assets#Trạng thái tĩnh tài nguyên
├── resources#Hạng mục tài nguyên
├── models#Nền mô hình cập lora quyền trọng
│ ├── base_models
│ └── lora_weights
├── outputs#Mệnh lệnh hơi điều phát ra quyền trọng
├── data#Thực nghiệm số liệu
├── scripts#Kịch bản gốc mục lục
│ ├── finetune.sh#Mệnh lệnh hơi điều kịch bản gốc
│ └── webui.sh#Khởi động phục vụ kịch bản gốc
├── templates#prompt khuôn mẫu
├── tools#Công cụ bao
├── utils
├── train_clm.py#Lần thứ hai huấn luyện
├── finetune.py#Mệnh lệnh hơi điều
├── webui.py#Khởi động phục vụ
├── README.md
└── requirements.txt

Số liệu xây dựng

Bổn hạng mục căn cứ vào tiếng Trung trọng tài công văn võng công khai pháp luật công văn số liệu, tư pháp khảo thí số liệu chờ số liệu tập triển khai, tình hình cụ thể và tỉ mỉ tham khảoTiếng Trung pháp luật số liệu nguyên tập hợp ( Awesome Chinese Legal Resources ).

Sơ cấp số liệu sinh thành: Căn cứStanford_alpacaCùngself-instructPhương thức sinh thành đối thoại hỏi đáp số liệu
Tri thức dẫn đường số liệu sinh thành: Thông qua Knowledge-based Self-Instruct phương thức căn cứ vào tiếng Trung pháp luật kết cấu hóa tri thức sinh thành số liệu.
Dẫn vào ChatGPT rửa sạch số liệu, phụ trợ cấu tạo cao chất lượng số liệu tập.

Mô hình huấn luyện

LawGPT hệ liệt mô hình huấn luyện quá trình chia làm hai cái giai đoạn:

Đệ nhất giai đoạn: Mở rộng pháp luật lĩnh vực từ biểu, ở đại quy mô pháp luật công văn cập pháp điển số liệu thượng dự huấn luyện Chinese-LLaMA
Đệ nhị giai đoạn: Cấu tạo pháp luật lĩnh vực đối thoại hỏi đáp số liệu tập, ở dự huấn luyện mô hình cơ sở thượng mệnh lệnh tinh điều

Lần thứ hai huấn luyện lưu trình

Tham khảoresources/example_instruction_train.jsonCấu tạo lần thứ hai huấn luyện số liệu tập
Vận hànhscripts/train_clm.sh

Mệnh lệnh tinh điều bước đi

Tham khảoresources/example_instruction_tune.jsonCấu tạo mệnh lệnh hơi điều số liệu tập
Vận hànhscripts/finetune.sh

Tính toán tài nguyên

8 trương Tesla V100-SXM2-32GB: Lần thứ hai huấn luyện giai đoạn tốn thời gian ước 24h / epoch, hơi điều giai đoạn tốn thời gian ước 12h / epoch

Mô hình đánh giá

Phát ra thí dụ mẫu

Vấn đề: Say rượu lái xe đâm người như thế nào hình phạt?

Vấn đề: Thỉnh cấp ra phán quyết ý kiến.

Vấn đề: Thỉnh giới thiệu đánh bạc tội định nghĩa.

Vấn đề: Xin hỏi tăng ca tiền lương như thế nào tính?

Vấn đề: Dân gian mượn tiền chịu quốc gia bảo hộ hợp pháp lợi tức là nhiều ít?

Vấn đề: Thiếu thẻ tín dụng tiền còn không thượng muốn ngồi tù sao?

Vấn đề: Ngươi có không viết một đoạn cướp bóc tội tội danh vụ án miêu tả?

Cực hạn tính

Bởi vì tính toán tài nguyên, số liệu quy mô chờ nhân tố hạn chế, trước mặt giai đoạn LawGPT tồn tại rất nhiều cực hạn tính:

Số liệu tài nguyên hữu hạn, mô hình dung lượng nhỏ lại, dẫn tới này tương đối yếu kém mô hình ký ức cùng ngôn ngữ năng lực. Bởi vậy, ở đối mặt sự thật tính tri thức nhiệm vụ khi, khả năng sẽ sinh thành không chính xác kết quả.
Nên hệ liệt mô hình chỉ tiến hành bước đầu nhân loại ý đồ đối tề. Bởi vậy, khả năng sinh ra không thể đoán trước có hại nội dung cùng với không phù hợp nhân loại thiên hảo cùng giá trị quan nội dung.
Tự mình nhận tri năng lực tồn tại vấn đề, tiếng Trung lý giải năng lực còn chờ tăng cường.

Thỉnh chư quân ở sử dụng trước hiểu biết kể trên vấn đề, để tránh tạo thành hiểu lầm cùng không cần thiết phiền toái.

Hợp tác giả

Như sau các vị hợp tác khai triển ( ấn chữ cái tự sắp hàng ):@cainiao,@njuyxw,@pengxiao-song,@WNJXYK

Chỉ đạo lão sư: Lý vũ phong, quách lan triết, đồ uy uy (), từ Nam Kinh đại học máy móc học tập cùng số liệu khai quật nghiên cứu tổ ( ) duy trì

Miễn trách thanh minh

Thỉnh các vị nghiêm khắc tuân thủ như sau ước định:

Bổn hạng mục bất luận cái gì tài nguyênChỉ cung học thuật nghiên cứu sử dụng, nghiêm cấm bất luận cái gì thương nghiệp sử dụng.
Mô hình phát ra chịu nhiều loại không xác định tính nhân tố ảnh hưởng, bổn hạng mục trước mặt vô pháp bảo đảm này chuẩn xác tính,Nghiêm cấm dùng cho chân thật pháp luật cảnh tượng.
Bổn hạng mục không gánh vác bất luận cái gì pháp luật trách nhiệm, cũng không đối nhân sử dụng tương quan tài nguyên cùng phát ra kết quả mà khả năng sinh ra bất luận cái gì tổn thất gánh vác trách nhiệm.

Vấn đề phản hồi

Như có vấn đề, thỉnh ở GitHub Issue trung đệ trình.

Đệ trình vấn đề phía trước, kiến nghị tìm đọc FAQ cập dĩ vãng issue xem hay không có thể giải quyết ngài vấn đề.
Thỉnh lễ phép thảo luận, xây dựng hài hòa xã khu.

Hợp tác giả nghiên cứu khoa học rất nhiều đẩy mạnh hạng mục tiến triển, bởi vì nhân lực hữu hạn khó có thể thật khi phản hồi, cấp chư quân mang đến không tiện, kính thỉnh thông cảm!

Trí tạ

Bổn hạng mục căn cứ vào như sau khai nguyên hạng mục triển khai, tại đây đối tương quan hạng mục cùng khai phá nhân viên tỏ vẻ chân thành cảm tạ:

Chinese-LLaMA-Alpaca:https://github /ymcui/Chinese-LLaMA-Alpaca
LLaMA:https://github /facebookresearch/llama
Alpaca:https://github /tatsu-lab/stanford_alpaca
alpaca-lora:https://github /tloen/alpaca-lora
ChatGLM-6B:https://github /THUDM/ChatGLM-6B

Ngoài ra, bổn hạng mục căn cứ vào mở ra số liệu tài nguyên, tường thấyAwesome Chinese Legal Resources,Cùng nhau tỏ vẻ cảm tạ.

Trích dẫn

Nếu ngài cảm thấy chúng ta công tác đối ngài có điều trợ giúp, thỉnh suy xét trích dẫn nên hạng mục.

@misc{lawgpt,
title={LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model},
author={Zhi Zhou and Jiang-Xin Shi and Peng-Xiao Song and Xiao-Wen Yang and Yi-Xuan Jin and Lan-Zhe Guo and Yu-Feng Li},
year={2024},
eprint={2406.04614},
archivePrefix={arXiv},
primaryClass={cs.CL}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LaWGPT: Căn cứ vào tiếng Trung pháp luật tri thức đại ngôn ngữ mô hình

Đổi mới

Nhanh chóng bắt đầu

Hạng mục kết cấu

Số liệu xây dựng

Mô hình huấn luyện

Lần thứ hai huấn luyện lưu trình

Mệnh lệnh tinh điều bước đi

Tính toán tài nguyên

Mô hình đánh giá

Phát ra thí dụ mẫu

Cực hạn tính

Hợp tác giả

Miễn trách thanh minh

Vấn đề phản hồi

Trí tạ

Trích dẫn

About

Releases

Packages

Contributors 3

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 50 Commits
assets		assets
data		data
models		models
outputs		outputs
resources		resources
scripts		scripts
templates		templates
tools		tools
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
finetune.py		finetune.py
infer.py		infer.py
merge.py		merge.py
requirements.txt		requirements.txt
train_clm.py		train_clm.py
webui.py		webui.py

License

pengxiao-song/LaWGPT

Folders and files

Latest commit

History

Repository files navigation

LaWGPT: Căn cứ vào tiếng Trung pháp luật tri thức đại ngôn ngữ mô hình

Đổi mới

Nhanh chóng bắt đầu

Hạng mục kết cấu

Số liệu xây dựng

Mô hình huấn luyện

Lần thứ hai huấn luyện lưu trình

Mệnh lệnh tinh điều bước đi

Tính toán tài nguyên

Mô hình đánh giá

Phát ra thí dụ mẫu

Cực hạn tính

Hợp tác giả

Miễn trách thanh minh

Vấn đề phản hồi

Trí tạ

Trích dẫn

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages