LaWGPT là một loạt căn cứ vào tiếng Trung pháp luật tri thức khai nguyên đại ngôn ngữ mô hình.
Nên hệ liệt mô hình ở thông dụng tiếng Trung nền mô hình ( như Chinese-LLaMA, ChatGLM chờ ) cơ sở thượng mở rộng pháp luật lĩnh vực đặc biệt từ biểu,Đại quy mô tiếng Trung pháp luật tài liệu ngôn ngữ dự huấn luyện,Tăng cường đại mô hình ở pháp luật lĩnh vực cơ sở ngữ nghĩa lý giải năng lực. Tại đây cơ sở thượng,Cấu tạo pháp luật lĩnh vực đối thoại hỏi đáp số liệu tập, Trung Quốc tư pháp khảo thí số liệu tập tiến hành mệnh lệnh tinh điều,Tăng lên mô hình đối pháp luật nội dung lý giải cùng chấp hành năng lực.
Kỹ càng tỉ mỉ nội dung thỉnh tham khảoKỹ thuật báo cáo.
Bổn hạng mục liên tục khai triển, pháp luật lĩnh vực số liệu tập cập hệ liệt mô hình kế tiếp lần lượt khai nguyên, kính thỉnh chú ý.
-
🌟 2023/05/30: Công khai tuyên bố
- LaWGPT-7B-beta1.1:Pháp luật đối thoại mô hình, cấu tạo 35w cao chất lượng pháp luật hỏi đáp số liệu tập căn cứ vào Chinese-alpaca-plus-7B mệnh lệnh tinh điều
-
📣 2023/05/26: Mở raDiscussions thảo luận khu,Hoan nghênh các bằng hữu giao lưu tham thảo, đưa ra ý kiến, chia sẻ quan điểm!
-
🛠️ 2023/05/22: Hạng mục chủ chi nhánh kết cấu điều chỉnh, tường thấyHạng mục kết cấu;Duy trìMệnh lệnh hành phê lượng trinh thám
-
🪴 2023/05/15: Tuyên bốTiếng Trung pháp luật số liệu nguyên tập hợp ( Awesome Chinese Legal Resources )CùngPháp luật lĩnh vực từ biểu
-
🌟 2023/05/13: Công khai tuyên bố
-
Legal-Base-7B:Pháp luật nền mô hình, sử dụng 50w tiếng Trung trọng tài công văn số liệu lần thứ hai dự huấn luyện
-
LaWGPT-7B-beta1.0:Pháp luật đối thoại mô hình, cấu tạo 30w cao chất lượng pháp luật hỏi đáp số liệu tập căn cứ vào Legal-Base-7B mệnh lệnh tinh điều
-
-
🌟 2023/04/12: Bên trong thí nghiệm
- LaWGPT-7B- Alpha:Ở Chinese-LLaMA-7B cơ sở thượng trực tiếp cấu tạo 30w pháp luật hỏi đáp số liệu tập mệnh lệnh tinh điều
-
Chuẩn bị số hiệu, sáng tạo hoàn cảnh
#Download số hiệu git clone git@github:pengxiao-song/LaWGPT.git cdLaWGPT #Sáng tạo hoàn cảnh conda create -n lawgpt Python =3.10 -y conda activate lawgpt pip install -r requirements.txt
-
Khởi động web ui ( nhưng tuyển, dễ dàng điều tiết tham số )
-
Đầu tiên, chấp hành phục vụ khởi động kịch bản gốc:
bash scripts/webui.sh
-
Tiếp theo, phỏng vấnhttp://127.0.0.1:7860:
-
-
Mệnh lệnh hành trinh thám ( nhưng tuyển, duy trì phê lượng thí nghiệm )
-
Đầu tiên, tham khảo
resources/example_infer_data.json
Văn kiện nội dung cấu tạo thí nghiệm hàng mẫu tập; -
Tiếp theo, chấp hành trinh thám kịch bản gốc:
bash scripts/infer.sh
.Trong đó--infer_data_path
Tham số vì thí nghiệm hàng mẫu tập đường nhỏ, nếu vì không hoặc là đường nhỏ làm lỗi, tắc lấy lẫn nhau hình thức vận hành.
-
Chú ý, trở lên bước đi cam chịu mô hình vì LaWGPT-7B- Alpha, nếu ngài tưởng sử dụng LaWGPT-7B-beta1.0 mô hình:
-
Bởi vìLLaMACùngChinese-LLaMAĐều chưa khai nguyên mô hình quyền trọng. Căn cứ tương ứng khai nguyên cho phép,Bổn hạng mục chỉ có thể tuyên bố LoRA quyền trọng,Vô pháp tuyên bố hoàn chỉnh mô hình quyền trọng, thỉnh các vị thông cảm.
-
Bổn hạng mục cấp raXác nhập phương thức,Thỉnh các vị thu hoạch nguyên bản quyền trọng sau tự hành trọng cấu mô hình.
LaWGPT
├── assets#Trạng thái tĩnh tài nguyên
├── resources#Hạng mục tài nguyên
├── models#Nền mô hình cập lora quyền trọng
│ ├── base_models
│ └── lora_weights
├── outputs#Mệnh lệnh hơi điều phát ra quyền trọng
├── data#Thực nghiệm số liệu
├── scripts#Kịch bản gốc mục lục
│ ├── finetune.sh#Mệnh lệnh hơi điều kịch bản gốc
│ └── webui.sh#Khởi động phục vụ kịch bản gốc
├── templates#prompt khuôn mẫu
├── tools#Công cụ bao
├── utils
├── train_clm.py#Lần thứ hai huấn luyện
├── finetune.py#Mệnh lệnh hơi điều
├── webui.py#Khởi động phục vụ
├── README.md
└── requirements.txt
Bổn hạng mục căn cứ vào tiếng Trung trọng tài công văn võng công khai pháp luật công văn số liệu, tư pháp khảo thí số liệu chờ số liệu tập triển khai, tình hình cụ thể và tỉ mỉ tham khảoTiếng Trung pháp luật số liệu nguyên tập hợp ( Awesome Chinese Legal Resources ).
- Sơ cấp số liệu sinh thành: Căn cứStanford_alpacaCùngself-instructPhương thức sinh thành đối thoại hỏi đáp số liệu
- Tri thức dẫn đường số liệu sinh thành: Thông qua Knowledge-based Self-Instruct phương thức căn cứ vào tiếng Trung pháp luật kết cấu hóa tri thức sinh thành số liệu.
- Dẫn vào ChatGPT rửa sạch số liệu, phụ trợ cấu tạo cao chất lượng số liệu tập.
LawGPT hệ liệt mô hình huấn luyện quá trình chia làm hai cái giai đoạn:
- Đệ nhất giai đoạn: Mở rộng pháp luật lĩnh vực từ biểu, ở đại quy mô pháp luật công văn cập pháp điển số liệu thượng dự huấn luyện Chinese-LLaMA
- Đệ nhị giai đoạn: Cấu tạo pháp luật lĩnh vực đối thoại hỏi đáp số liệu tập, ở dự huấn luyện mô hình cơ sở thượng mệnh lệnh tinh điều
- Tham khảo
resources/example_instruction_train.json
Cấu tạo lần thứ hai huấn luyện số liệu tập - Vận hành
scripts/train_clm.sh
- Tham khảo
resources/example_instruction_tune.json
Cấu tạo mệnh lệnh hơi điều số liệu tập - Vận hành
scripts/finetune.sh
8 trương Tesla V100-SXM2-32GB: Lần thứ hai huấn luyện giai đoạn tốn thời gian ước 24h / epoch, hơi điều giai đoạn tốn thời gian ước 12h / epoch
Bởi vì tính toán tài nguyên, số liệu quy mô chờ nhân tố hạn chế, trước mặt giai đoạn LawGPT tồn tại rất nhiều cực hạn tính:
- Số liệu tài nguyên hữu hạn, mô hình dung lượng nhỏ lại, dẫn tới này tương đối yếu kém mô hình ký ức cùng ngôn ngữ năng lực. Bởi vậy, ở đối mặt sự thật tính tri thức nhiệm vụ khi, khả năng sẽ sinh thành không chính xác kết quả.
- Nên hệ liệt mô hình chỉ tiến hành bước đầu nhân loại ý đồ đối tề. Bởi vậy, khả năng sinh ra không thể đoán trước có hại nội dung cùng với không phù hợp nhân loại thiên hảo cùng giá trị quan nội dung.
- Tự mình nhận tri năng lực tồn tại vấn đề, tiếng Trung lý giải năng lực còn chờ tăng cường.
Thỉnh chư quân ở sử dụng trước hiểu biết kể trên vấn đề, để tránh tạo thành hiểu lầm cùng không cần thiết phiền toái.
Như sau các vị hợp tác khai triển ( ấn chữ cái tự sắp hàng ):@cainiao,@njuyxw,@pengxiao-song,@WNJXYK
Chỉ đạo lão sư: Lý vũ phong, quách lan triết, đồ uy uy (), từ Nam Kinh đại học máy móc học tập cùng số liệu khai quật nghiên cứu tổ (
) duy trì
Thỉnh các vị nghiêm khắc tuân thủ như sau ước định:
- Bổn hạng mục bất luận cái gì tài nguyênChỉ cung học thuật nghiên cứu sử dụng, nghiêm cấm bất luận cái gì thương nghiệp sử dụng.
- Mô hình phát ra chịu nhiều loại không xác định tính nhân tố ảnh hưởng, bổn hạng mục trước mặt vô pháp bảo đảm này chuẩn xác tính,Nghiêm cấm dùng cho chân thật pháp luật cảnh tượng.
- Bổn hạng mục không gánh vác bất luận cái gì pháp luật trách nhiệm, cũng không đối nhân sử dụng tương quan tài nguyên cùng phát ra kết quả mà khả năng sinh ra bất luận cái gì tổn thất gánh vác trách nhiệm.
Như có vấn đề, thỉnh ở GitHub Issue trung đệ trình.
- Đệ trình vấn đề phía trước, kiến nghị tìm đọc FAQ cập dĩ vãng issue xem hay không có thể giải quyết ngài vấn đề.
- Thỉnh lễ phép thảo luận, xây dựng hài hòa xã khu.
Hợp tác giả nghiên cứu khoa học rất nhiều đẩy mạnh hạng mục tiến triển, bởi vì nhân lực hữu hạn khó có thể thật khi phản hồi, cấp chư quân mang đến không tiện, kính thỉnh thông cảm!
Bổn hạng mục căn cứ vào như sau khai nguyên hạng mục triển khai, tại đây đối tương quan hạng mục cùng khai phá nhân viên tỏ vẻ chân thành cảm tạ:
- Chinese-LLaMA-Alpaca:https://github /ymcui/Chinese-LLaMA-Alpaca
- LLaMA:https://github /facebookresearch/llama
- Alpaca:https://github /tatsu-lab/stanford_alpaca
- alpaca-lora:https://github /tloen/alpaca-lora
- ChatGLM-6B:https://github /THUDM/ChatGLM-6B
Ngoài ra, bổn hạng mục căn cứ vào mở ra số liệu tài nguyên, tường thấyAwesome Chinese Legal Resources,Cùng nhau tỏ vẻ cảm tạ.
Nếu ngài cảm thấy chúng ta công tác đối ngài có điều trợ giúp, thỉnh suy xét trích dẫn nên hạng mục.
@misc{lawgpt,
title={LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model},
author={Zhi Zhou and Jiang-Xin Shi and Peng-Xiao Song and Xiao-Wen Yang and Yi-Xuan Jin and Lan-Zhe Guo and Yu-Feng Li},
year={2024},
eprint={2406.04614},
archivePrefix={arXiv},
primaryClass={cs.CL}
}