Skip to content

🎉 Repo for LaWGPT, Chinese-Llama tuned with Chinese Legal knowledge. Căn cứ vào tiếng Trung pháp luật tri thức đại ngôn ngữ mô hình

License

Notifications You must be signed in to change notification settings

pengxiao-song/LaWGPT

Repository files navigation

LaWGPT: Căn cứ vào tiếng Trung pháp luật tri thức đại ngôn ngữ mô hình

LaWGPT là một loạt căn cứ vào tiếng Trung pháp luật tri thức khai nguyên đại ngôn ngữ mô hình.

Nên hệ liệt mô hình ở thông dụng tiếng Trung nền mô hình ( như Chinese-LLaMA, ChatGLM chờ ) cơ sở thượng mở rộng pháp luật lĩnh vực đặc biệt từ biểu,Đại quy mô tiếng Trung pháp luật tài liệu ngôn ngữ dự huấn luyện,Tăng cường đại mô hình ở pháp luật lĩnh vực cơ sở ngữ nghĩa lý giải năng lực. Tại đây cơ sở thượng,Cấu tạo pháp luật lĩnh vực đối thoại hỏi đáp số liệu tập, Trung Quốc tư pháp khảo thí số liệu tập tiến hành mệnh lệnh tinh điều,Tăng lên mô hình đối pháp luật nội dung lý giải cùng chấp hành năng lực.

Kỹ càng tỉ mỉ nội dung thỉnh tham khảoKỹ thuật báo cáo.


Bổn hạng mục liên tục khai triển, pháp luật lĩnh vực số liệu tập cập hệ liệt mô hình kế tiếp lần lượt khai nguyên, kính thỉnh chú ý.

Đổi mới

  • 🌟 2023/05/30: Công khai tuyên bố

    • LaWGPT-7B-beta1.1:Pháp luật đối thoại mô hình, cấu tạo 35w cao chất lượng pháp luật hỏi đáp số liệu tập căn cứ vào Chinese-alpaca-plus-7B mệnh lệnh tinh điều
  • 📣 2023/05/26: Mở raDiscussions thảo luận khu,Hoan nghênh các bằng hữu giao lưu tham thảo, đưa ra ý kiến, chia sẻ quan điểm!

  • 🛠️ 2023/05/22: Hạng mục chủ chi nhánh kết cấu điều chỉnh, tường thấyHạng mục kết cấu;Duy trìMệnh lệnh hành phê lượng trinh thám

  • 🪴 2023/05/15: Tuyên bốTiếng Trung pháp luật số liệu nguyên tập hợp ( Awesome Chinese Legal Resources )CùngPháp luật lĩnh vực từ biểu

  • 🌟 2023/05/13: Công khai tuyên bố

    • Legal-Base-7B:Pháp luật nền mô hình, sử dụng 50w tiếng Trung trọng tài công văn số liệu lần thứ hai dự huấn luyện

    • LaWGPT-7B-beta1.0:Pháp luật đối thoại mô hình, cấu tạo 30w cao chất lượng pháp luật hỏi đáp số liệu tập căn cứ vào Legal-Base-7B mệnh lệnh tinh điều

  • 🌟 2023/04/12: Bên trong thí nghiệm

    • LaWGPT-7B- Alpha:Ở Chinese-LLaMA-7B cơ sở thượng trực tiếp cấu tạo 30w pháp luật hỏi đáp số liệu tập mệnh lệnh tinh điều

Nhanh chóng bắt đầu

  1. Chuẩn bị số hiệu, sáng tạo hoàn cảnh

    #Download số hiệu
    git clone git@github:pengxiao-song/LaWGPT.git
    cdLaWGPT
    
    #Sáng tạo hoàn cảnh
    conda create -n lawgpt Python =3.10 -y
    conda activate lawgpt
    pip install -r requirements.txt
  2. Khởi động web ui ( nhưng tuyển, dễ dàng điều tiết tham số )

    • Đầu tiên, chấp hành phục vụ khởi động kịch bản gốc:bash scripts/webui.sh

    • Tiếp theo, phỏng vấnhttp://127.0.0.1:7860:

  3. Mệnh lệnh hành trinh thám ( nhưng tuyển, duy trì phê lượng thí nghiệm )

    • Đầu tiên, tham khảoresources/example_infer_data.jsonVăn kiện nội dung cấu tạo thí nghiệm hàng mẫu tập;

    • Tiếp theo, chấp hành trinh thám kịch bản gốc:bash scripts/infer.sh.Trong đó--infer_data_pathTham số vì thí nghiệm hàng mẫu tập đường nhỏ, nếu vì không hoặc là đường nhỏ làm lỗi, tắc lấy lẫn nhau hình thức vận hành.

Chú ý, trở lên bước đi cam chịu mô hình vì LaWGPT-7B- Alpha, nếu ngài tưởng sử dụng LaWGPT-7B-beta1.0 mô hình:

  • Bởi vìLLaMACùngChinese-LLaMAĐều chưa khai nguyên mô hình quyền trọng. Căn cứ tương ứng khai nguyên cho phép,Bổn hạng mục chỉ có thể tuyên bố LoRA quyền trọng,Vô pháp tuyên bố hoàn chỉnh mô hình quyền trọng, thỉnh các vị thông cảm.

  • Bổn hạng mục cấp raXác nhập phương thức,Thỉnh các vị thu hoạch nguyên bản quyền trọng sau tự hành trọng cấu mô hình.

Hạng mục kết cấu

LaWGPT
├── assets#Trạng thái tĩnh tài nguyên
├── resources#Hạng mục tài nguyên
├── models#Nền mô hình cập lora quyền trọng
│ ├── base_models
│ └── lora_weights
├── outputs#Mệnh lệnh hơi điều phát ra quyền trọng
├── data#Thực nghiệm số liệu
├── scripts#Kịch bản gốc mục lục
│ ├── finetune.sh#Mệnh lệnh hơi điều kịch bản gốc
│ └── webui.sh#Khởi động phục vụ kịch bản gốc
├── templates#prompt khuôn mẫu
├── tools#Công cụ bao
├── utils
├── train_clm.py#Lần thứ hai huấn luyện
├── finetune.py#Mệnh lệnh hơi điều
├── webui.py#Khởi động phục vụ
├── README.md
└── requirements.txt

Số liệu xây dựng

Bổn hạng mục căn cứ vào tiếng Trung trọng tài công văn võng công khai pháp luật công văn số liệu, tư pháp khảo thí số liệu chờ số liệu tập triển khai, tình hình cụ thể và tỉ mỉ tham khảoTiếng Trung pháp luật số liệu nguyên tập hợp ( Awesome Chinese Legal Resources ).

  1. Sơ cấp số liệu sinh thành: Căn cứStanford_alpacaCùngself-instructPhương thức sinh thành đối thoại hỏi đáp số liệu
  2. Tri thức dẫn đường số liệu sinh thành: Thông qua Knowledge-based Self-Instruct phương thức căn cứ vào tiếng Trung pháp luật kết cấu hóa tri thức sinh thành số liệu.
  3. Dẫn vào ChatGPT rửa sạch số liệu, phụ trợ cấu tạo cao chất lượng số liệu tập.

Mô hình huấn luyện

LawGPT hệ liệt mô hình huấn luyện quá trình chia làm hai cái giai đoạn:

  1. Đệ nhất giai đoạn: Mở rộng pháp luật lĩnh vực từ biểu, ở đại quy mô pháp luật công văn cập pháp điển số liệu thượng dự huấn luyện Chinese-LLaMA
  2. Đệ nhị giai đoạn: Cấu tạo pháp luật lĩnh vực đối thoại hỏi đáp số liệu tập, ở dự huấn luyện mô hình cơ sở thượng mệnh lệnh tinh điều

Lần thứ hai huấn luyện lưu trình

  1. Tham khảoresources/example_instruction_train.jsonCấu tạo lần thứ hai huấn luyện số liệu tập
  2. Vận hànhscripts/train_clm.sh

Mệnh lệnh tinh điều bước đi

  1. Tham khảoresources/example_instruction_tune.jsonCấu tạo mệnh lệnh hơi điều số liệu tập
  2. Vận hànhscripts/finetune.sh

Tính toán tài nguyên

8 trương Tesla V100-SXM2-32GB: Lần thứ hai huấn luyện giai đoạn tốn thời gian ước 24h / epoch, hơi điều giai đoạn tốn thời gian ước 12h / epoch

Mô hình đánh giá

Phát ra thí dụ mẫu

Vấn đề: Say rượu lái xe đâm người như thế nào hình phạt?

Vấn đề: Thỉnh cấp ra phán quyết ý kiến.

Vấn đề: Thỉnh giới thiệu đánh bạc tội định nghĩa.

Vấn đề: Xin hỏi tăng ca tiền lương như thế nào tính?

Vấn đề: Dân gian mượn tiền chịu quốc gia bảo hộ hợp pháp lợi tức là nhiều ít?

Vấn đề: Thiếu thẻ tín dụng tiền còn không thượng muốn ngồi tù sao?

Vấn đề: Ngươi có không viết một đoạn cướp bóc tội tội danh vụ án miêu tả?

Cực hạn tính

Bởi vì tính toán tài nguyên, số liệu quy mô chờ nhân tố hạn chế, trước mặt giai đoạn LawGPT tồn tại rất nhiều cực hạn tính:

  1. Số liệu tài nguyên hữu hạn, mô hình dung lượng nhỏ lại, dẫn tới này tương đối yếu kém mô hình ký ức cùng ngôn ngữ năng lực. Bởi vậy, ở đối mặt sự thật tính tri thức nhiệm vụ khi, khả năng sẽ sinh thành không chính xác kết quả.
  2. Nên hệ liệt mô hình chỉ tiến hành bước đầu nhân loại ý đồ đối tề. Bởi vậy, khả năng sinh ra không thể đoán trước có hại nội dung cùng với không phù hợp nhân loại thiên hảo cùng giá trị quan nội dung.
  3. Tự mình nhận tri năng lực tồn tại vấn đề, tiếng Trung lý giải năng lực còn chờ tăng cường.

Thỉnh chư quân ở sử dụng trước hiểu biết kể trên vấn đề, để tránh tạo thành hiểu lầm cùng không cần thiết phiền toái.

Hợp tác giả

Như sau các vị hợp tác khai triển ( ấn chữ cái tự sắp hàng ):@cainiao,@njuyxw,@pengxiao-song,@WNJXYK

Chỉ đạo lão sư: Lý vũ phong, quách lan triết, đồ uy uy (), từ Nam Kinh đại học máy móc học tập cùng số liệu khai quật nghiên cứu tổ ( ) duy trì

Miễn trách thanh minh

Thỉnh các vị nghiêm khắc tuân thủ như sau ước định:

  1. Bổn hạng mục bất luận cái gì tài nguyênChỉ cung học thuật nghiên cứu sử dụng, nghiêm cấm bất luận cái gì thương nghiệp sử dụng.
  2. Mô hình phát ra chịu nhiều loại không xác định tính nhân tố ảnh hưởng, bổn hạng mục trước mặt vô pháp bảo đảm này chuẩn xác tính,Nghiêm cấm dùng cho chân thật pháp luật cảnh tượng.
  3. Bổn hạng mục không gánh vác bất luận cái gì pháp luật trách nhiệm, cũng không đối nhân sử dụng tương quan tài nguyên cùng phát ra kết quả mà khả năng sinh ra bất luận cái gì tổn thất gánh vác trách nhiệm.

Vấn đề phản hồi

Như có vấn đề, thỉnh ở GitHub Issue trung đệ trình.

  • Đệ trình vấn đề phía trước, kiến nghị tìm đọc FAQ cập dĩ vãng issue xem hay không có thể giải quyết ngài vấn đề.
  • Thỉnh lễ phép thảo luận, xây dựng hài hòa xã khu.

Hợp tác giả nghiên cứu khoa học rất nhiều đẩy mạnh hạng mục tiến triển, bởi vì nhân lực hữu hạn khó có thể thật khi phản hồi, cấp chư quân mang đến không tiện, kính thỉnh thông cảm!

Trí tạ

Bổn hạng mục căn cứ vào như sau khai nguyên hạng mục triển khai, tại đây đối tương quan hạng mục cùng khai phá nhân viên tỏ vẻ chân thành cảm tạ:

Ngoài ra, bổn hạng mục căn cứ vào mở ra số liệu tài nguyên, tường thấyAwesome Chinese Legal Resources,Cùng nhau tỏ vẻ cảm tạ.

Trích dẫn

Nếu ngài cảm thấy chúng ta công tác đối ngài có điều trợ giúp, thỉnh suy xét trích dẫn nên hạng mục.

@misc{lawgpt,
title={LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model},
author={Zhi Zhou and Jiang-Xin Shi and Peng-Xiao Song and Xiao-Wen Yang and Yi-Xuan Jin and Lan-Zhe Guo and Yu-Feng Li},
year={2024},
eprint={2406.04614},
archivePrefix={arXiv},
primaryClass={cs.CL}
}

About

🎉 Repo for LaWGPT, Chinese-Llama tuned with Chinese Legal knowledge. Căn cứ vào tiếng Trung pháp luật tri thức đại ngôn ngữ mô hình

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published