自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 问答 (1)
  • 收藏
  • 关注

原创 Datawhale 2024 年 AI 夏令营第二期——基于术语词典干预的机器翻译挑战赛

基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。#AI夏令营 #Datawhale #夏令营。·训练集:双语数据:中英14万余双语句对。·测试集:英中1000双语句对。

2024-07-12 10:31:13 371

原创 Datawhale 2024 年 AI 夏令营第二期——电力需求预测挑战赛

其中id为房屋id,dt为日标识,训练数据dt最小为11,不同id对应序列长度不同;type为房屋类型,通常而言不同类型的房屋整体消耗存在比较大的差异;target为实际电力消耗,也是我们的本次比赛的预测目标。下面进行简单的可视化分析,帮助我们对数据有个简单的了解。

2024-07-11 17:10:08 1085 5

原创 zsh: ./pre.sh: bad interpreter: /bin/bash^M: no such file or directory

【代码】zsh: ./pre.sh: bad interpreter: /bin/bash^M: no such file or directory。

2024-07-04 21:49:32 449

原创 Datawhale 2024 年 AI 夏令营第一期的学习活动-基于星火大模型的群聊对话分角色要素提取挑战赛

群聊对话分角色要素提取的研究,将企业对话数据转化为可用的信息和智能的洞察,为企业营销和服务提供了新的思路和方法。通过挖掘对话数据中隐藏的客户行为特征和趋势,企业可以更加精准地进行客户定位、推广营销和产品服务,实现营销效果的最大化和客户价值的最大化。通过对群聊对话数据进行分析,企业可以更好地理解客户的需求、兴趣和行为模式,从而精准地把握客户的需求和心理,提供更加个性化和优质的服务。在当今数字化时代,企业积累了丰富的对话数据,这些数据不仅是客户与企业之间交流的记录,更是隐藏着宝贵信息的宝库。

2024-07-04 12:36:50 265

原创 【机器学习】Datawhale-AI夏令营分子性质AI预测挑战赛

一、赛事背景在当今科技日新月异的时代,人工智能(AI)技术正以前所未有的深度和广度渗透到科研领域,特别是在化学及药物研发中展现出了巨大潜力。精准预测分子性质有助于高效筛选出具有优异性能的候选药物。以PROTACs为例,它是一种三元复合物由目标蛋白配体、linker、E3连接酶配体组成,靶向降解目标蛋白质。本次大赛聚焦于运用先进的人工智能算法预测其降解效能,旨在激发参赛者创新思维,推动AI技术与化学生物学的深度融合,进一步提升药物研发效率与成功率,为人类健康事业贡献智慧力量。

2024-07-03 21:49:06 1087

原创 Apple MacBook M1 芯片 Anaconda安装 Tensorflow Pytorch

参考:https://www.cnblogs.com/dangui/p/15128418.html

2024-06-25 09:15:54 102

原创 jupyter 使用可视化库matplotlib绘图时,plt.show()过后只出现<Figure size 640x480 with 3 Axes>而没有生成图片

导入库之后添加以下代码即可。

2024-06-24 15:24:53 90

原创 WPS字母上方打出横杠(-)或尖角(^)

例子1:y上方插入横杠。例子2:y上方插入^

2024-05-09 19:44:09 561

原创 pandas读取csv DtypeWarning: Columns (1,6) have mixed types.

改为pd.read_csv(file, low_memory=False)

2023-11-17 15:45:26 210

原创 unzip 遇到 error: cannot create ... Illegal byte sequence

����壵��_2017զ�զ�զ�������_2018-04-22.pdf。

2023-11-05 15:24:28 234

原创 import tweepy 报错 from __future__ import annotations ^SyntaxError: future feature annotations is

仅从Python3.7开始可用,python版本为3.7以上可解决。

2023-09-04 20:43:11 256

原创 Coggle 30 Days of ML(23年8月)任务8:ChatGPT文本匹配

ChatGPT是一个基于OpenAI的GPT(Generative Pre-trained Transformer)模型的变种,它是一个强大的自然语言处理(NLP)工具。GPT系列模型的主要特点是预训练和生成能力,能够根据输入的文本生成具有连贯性和合理性的输出文本。Prompt是用户向模型提供任务指导和输入信息的方式,它直接影响了模型生成的回答或结果的质量和准确性。一个好的prompt可以引导模型产生有用、合理且符合预期的回答,而一个不合适或模糊的prompt可能导致模型输出错误、无关或混乱的内容。

2023-08-23 18:53:40 111

原创 Coggle 30 Days of ML(23年8月)任务7:ChatGPT渲染表格

ChatGPT是一个基于OpenAI的GPT(Generative Pre-trained Transformer)模型的变种,它是一个强大的自然语言处理(NLP)工具。GPT系列模型的主要特点是预训练和生成能力,能够根据输入的文本生成具有连贯性和合理性的输出文本。Prompt是用户向模型提供任务指导和输入信息的方式,它直接影响了模型生成的回答或结果的质量和准确性。一个好的prompt可以引导模型产生有用、合理且符合预期的回答,而一个不合适或模糊的prompt可能导致模型输出错误、无关或混乱的内容。

2023-08-23 17:39:30 56

原创 Coggle 30 Days of ML(23年8月)任务6:ChatGPT关系抽取

ChatGPT是一个基于OpenAI的GPT(Generative Pre-trained Transformer)模型的变种,它是一个强大的自然语言处理(NLP)工具。GPT系列模型的主要特点是预训练和生成能力,能够根据输入的文本生成具有连贯性和合理性的输出文本。Prompt是用户向模型提供任务指导和输入信息的方式,它直接影响了模型生成的回答或结果的质量和准确性。一个好的prompt可以引导模型产生有用、合理且符合预期的回答,而一个不合适或模糊的prompt可能导致模型输出错误、无关或混乱的内容。

2023-08-23 17:34:08 90

原创 Coggle 30 Days of ML(23年8月)任务5:ChatGPT实体抽取

ChatGPT是一个基于OpenAI的GPT(Generative Pre-trained Transformer)模型的变种,它是一个强大的自然语言处理(NLP)工具。GPT系列模型的主要特点是预训练和生成能力,能够根据输入的文本生成具有连贯性和合理性的输出文本。Prompt是用户向模型提供任务指导和输入信息的方式,它直接影响了模型生成的回答或结果的质量和准确性。一个好的prompt可以引导模型产生有用、合理且符合预期的回答,而一个不合适或模糊的prompt可能导致模型输出错误、无关或混乱的内容。

2023-08-23 17:21:15 115

原创 Coggle 30 Days of ML(23年8月)任务4:ChatGPT文本分类

一个好的prompt可以引导模型产生有用、合理且符合预期的回答,而一个不合适或模糊的prompt可能导致模型输出错误、无关或混乱的内容。1.在不使用训练集的情况下,编写prompt让ChatGPT对于输入的文本进行分类,需要支持输入5条文本一次回答得到所有类别结果,且分类结果为0或1。2. 在使用训练集的情况下,编写prompt让ChatGPT对于输入的文本进行分类,需要支持输入5条文本一次回答得到所有类别结果,且分类结果为0或1。根据输入的结果来看,没提供训练集,分类结果与正确结果一致。

2023-08-23 17:14:21 60

原创 Coggle 30 Days of ML(23年8月)任务3:ChatGPT自动EDA

ChatGPT是一个基于OpenAI的GPT(Generative Pre-trained Transformer)模型的变种,它是一个强大的自然语言处理(NLP)工具。GPT系列模型的主要特点是预训练和生成能力,能够根据输入的文本生成具有连贯性和合理性的输出文本。Prompt是用户向模型提供任务指导和输入信息的方式,它直接影响了模型生成的回答或结果的质量和准确性。一个好的prompt可以引导模型产生有用、合理且符合预期的回答,而一个不合适或模糊的prompt可能导致模型输出错误、无关或混乱的内容。

2023-08-23 17:05:09 50

原创 Coggle 30 Days of ML(23年8月)任务2:ChatGPT编写正则

ChatGPT是一个基于OpenAI的GPT(Generative Pre-trained Transformer)模型的变种,它是一个强大的自然语言处理(NLP)工具。GPT系列模型的主要特点是预训练和生成能力,能够根据输入的文本生成具有连贯性和合理性的输出文本。Prompt是用户向模型提供任务指导和输入信息的方式,它直接影响了模型生成的回答或结果的质量和准确性。一个好的prompt可以引导模型产生有用、合理且符合预期的回答,而一个不合适或模糊的prompt可能导致模型输出错误、无关或混乱的内容。

2023-08-23 16:36:08 49

原创 Coggle 30 Days of ML(23年8月)任务1:初识ChatGPT

ChatGPT是一个基于OpenAI的GPT(Generative Pre-trained Transformer)模型的变种,它是一个强大的自然语言处理(NLP)工具。GPT系列模型的主要特点是预训练和生成能力,能够根据输入的文本生成具有连贯性和合理性的输出文本。ChatGPT特别针对对话式应用进行了优化。它经过在大规模文本数据上进行预训练,并通过阅读大量的对话数据来学习对话风格和语言表达。因此,它可以用于许多自然语言处理任务,如对话生成、问答系统、文本摘要、语言翻译等。

2023-08-23 15:58:17 50

原创 Coggle 30 Days of ML(23年7月)-task8

ChatGPT生成文本检测器-task8

2023-07-16 17:24:18 89

原创 Coggle 30 Days of ML(23年7月)-task7

ChatGPT生成文本检测器-task7

2023-07-16 17:22:29 57

原创 Coggle 30 Days of ML(23年7月)-task6

ChatGPT生成文本检测器-task6

2023-07-15 22:24:54 65

原创 Coggle 30 Days of ML(23年7月)-task5

ChatGPT生成文本检测器-task5

2023-07-15 22:00:35 67

原创 Coggle 30 Days of ML(23年7月)-task4

ChatGPT生成文本检测器-task4

2023-07-15 21:46:22 172

原创 ChatGPT生成文本检测器-task3

ChatGPT生成文本检测器-task3

2023-07-15 21:27:50 172

原创 Coggle 30 Days of ML(23年7月)-task2

ChatGPT生成文本检测器-task2

2023-07-15 21:17:53 60

原创 Coggle 30 Days of ML(23年7月)-task1

ChatGPT生成文本检测器-task1

2023-07-15 16:45:24 97

原创 Amazon CodeWhisperer:AI编程助手

(1)安装简单:Amazon CodeWhisperer作为一个插件,集成到Visual Studio(VS)Code 和 JetBrains IDE(IntelliJ、PyCharm、CLion、GoLand、WebStorm、Rider、PhpStorm、RubyMine 和 DataGrip)等等常用的IDE中,安装很方便。(2)使用方便:启动插件之后,在进行编写代码时可以唤醒进行代码续写,目前尝试的集中函数,效果还不错,期待后续的体验感受。收到建议后,使用 TAB 键接受并使用箭头键进行导航。

2023-05-21 15:36:20 1585 1

原创 mac m1 安装neo4j

neo4j mac

2023-03-04 16:43:24 540

原创 文本相似度匹配-task5

文本相似度匹配-task5

2023-02-01 11:12:50 1016 1

原创 文本相似度匹配-task4

文本相似度匹配-task4

2023-02-01 11:05:43 154

原创 文本相似度匹配-task3

文本相似度匹配-task3

2023-02-01 10:32:25 172

原创 文本相似度匹配-task2

文本相似度匹配-task2

2023-02-01 10:05:59 115

原创 文本相似度匹配-task1

文本相似度匹配-task1

2023-02-01 09:43:58 655

原创 windows10+python3.7.0(anaconda)+MeCab安装总结

从github上下载MeCab,使用python setup.py install一直报错,后来在网上查了很多资料,终于试验出了可以安装在python3.7.0版本的方法。1.下载exe安装版本(url:http://taku910.github.io/mecab/ )2.下载后,双击mecab-0.996.exe,选择utf8,然后再选择安装位置,一直同意下去。3.下载py...

2019-04-25 10:11:03 2924

原创 python爬虫scrapy安装

自己在安装scrapy的时候,也是碰了很多壁,特把自己遇到的问题写出来,大家引以为戒。我是搜了很多资料,安装scrapy的,网上的安装教程大多差不多,中间缺了很多详细的步骤,我的安装是看着小甲鱼的安装附上其视频连接,http://v.youku.com/v_show/id_XMTcxNDUzOTMyMA==.html?from=s1.8-1-1.2&spm=a2h0k.8191407.0.

2016-11-09 09:37:33 263

chatGLM2训练json

chatGLM2训练json

2024-05-15

MWEC:一种基于多语义词向量的中文新词发现方法,论文支撑数据,以及WEBM简单复现代码

MWEC:一种基于多语义词向量的中文新词发现方法,论文支撑数据,以及WEBM简单复现代码 MWEC:一种基于多语义词向量的中文新词发现方法,论文支撑数据; Detecting new Chinese words from massive domain texts with word embedding复现代码,基于词向量+n-gram频数,平均互信息(AMI),左右熵(entropy); 简单新词发现结果在soprts下。

2023-03-09

新闻、音乐、体育、旅游等语料训练的词向量

新闻、音乐、体育、旅游等语料训练的词向量

2023-03-07

Pre-trained-BERT-model-using-own-corpus

使用自己的语料训练预训练模型,使用1000句藏文进行简单训练和测试。 1.准备1000句藏文 2.先训练一个分词器 3.创建pipeline 4.训练模型 5.进行测试 Pre-trained BERT model using own corpus, such as Tibetan. 1.Getting the data 2.Building a tokenizer 3.Creating an input pipeline 4.Training the model 5.Testing reference: https://towardsdatascience.com/how-to-build-a-wordpiece-tokenizer-for-bert-f505d97dddbb to train tokenizer https://towardsdatascience.com/how-to-train-a-bert-model-from-scratch-72cfce554fc6

2023-03-07

用于政策扩散分析的CO2数据

# Climate Policy Diffusion This repository contains the code and data used for the analysis in the paper "The international diffusion of climate policy: Theory and evidence". The paper is available [here](https://www.rff.org/publications/working-papers/the-international-diffusion-of-climate-policy-theory-and-evidence/). This paper investigates mechanisms of climate policy diffusion across national jurisdictions in the context of the Paris Agreement.

2023-03-07

百度哈工大等的停用词表汇总

百度哈工大等的停用词表汇总

2023-03-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除