Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

大问题,BigProblem #33

Open
lucasjinreal opened this issue Jun 6, 2023 · 1 comment
Open

大问题,BigProblem #33

lucasjinreal opened this issue Jun 6, 2023 · 1 comment

Comments

@lucasjinreal
Copy link

lucasjinreal commented Jun 6, 2023

我发现这个底座没有任何中国古典文化的内容,或者说相对较少,我常识自己feintune了一个lora,和你训练的sft模型进行了比对。
惊讶的发现,底座没有能力背诵古诗:

SFT的输出

> 背诵静夜思
《静夜思》是意大利诗人但丁·阿利吉耶里创作的一首著名诗。下面是这首诗的前四节:


从黄昏到夜晚,
我独坐在我的房间里;
我看着窗外的星光,
思念着远方的你。


我的心像流水一样,
不断地想着你那美丽的脸庞;
我感到非常孤独和寂寞,
希望你能 soon return to me.


但是我知道,
这一切都只能在梦中实现;
我不停地梦想着与你重逢,
在这静夜思的时光里。
> 背诵杜甫的《绝句 两个黄鹂鸣翠柳》
两个黄昏鸟鸣翠,
一树春色满枝头。
人有悲欢离合,
天地间万物情。
> 背诵《水调歌头 明月几时有》
《水调歌头 明月几时有》是唐代诗人李白的一首著名诗,也是中国文学史上最著名、最具代表性的诗歌之一。以下是这首诗的全句:

明月几时有?把酒问青天。

我独坐,共夜深。

举杯邀明月,对影成三人。

月既不解饮,影徒随我身。

长夜难为客,更作思远游。

行到水穷处,坐看云起时。

此情可待成追忆,只是当时已惘然。
> 

我自己finetune的lora也是类似的输出。

似乎跟训练数据无关,底座是真的没有这个能力,那这个问题就大了。楼主有何见解?

@Neutralzz
Copy link
Owner

好像这类数据在wudao的语料里占比就是很低,另外,BiLLa第一、二阶段预训练加起来实际只跑完了wudao的1/3语料

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants