创业者说 | 达看数据陈运文：探索大语言模型，「对症下药」很要害

misa2 03-24 3次浏览 0条评论

近期，在由中国人工智能学会主办，真格基金联合承办的「 ChatGPT 及大规模专题研讨会」上，达看数据董事长兼 CEO 陈运文博士以「探索大语言模型垂直化练习技术和使用」为题做了主题演讲，分享了他与团队在大语言模型使用过程的探索与探求，期看可以给你带来一些启发，也欢迎大家和我们在评论区互动。

达看数据是真格基金在 2015 年投资的天使项目，是一家专注于文本智能处理技术的国家高新技术企业。达看基于多年文本智能技术积存和垂直领域场景业务体会，正在积极探索大语言模型 LLM 的实践，研发国产版 GPT「曹植」系统。更多详情欢迎点击下图了解?‍

本文整理自达看创始人陈运文的演讲，内容主要分为六块，分别是：

1. 参数规模和数据规模的探索

2. 垂直领域适应预练习

3. 微调技术探索

4. 提示工程和垂直优化

5. 模型练习加速构思

6. 模型功能的垂直效能增强

在达看数据探索大语言模型使用过程中，他将团队的探求列为了四点：

1. 整体来看，尽管模型的参数规模越大越好，但可探干脆价比更高的参数规模方案 ‍

2. 练习数据尽管越多越好，但针对垂直场景可探索更高效和有针对性的数据提炼方法 ‍

3. 为强化垂直方向的效果，可在模型预练习和微调技术上探索一些好的构思 ‍

4. 为更贴合垂直场景的产品使用，探索模型的功能增强、以及 prompt 等方向的产品创新

达看数据

，赞 10

参数规模和数据规模的探索

DATAGRAND

一、缩放法则（Scaling Laws）

众所周知，大模型的算力非常惊人。在 2020 年，从 OpenAI 在语言模型方面的研究可以看到，语言模型的效果与参数量、数据量、计算量基本呈平滑的幂定律——缩放法则（Scaling Laws）。随着模型的参数量（Parameters）、参与练习的数据量（Tokens）以及练习过程累积的计算量（FLOPS）的指数性增大，模型在测试集上的 Loss 就线性降低，也就意味着模型的效果越好。

展开全文

Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

如下图所示，在运算量的增加过程中，参数规模的增加可以起到更要害的作用。在给定的计算量且参数规模较小时，增大模型参数量对于模型效果的奉献，远优于增加数据量和练习步数。这也作为后续推出的 GPT-3(175B) 和其他千亿级别模型奠定了理论基础。

Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

二、Compute-Optimal

在 2022 年，DeepMind 在 ScalingLaw 里又做了进一步分析。研究通过定量的实验验证，语言模型练习数据大小，应该和模型参数量大小等比放大。可以看到，在计算总量不变的情状下，模型练习的效果在参数量和练习数据量当中有个最优平衡点，曲线下面的最低点是在参数规模和练习数据量当中有个非常好的折中点。

Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022.

进一步研究表明，像 GPT-3(175B) 这么大规模的参数里，用这三种计算方式进行拟合的话，会发现 GPT-3 并没有足够得到练习。

因此，我们需要考虑真正落地使用在垂直领域时，千亿级别参数规模的浩大模型所消耗的浩大成本，以避免参数的浪费。

Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022.

三、Open and Efficient

Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and Efficient Foundation Language Models[J]. arXiv preprint arXiv:2302.13971, 2023.

Meta 受到 DeepMind 理论的启发，在 2023 年推出了百亿模型 LLaMA，经过 1.4 万亿 Token（近 4.7 倍于 GPT-3 ）的练习数据，在很多下游实验任务当中效果明显好于 GPT3 千亿规模的参数。因此，即便你的参数规模可能没那么大，增加练习 Token 量依然能够看到效果。

Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and Efficient Foundation Language Models[J]. arXiv preprint arXiv:2302.13971, 2023.

在练习过程中，无论是 65B、33B、17B，甚至 7B 的小模型，在练习数据接近超过万亿 Token 之后，下游任务的效果仍在提升，也就是说这些参数的潜力可以通过更多 Token 练习进一步激发出来。故此可推断，百亿模型的潜力仍有待深进挖掘，特别在算力资源受限的情状下，存在性价比更高的优化空间。

四、数据规模存在瓶颈：开放数据即将耗尽

Villalobos P, Sevilla J, Heim L, et al. Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning[J]. arXiv preprint arXiv:2211.04325, 2022.

在我们做更大参数规模的模型练习时，数据已经逐步开始显现出力不从心的地方。上图是结合历史数据增长率和数据使用率做出的推断，有研究估量互联网上可用的数据资源很有可能会被耗尽。

高质量的语言数据按照目前的发展速度，估量 2026 年可能就要耗尽

低质量的语言数据（如日常谈天等）到 2025 年就耗尽；

多模态的数据（比如视觉图像）到 2060 年要耗尽；

五、通用大模型的预练习数据集研究

大规模语言模型的预练习数据规模不断增加，但即使使用的是开放数据，也少有团队公开所使用的数据集和其包含的详尽信息。通过 Pile 数据集提供的为数不多的 “Datasheet for Datasets” 信息可以看到，Wiki 百科、书籍、学术期刊等高质量语料数据起到要害性作用。

大模型预练习数据可视化

Alan D. Thompson. What’s in my AI? A Comprehensive Analysis of Datasets used to Train GPT-1, GPT-2, GPT-3, GPT-NeoX-20B, Megatron-11B, MT-NLG, and Gopher.

六、通用预练习之对数据多样性的分析

The Pile v1数据集的构成（800GB）

Gao L, Biderman S, Black S, et al. The pile: An 800gb dataset of diverse text for language modeling[J]. arXiv preprint arXiv:2101.00027, 2020.

在通用预练习过程中，不同类型的文本代表不同的能力。如绿色的文本是练习通用的知识。像学术文本（蓝色），包括一些出版物（橙色）等等，一部分是练习专业领域的知识，另一部分是练习一些带有情感的讲故事和发明性文艺创作的能力。对话文本（黄色）虽然规模不大，但是它对提升对话能力非常有扶助。除此之外，还有练习 COT 能力的代码、数学题等，这些数据规模参差不齐，但多样性的数据对提升语言大模型的综合性能起到非常重要的作用。

七、多语种和能力迁移

Blevins T, Zettlemoyer L. Language Contamination Helps Explains the Cross-lingual Capabilities of English Pretrained Models[C]//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022: 3563-3574.

今天我们看到多语种数据练习和能力迁移非常有异议。研究表明，大规模单语种（英语）预练习中，即使混进的不足 0.1% 其他语种，也会让模型拥有显著的跨语种能力。语言之间存在某种共性，且底层的知识和认知能力是跨语言的，因此混合练习可以起到一定的增强作用。

单语种中其他语种 token 数量与占比

单语种下其他语种词性标注任务性能

语种越接近，能力迁移作用越明显。如上图，汉语虽然语料占比非常低，但是效果不错。因此，在练习语料和语料聚集构成中，不同语言的语料相互影响。

八、抉择最适宜的练习数据

Madaan A, Zhou S, Alon U, et al. Language models of code are few-shot commonsense learners[J]. arXiv preprint arXiv:2210.07128, 2022.

在复杂任务如事件和图推理上的实验表明，代码练习显著增强大模型的常识推理能力，且仅使用有限的代码练习量就能取得比 fine-turned T5 模型明显得多的效果提升。

Madaan A, Zhou S, Alon U, et al. Language models of code are few-shot commonsense learners[J]. arXiv preprint arXiv:2210.07128, 2022.

正确的练习数据对提升某些能力有重要效果，“对症下药”很要害，未来在垂直领域任务中可能存在优化空间。

九、探索预练习的数据过滤和提纯方法

现在常用的模型数据提纯方法有两类，一类是上图这个，它用到传统的文本分类技术，将高质量的文本作为正面的样本聚集，一部分如大量带有互联网上的垃圾广告或者低质量评论等数据做负面样本。标注以后送到分类器里分类，再把高质量的文本提取出来。这是一种常规方法，但严重依靠文本分类、数据标注等，费时费力。

Xie S M, Santurkar S, Ma T, et al. Data Selection for Language Models via Importance Resampling[J]. arXiv preprint arXiv:2302.03169, 2023.

另一类是基于重要性摘样的数据提纯方法。我们在目的样本集里人为的挑出一些我们认可的高质量的数据，对这个高质量的数据做一个 KL reduction，并且做相应分布计算。得出的目的样本的聚集越接近，重要性越高，这种方式相对更轻易提纯出优质语料用来做模型练习。

垂直领域适应预练习

DATAGRAND

探索垂直领域大模型预练习的三种构思：

先用大规模通用语料预练习，再用小规模领域语料二次练习

直接进行大规模领域语料预练习

通用语料比例混合领域语料同时练习

先用大规模通用语料预练习，再用小规模领域语料二次练习

直接进行大规模领域语料预练习

通用语料比例混合领域语料同时练习

一、探索路线一：自适应预练习

先大规模通用语料预练习，再用小规模领域语料预练习。

Gururangan S, Marasović A, Swayamdipta S, et al. Don't stop pretraining: Adapt language models to domains and tasks[J]. arXiv preprint arXiv:2004.10964, 2020.

这里有两种不同的处理方法，一种是领域自适应的预练习，喊 “DAPT”，DAPT 后在领域任务上相比通用模型效果提升，但是 DAPT 后的领域模型在其它领域上效果比通用模型效果差。

Gururangan S, Marasović A, Swayamdipta S, et al. Don't stop pretraining: Adapt language models to domains and tasks[J]. arXiv preprint arXiv:2004.10964, 2020.

另外一种喊任务自适应预练习，它是在任务的数据集进行练习，喊 “TAPT”。

TAPT 相比通用模型也更好，DAPT +TAPT 效果最佳。

二、预微调

预微调（Pre-Finetuning）技术也是路线一当中可以尝试的一个方法。在预微调的过程中不同任务的 loss 进行缩放后再累加，而且对预微调工作不进行数据摘样，保护它的自然分布效果最佳。

Aghajanyan A, Gupta A, Shrivastava A, et al. Muppet: Massive multi-task representations with pre-finetuning[J]. arXiv preprint arXiv:2101.11038, 2021.

如图，多任务的数据集对它进行 Pre-Finetuning，不同的任务聚集越多，最终得到的预微调的模型效果就越好。

Aghajanyan A, Gupta A, Shrivastava A, et al. Muppet: Massive multi-task representations with pre-finetuning[J]. arXiv preprint arXiv:2101.11038, 2021.

预微调模型的效果比原始模型的效果在上面几个经典的大语言模型上都取得了不错的效果。

三、能力对比

“Codex comments tend to reproduce similar biases to GPT-3, albeit with less diversity in the outputs.” “when the model is used to produce comments in an out-of-distribution fashion, it tends to act like GPT-3.”

—— OpenAI

《Evaluating large language models trained on code》

—— OpenAI

《Evaluating large language models trained on code》

Chen M, Tworek J, Jun H, et al. Evaluating large language models trained on code[J]. arXiv preprint arXiv:2107.03374, 2021.

OpenAI 有一篇论文里提到小规模语料预练习后对通用文本的生成能力并没有负面影响。当涉及与 Code 领域无关的文本生成时，Codex 的生成和 GPT-3 的生成差异不大，体现在两者有很多共现的词，区别是 GPT-3 表述更多样性。由此猜想小规模领域语料预练习后的大模型在自身领域内相比通用大模型增强，而在通用生成上表现与通用大模型相当。这是我们值得未来探索的。

四、探索路线二：效果分析

直接进行大规模领域语料预练习工作。

BioMedLM: a Domain-Specific Large Language Model for Biomedical Text（)

一个医学领域的代表模型 PubMedGPT 2.7 B。一个是金融领域 BBT-FinT5 模型。它们的参数规模都不大，但是这些用垂直领域的数据做的专用练习，它的效果比参数规模更小一点的小模型来说有非常明显的提升。另外，和相同规模通用大规模的 Finetune 相比，垂直领域大模型的效果仍然是领先的。

因此，路线二是一个性价比非常高的方案，它用到的参数规模并不大，但在垂直领域的效果不错。同时，垂直领域大模型所用资源会比通用大模型少很多，并且和超大规模模型在垂直领域的效果是接近的，这种方式也给我们开启了一些尝试的空间。

五、知识增强

知识增强是专业领域的知识增强，可以较好的探索路线二时提升它的专业模型练习效果。

Lu D, Liang J, Xu Y, et al. BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark[J]. arXiv preprint arXiv:2302.09432, 2023.

在这个知识三元组（ head、relation、tail ）里，把一部分内容做了一个掩码，进行预练习。

Lu D, Liang J, Xu Y, et al. BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark[J]. arXiv preprint arXiv:2302.09432, 2023.

使用了知识增强技术的领域大模型在领域任务上的效果，好于领域小模型和通用大模型。所以这可能是一条值得往探索的中间道路，是一种垂直领域比大模型要略小一点，但比小模型要大的中间态的模型。

六、探索路线三：语料按比例混合，同时预练习

通用语料比例混合领域语料同时预练习。这方面目前没有研究报告，但是我们做了些推测：

数据规模：通用语料+领域语料千亿 tokens

数据比例：领域语料占总语料比例应显著高于通用语料中该领域的自然比例，且领域语料占总语料比例应显著高于通用语料中各领域自然比例的最大值（显著高于的含义：可能是至少高 1 个数量级）

模型规模： 10B

保障练习batch中数据异质性，使得 loss 下降在练习过程中更平稳

知识增强技术

微调领域增

微调技术探索

DATAGRAND

一、增量微调

我们对微调技术做了一些探索，目的是为了降低大模型的微调成本，同时能够更高效地把一些专业领域的知识引进进来。

与微调进行的实验对比

Ding N, Qin Y, Yang G, et al. Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models[J]. arXiv preprint arXiv:2203.06904, 2022.

结果展示，delta tuning 和 fine tuning 之间的差距并非不可逾越，这证实了参数有效自适应的大规模使用的潜力。上图列了不同研究者提出的增量微调的技术，比如有的是在 PLM 层之间加进一层适配器模块，还有通过更新预先插进的参数来调整 PLM 等等。这些都是在局部来做模型参数的调整，能够把这些理论知识加进往，同时又不影响整个模型大规模使用的潜力。

二、多任务提示/指令微调

Muennighoff N, Wang T, Sutawika L, et al. Crosslingual generalization through multitask finetuning[J]. arXiv preprint arXiv:2211.01786, 2022.

指令微调的目的是提升语言模型在多任务中的零样本推理能力。微调后的语言模型具有很强的零任务概括能力。

Muennighoff N, Wang T, Sutawika L, et al. Crosslingual generalization through multitask finetuning[J]. arXiv preprint arXiv:2211.01786, 2022.

上图是其中一个研究结果，像 BLOOMZ、Flan-T5、mT0 这些模型上面，通过使用多任务的提示微调或者指令微调技术，效果有不错的提升。

三、COT（Chain-of-Thought）微调

Magister L C, Mallinson J, Adamek J, et al. Teaching small language models to reason[J]. arXiv preprint arXiv:2212.08410, 2022.

Ho N, Schmid L, Yun S Y. Large Language Models Are Reasoning Teachers[J]. arXiv preprint arXiv:2212.10071, 2022.

Fu Y, Peng H, Ou L, et al. Specializing Smaller Language Models towards Multi-Step Reasoning[J]. arXiv preprint arXiv:2301.12726, 2023.

COT 的微调也是一个很不错的技术，将文本 (questions + prompt) 输进给大模型，用大模型输出含有思维链且正确的文本作为 label 。再用上述数据组成的数据对（Reasoning samples），直接对小模型进行微调。使小语言模型获得思维链能力。

提示 Prompt 垂直优化

DATAGRAND

一、提示工程（ Prompt Engineering ）

在大模型领域里，Prompt 是一个新的研究领域，Prompt 能否用好，对未来在垂直领域能否做出优异的产品起到重要的作用。在这方面我们也做了一些探求，认为垂直领域的提示工程（Prompt Engineering）未来在垂直领域落地产品时会有很多创新点。在垂直领域创新工程方面，我们的大构思是让模型完成垂直领域指定任务后，在 prompt 当中提出明确的要求，这样能够把垂直领域的专业任务变成模型期看的输出。

这一过程当中，产品化很重要。今天所谓的指令提示工程，很多时候还是大段的文字，只不过不同的方式往描述而已。因此，未来在复杂的垂直领域任务可能需要极为丰盛的 prompt 信息，包括各类事实、数据、要求等，并存在层层递进的多步骤任务，因此值得探索产品化方案来生成 prompt。

二、提示工程的两种构思

现在我们尝试两种构思，一种是产品化构思。产品化的是请垂直领域的专家，针对每项垂直任务，来设计用于生成 prompt 的产品，由专家编写大量不同的 prompt，评估或输出好的 prompt 后，进行片段切分，形成相应的产品，这对未来 AIGC 任务会起到很好的作用。另一种是自动化的构思，通过借过外部工具，或通过自动化的流程方法和练习方式，对 Prompt 进行自动优化。

Automatic Prompt Engineer (APE)

Zhou Y, Muresanu A I, Han Z, et al. Large language models are human-level prompt engineers[J]. arXiv preprint arXiv:2211.01910, 2022.

Directional Stimulus Prompting（DSP）

Li Z, Peng B, He P, et al. Guiding Large Language Models via Directional Stimulus Prompting[J]. arXiv preprint arXiv:2302.11520, 2023.

这里有两种不同的技术路线，一种喊 APE 的技术，一种喊 DSP 的技术，它们基本思想都是让大语言模型加进到 Prompt 过程当中。另外，我们可以练习一个小的 LLM，它能够对 Prompt 进行有效提示，未来都可以在很多垂直领域里得到创新和使用。

模型练习加速构思

DATAGRAND

整体来说，在我们工业界的模型加速大致有两块构思，一是分布式并行，二是显存优化工作。

一、分布式并行的工作

有4种常见技术：

1. 数据并行（Data Parallelism）：在不同的 CPU 上存放神经网络的副本，用更大的 batch size 来练习模型，来提高并行能力。

2. 模型并行（Tensor Parallelism）：解决模型在一个 GPU 上放不下的问题。

3. 流水线并行（Pipeline Parallelism）：多个 GPU 之间高效利用它的资源。

4. 混合并行（Hybrid Parallelism）：这些并行工作能够更好地足够利用 GPU 的并行运算能力，来提升模型迭代加速的速度。

二、显存优化

当然也有不错显存优化方案，像混合精度练习、降低深度学习练习中间激活带来的显存占用、能够降低模型加载到显存当中的资源占用，以及我们通过往除冗余的参数，引进 CPU 和内存等等方式，能够解决显存容量不够导致的模型运算慢或者大模型跑不动的问题。

模型功能的垂直效能增强

DATAGRAND

大语言模型存在很多缺陷，如存在事实性错误以及要害数据错误、垂直领域可能存在复杂的推理任务等。基于此，我们也在尝试一些不同的构思来做，比如在推理能力方面，我们也在尝试把复杂任务分解为多个简单任务，并且引进其他模型解决；在工具方面，有一些 ALM 的输出中包含特定的 token，激活往调用规则；在行为方面，使用一些工具对虚拟和现实世界进行影响。

一、利用 CoT 增强模型复杂推理能力

我们对原有的模型通过 CoT 做个增强练习，能有效提升它的 Few-Shot 或者 Zero-Shot 的能力。

通过 CoT 可以显著增强模型在 GSM8K 数据集上的正确率

Mialon G, Dessì R, Lomeli M, et al. Augmented Language Models: a Survey[J]. arXiv preprint arXiv:2302.07842, 2023.

二、使用其他模型

在商业领域长文档生成的需求很多，长文档生成工作可以引进其他模型和技术，叠加在当前的大语言模型上，来提升它的长文本的生成效能。

Yang K, Peng N, Tian Y, et al. Re3: Generating longer stories with recursive reprompting and revision[J]. arXiv preprint arXiv:2210.06774, 2022.

由上往下，当计算机做一个长文档的规划协作生成的内容，我们让相应的其他模型做一个生成后，引进分类模型，推断生成段落的上下文和相关性，把其他的模型的结果串连在当前的模型当中，能够进行迭代和顺序的循环调用，这样就能够突破现有当前大语言模型在特殊长的文本当中生成的短板，能够提升它的写作效能。

三、使用垂直知识库

Izacard G, Lewis P, Lomeli M, et al. Few-shot learning with retrieval augmented language models[J]. arXiv preprint arXiv:2208.03299, 2022.

上图是使用外部语料库相应的一些算法研究出的成果。可以看到，小模型假如用外部语料库、专用语料库的模式，在有些任务上可以和大模型相媲美。而且使用场景广泛，实际落地中也探索了语言模型和知识图谱的交互。

四、使用搜索引擎

Thoppilan R, De Freitas D, Hall J, et al. Lamda: Language models for dialog applications[J]. arXiv preprint arXiv:2201.08239, 2022.

搜索引擎在传统意义上知识严重受限于语料库的实现，所以假如我们使用特定 token 激活或提示的方式生成查询语言，往请求搜索引擎的结果，并合成到当前模型的练习和输出当中，是可以很好的来弥补语料库更新不及时导致的很多信息滞后等问题。特别是基于搜索引擎提供事实性的文档，使用外部搜索引擎来弥补相关的语料资源，可以增强回答问题的可阐明性，和用户的习惯对齐。

五、内容转换

Gao L, Madaan A, Zhou S, et al. PAL: Program-aided Language Models[J]. arXiv preprint arXiv:2211.10435, 2022.

我们发现，在涉及数学领域的运算，今天的语言模型因为没有实质理解数学运算背后的含义，所以往往这个结果会做错。因此，我们可以利用 CoT 将复杂问题分解为若干个简单问题并生成可执行代码，然后利用代码阐明器获得最终结果以辅助语言模型解决复杂推理问题。

总结

DATAGRAND

达看数据在垂直领域的语言模型方面的探索期看能够让大家对 LLM 的研发和落地有所启发。目前达看在研发“曹植模型”，未来期看能够为每个行业赋能。虽然大语言模型算力非常浩大，但模型当中仍有很多难题需要我们征服，我们信赖“只要我们找到了路，就不怕路有多长”。

作者简介：陈运文，达看数据董事长兼 CEO，复旦大学计算机博士，计算机技术专家，2021 年中国青年创业奖，中国五四青年奖章，上海市十大青年科技杰出奉献奖获得者；国际计算机学会（ACM）、电子电器工程师学会（IEEE）、中国计算机学会（CCF）、中国人工智能学会（CAAI）高级会员；上海市首批人工智能正高级职称获得者。在人工智能领域拥有近百项国家技术发明专利，是复旦大学、上海财经大学、上海外国语学院聘任的校外研究生导师，在 IEEE Transactions、SIGKDD 等国际顶级学术期刊和会议上发表数十篇高水平科研成果论文；曾担任盛大文学首席数据官、腾讯文学高级总监、百度核心技术研发工程师。

更多被投新闻

依图科技 | Momenta | Nuro | 云天励飞

禾赛科技 | 晶泰科技 | 地平线 | 燧原科技

亿航智能 | 思谋科技 | 青藤云安全 | 爱笔智能

沐曦 | 驭势科技 | 芯耀辉 | 森亿智能 | AutoX

格灵深瞳 | 曦智科技 | 来也科技 | 星亢原

黑湖智造 | 领创集团 | 非夕机器人

芯行纪 | 灵明光子 | 优艾智合 | 炬星科技

东方空间 | 循环智能 | 诗云科技 | 赛舵智能

潞晨科技 | 芯控智能 | 氦星光联 | 悠跑科技

触手控小游戏专题

这个春天，保护非必要生活｜北京图书市集·春季场1周倒计时她被爆性丑闻，这次全网都在「洗白」