至少, 对自己诚实
解决污染问题
数据污染已经是正在发送的事情了, 尤其是 GPT 时代, 生成式内容污染了互联网的内容 - UGC 不一定来自用户, 而大概率是来自 AI, 毕竟 AI 的产量远超于人类, 称得上是内容农场 content farm 的最终形态了.
那我们自己呢?
ChatGPT 流行之后, 我们自己的内容上也大批量被 LLM 生成的内容取代了.
“帮我写"并不是无损的. 不标准且不美观的原始内容, 它们也是富含信息的.
对自己诚实
至少, 对自己诚实
我的提议是保留自己的"原始内容"和元数据 metadata.
或许我会创造或修改某种语言或者渲染器, 使其默认不展示"原始内容”, 但点击后又可以去查看它.
目前几个想法和要点:
- 使用 xml 语法进行自我标记, 类似 diff(Git/VSCode 的时间线)
- 目前就简单的括号好了, 以一个空括号开始, 以一个括号结束, 括号内的内容是标记信息, 格式上简单的类 json 标准. 再用 html 注释包裹起来, 如此展示时就不会被渲染.
<!-- () --><!-- () -->abc<!-- (time: "2024-09-07T13:03:40-04:00", original: "xyz", type: "rewrite/fix grammar/translated") -->
- 自定义类似 multilingual mode, 效果:
my-page.original.md - 标记时间, 什么时候写的也是重要的信息. “先入为主"是正常现象之一, 顺序也是重要的人的构成.