keakon的涂鸦馆

AI 时代的显卡选择

2024 7 14 11:11 PM 0 条评论 36 次查看

分类：AI 标签：AI

最近我一直在折腾大模型的推理、部署和训练，遇到了不少坑，先阶段性地总结一下。

先说下结论吧：

个人学习最简单的方案：16 寸 MacBook Pro M3 Max 128 GB 内存，靠谱的低价约 28000+ RMB。最大可进行约 70B Int8 量化模型的推理（如 Qwen2-72B-Instruct-GPTQ-Int8）。
个人学习+游戏需求：RTX 4090，不太好买，约 15000+ RMB。最大可进行约 30B Int4 量化模型或 7B 模型的推理。
小规模部署：双 RTX 4090。最大可进行约 70B Int4 或 AWQ 量化模型的推理（如 Qwen2-72B-Instruct-GPTQ-Int4）。
训练 70B 的模型：租 8 * Tesla A800/A100/H800/H100 80GB 的服务器（越往右性价比越高），每天约 1000～3000 RMB。
追求速度：用各个厂商的云服务。

其他不推荐的选项：

192 GB 内存的 Mac Studio 或 Mac Pro：型号较老，价格太贵，唯一的优势是可以进行约 70B 模型的推理。
RTX 3090 等其他游戏显卡：相较于 RTX 4090 的性价比较低。
Tesla A100 等高端专业显卡：价格太高，如果要进行 70B 模型的推理需要 2 张（约 15 万 RMB），性价比不如 4 张 RTX 4090。如果用于训练和微调，闲置时有点浪费。
AMD 显卡：性价比较高，但生态不如 NVIDIA，这意味着很多库和工具不支持 AMD 显卡或性能较差，较新的论文和库一般都只有 NVIDIA 版。不适合学习，除非你确定正好能满足你的需求。
国产显卡：价格不低，生态较差，很多库无法使用或需要专门安装老版本的魔改版。

Python 的协变、逆变与不变

2024 5 29 07:45 PM 0 条评论 43 次查看

分类：Python 标签：Python

前几天在使用 httpx 时，发现它的代理参数声明的类型是 ProxiesTypes：

URLTypes = Union["URL", str]
ProxyTypes = Union[URLTypes, "Proxy"]
ProxiesTypes = Union[ProxyTypes, Dict[URLTypes, Union[None, ProxyTypes]]]

可以看出，dict[str, str] 应该是符合它的参数签名的，然而我传入一个 dict[str, str] 参数后，Pylance 却会报错，这让我大为不解。

于是我又尝试简化了一下这个问题：

from typing import Mapping

a: dict[int, int] = {}
b: dict[int, int | str] = a  # error:
# Expression of type "dict[int, int]" is incompatible with declared type "dict[int, int | str]"
#   "dict[int, int]" is incompatible with "dict[int, int | str]"
#     Type parameter "_VT@dict" is invariant, but "int" is not the same as "int | str"
#     Consider switching from "dict" to "Mapping" which is covariant in the value type
c: Mapping[int, int | str] = a
d: Mapping[int | str, int] = a  # error:
# Expression of type "dict[int, int]" is incompatible with declared type "Mapping[int | str, int]"
#   "dict[int, int]" is incompatible with "Mapping[int | str, int]"
#     Type parameter "_KT@Mapping" is invariant, but "int" is not the same as "int | str"

是不是很奇怪，为啥 dict[int, int] 和 dict[int, int | str] 或 Mapping[int | str, int] 都不兼容，而与 Mapping[int, int | str] 兼容？

如何减小 Python 的 Docker 镜像的大小

2024 5 16 12:17 AM 2 条评论 95 次查看

分类：Docker 标签：Python

虽然我对公司的屎山代码已经见怪不怪了，但是看到一个普通的 Python web 应用的 Docker 镜像大小超过 10 GB，还是让我感叹前人的智慧。
这些巨量的字节会在构建时在中美之间来回传递，运气好可能 5 分钟能构建完毕，运气不好就可能要等 1 小时了。
那么怎样才能减小这些镜像的大小呢？

重新回到 Python 的怀抱

2024 5 14 12:12 AM 0 条评论 75 次查看

分类：Python 标签：Python

在上一家公司时，我虽然是同时使用 Go 和 Python 进行开发，但 Go 的占比要远大于 Python。
作为一名 6 年的 Gopher 和 15 年的 Pythonista，我其实对这两门语言都很喜欢。虽然 Go 有很多的设计问题，我曾经也认为它设计得很敷衍，甚至现在也没多大进步，但它足够简单，我可以不用费很多心智就写出高性能的代码，且能原生地在各个平台运行。细想起来，似乎没有其他语言能做到。
而与之相对的，有三门语言是我无法提起兴趣的：C++、Ruby 和 Rust，我大概都用了不到半年就放弃了。我知道它们有不少很赞的设计，也不缺少众多的拥趸，可是我感觉在编码和阅读时，大半的精力可能都花在了和语言做斗争上，而不是去处理业务逻辑。这不得不让我想起了那句经典的 "Life is short (You need Python)"。

后端程序员如何配置 macOS

2024 4 25 12:13 AM 0 条评论 113 次查看

分类：Mac OS X 标签：Apple, Mac OS X

鉴于我的红米 K60 仅使用不到半年，电池健康度就只剩 80% 了，我入手新 MacBook Pro 后的第一件事就是安装 AIDente。
锂电池的健康度主要和这三个因素相关：

循环次数：从 100% 用到 0%，或是从 100% 用到 50%，充满后再用到 50% 都算一次循环次数。可以理解为总共使用了多少电量，所以长期插电使用，而不是用电池供电是正确的。
温度：充电会导致电池温度上升，而过高（> 35°C）和过低（< 0°C）的温度都会影响电池的性能。一般越接近 25°C 越好。所谓的快充伤电池，其实是快充会导致电池升温更快。
充放电深度：过度的充放电（特别是放电）都可能对锂电池造成不可逆的损伤，尽量避免充电至 80% 以上和放电至 20% 以下。例如 100% 的充放电深度，大概 300 次循环次数就会使健康度降到 70%，80% 的充放电深度则可以到 400 次，10% 的充放电深度则可以到 6000 次（但是相当于只使用 10% 电池容量）。

AIDente 对这几点都有处理：
如果经常需要移动办公，将充电限制设置到 80% 就行了，60% 的充放电深度也够用大半天了；如果大部分时间都插电使用，限制到 70% 也够用；如果几乎不移动，让它保持在 50% 附近也是可以的。
Intel 芯片的 MacBook 是可以设置硬件充电上限，之后即使退出 AIDente 甚至关机都不会过充；而 Apple silicon 芯片则需要保持 AIDente 运行，且启用「MacBook 进入睡眠时停止充电」，并在关机后拔下充电头才能避免过充。
后面的设置就需要购买 AIDente Pro 了，但也不是非买不可：

「过热保护」可以在电池温度过高时停止充电。
「续航模式」可以避免短暂用电后又充到上限这种微小充电，不过这也没啥危害。
「控制 MagSafe LED」可以在达到充电上限停止充电时使 MagSafe LED 显示绿色，而不是充电中的橙色。
「图标样式」可以改成「咬合状态」，用来区分不同的充电状态。
「硬件电池百分比」可以更精确地显示和控制电量，macOS 为了避免过度充放电，一般会隐藏一小部分电量。（比如充到 95% 就显示充满了，还剩 5% 时显示成没电了。）

我顺便还读了下它的源码，发现它是通过写入 SMC 来限制充电的。还有一个叫 battery 的项目是调用 smc 命令行实现的，可能更易懂。

为什么在高并发的场景下，需要将 MySQL 的事务隔离级别设为读已提交？

2024 4 23 02:22 AM 0 条评论 71 次查看

分类：数据库标签：性能

为缩短篇幅，本文假定读者已知晓 transaction isolation level（事务隔离级别）的基础知识。

MySQL 的默认事务隔离级别是 repeatable read（可重复读），而在都市传说中，各个互联网大厂都会将其改为 read committed（读已提交），这是为什么呢？

从字面上理解，可重复读满足了一个事务在读取某行后，如果另一个事务修改了该行，再次读取它时，能保持第一次读到的值。可是，这又有什么意义呢？谁会在一个事务里多次读取同一行呢？
其实它的实现是这样：当事务开始后，从它第一次读取数据时，就创建了一个快照，之后都是对这个快照进行查询，直到这个事务结束。也就是说，可重复读的主要作用是让事务只访问这个事务和它之前已有的数据，而不是字面上的读同一行不会变。
而读已提交只需要在每次读取时创建一个快照，读取完这个快照就用不到了。
由此可见，可重复读需要维护一个较长的快照，这自然要消耗更多的资源。

不过现实中我们不会这样简单地使用事务。一个正常的事务如果要基于读取到的数据来修改，会使用 SELECT ... FOR UPDATE 的形式来加锁。
如果这里可以利用唯一索引的话，MySQL 会对唯一索引中满足条件的行添加行锁，否则需要加 gap lock 和 next-key lock，这两把锁会增加被锁定的范围。例如表 test 有一个被索引的列 a，有一行 a 为 100 的数据。当执行 SELECT * FROM test WHERE a = 1 FOR UPDATE 后，其他事务无法插入任何 a < 100 的数据，因为被这两把锁给锁住了。
而读已提交则不会添加这两种锁，并且当需要锁住的行不存在时，并不会对其加锁，而是允许其他事务插入。
由此可见，可重复读可能锁住了更多的数据，更容易造成死锁。

简单评测 VSCode 的免费 AI 编程插件

2024 4 2 10:47 PM 0 条评论 1080 次查看

分类：编程标签：无

最近发现 VSCode 里安装的 AI 编程插件越来越多，也不知道会不会有冲突，所以想选一个最好的留下。
本次参与评测的选手有：tabnine、Codeium、CodeGeeX、fittencode、Baidu Comate、TONGYI Lingma 和 Cody（按我安装的顺序排序，有些不好用的我直接卸载了，不参与评测）。
鉴于免费的已经够我用了，收费的就不参与评测了，正好避免恰饭嫌疑。

为啥我在 2024 年选择了 16 寸 M1 Pro

2024 3 5 08:49 PM 2 条评论 392 次查看

分类：Mac 标签：Apple, Mac

省流：穷。

mihomo(clash) 无法访问 raw.githubusercontent.com 的解决方案

2024 2 27 12:24 PM 0 条评论 250 次查看

分类：无标签：翻墙

前几天在使用 brew 安装 im-select 时发现从 raw.githubusercontent.com 下载失败了，而 brew 是用 curl 下载的，我已经在 ~/.curlrc 里配置了 socks5 = "127.0.0.1:1080"，理论上它应该走本地代理，怎么会失败呢？
于是我直接执行 curl 看看：

curl -v https://raw.githubusercontent.com/daipeihust/im-select/master/macOS/out/apple/im-select
*   Trying 127.0.0.1:1080...
* Connected to 127.0.0.1 (127.0.0.1) port 1080
* Host raw.githubusercontent.com:443 was resolved.
* IPv6: (none)
* IPv4: 0.0.0.0
* SOCKS5 connect to 0.0.0.0:443 (locally resolved)

居然在本地解析成 0.0.0.0 了，这不是应该走代理去解析的吗？

都 2024 年了，该更新翻墙技术了

2024 1 12 11:51 PM 5 条评论 5931 次查看

分类：无标签：翻墙

时光荏苒，距初代的翻墙神器 shadowsocks 停更都已过去 6 年了，这期间墙早已进化了多次，至少原生的 shadowsocks 基本上会被秒封了。
随着墙的进化，我翻墙的姿势也不得更换了数次，使用最久的还是 kcptun + shadowsocks 的方案，毕竟对于线路不好的 VPS 而言，可以自定义拥塞控制的 UDP 协议还是比 TCP 快几个数量级的。
不过最近两年 kcptun 也容易被墙了，于是我又开始了新的寻觅，然后选中了 hysteria。它被墙的概率要低很多，而且无需配合 shadowsocks 等协议一起工作，可以直接提供 SOCKS5 和 HTTP 代理。

最新评论

分类

标签