电话
400 9058 355
使用pandas的`str.contains()`方法配合`na=false`参数,可安全高效地在含缺失值(nan)的多值字符串列(如电影演员列表)中检索特定演员名。
在处理类似IMDb电影数据集时,cast列通常以字符串形式存储多个演员姓名(例如"Leonardo DiCaprio, Kate Winslet, Billy Zane"),此时直接使用.str.co
ntains()进行模糊匹配是常见做法。但若该列存在缺失值(NaN),默认调用会抛出错误:Cannot mask with non-boolean array containing NA / NaN values——这是因为str.contains()在遇到NaN时返回NaN而非True/False,导致布尔索引失效。
正确写法如下:
# ✅ 安全检索:显式指定 na=False,将 NaN 视为不匹配
actor_movies = bd[bd['cast'].str.contains('Leonardo DiCaprio', na=False)]? 提示:na=False表示当遇到空值(NaN)时,对应行的匹配结果强制为False,从而保证返回纯布尔数组,支持正常布尔索引。
进阶建议:
bd['cast'].str.contains(r'\bLeonardo DiCaprio\b', na=False, regex=True)
bd.explode('cast')[lambda x: x['cast'] == 'Leonardo DiCaprio']总结: 面对含NaN的多值文本列,str.contains(..., na=False)是简洁可靠的搜索方案;务必根据数据实际结构(字符串拼接 or 列表对象)选择匹配策略,避免语义误判。
邮箱:8955556@qq.com
Q Q:8955556
本文详解如何将Go官方present工具(用于生成HTML5...
PySNMP在不同版本中对SNMP错误状态(errorSta...
time.Sleep仅阻塞当前goroutine,其他gor...
PHPfopen()创建含特殊符号的文件名失败主因是操作系统...
WooCommerce中通过代码为分组产品动态聚合子商品的属...
io.ReadFull返回io.ErrUnexpectedE...
本文详解Yii2中控制器向视图传递ActiveRecord数...
本文详解为何通过wp_set_object_terms()为...
Pytest中使用@mock.patch类装饰器会导致补丁泄...
带缓冲的channel是并发安全的FIFO队列;make(c...