Johnson Lin

发表于2023-10-08|编程文摘

消费互联网(Consumer Internet) 指的是面向消费者的互联网产品、服务和商业模式。它将互联网技术和平台应用于满足个人消费需求的领域，为消费者提供各种产品和服务。基于互联网和移动互联网技术，通过电子商务平台、在线支付系统、社交媒体平台等为消费者提供便捷、丰富的消费体验。它与过去面向企业用户的互联网有着明显的不同。一、消费互联网的主要特点以消费者为中心。消费互联网满足消费者的各种需求，如娱乐、社交、购物等。强调用户体验。消费互联网产品追求简单、便捷的用户体验，降低消费者的使用门槛。商业模式多样。消费互联网的商业模式包括广告、交易佣金、增值服务、订阅等。高度依赖移动互联网。消费互联网大量应用手机等移动终端，可以随时随地接入服务。二、消费互联网的主要领域娱乐 - 视频、音乐、游戏等娱乐内容。例如抖音、网易云音乐。社交 - 社交网络、即时通讯。例如微信、微博。电子商务 - 电商购物、外卖订餐等电子商务。例如淘宝、美团。资讯 - 获取信息和知识。例如今日头条、知乎。旅游 - 酒店预订、旅游攻略等旅游服务。例如携程、途家。在线支付 - 在线支付系统使得消...

MySQL整数类型INT(5)和INT(11)的区别

发表于2023-09-27|编程文摘|MySQL

MySQL 支持 SQL 标准整数类型 INTEGER（或 INT）和 SMALLINT。作为标准的扩展，MySQL 还支持 TINYINT、MEDIUMINT 和 BIGINT 整数类型。下表显示了每种整数类型所需的存储空间和范围。类型存储 (Bytes) 最小值（有符号）最小值（无符号）最大值（有符号）最大值（无符号） TINYINT 1 -128 0 127 255 SMALLINT 2 -32768 0 32767 65535 MEDIUMINT 3 -8388608 0 8388607 16777215 INT 4 -2147483648 0 2147483647 4294967295 BIGINT 8 -263 0 263-1 264-1 这些整数类型后面的数字表示最大显示宽度，并不影响实际存储范围。例如，INT(5) 和 INT(11) 的存储范围和大小完全一样，都是 -2147483648 ~ 2147483647，占 4 个字节。(5) 和 (11) 只是表示显示宽度，即 INT(5) 显示结果的最大宽度为 5 ...

解决MySQL 8中“Public Key Retrieval is not allowed”问题

发表于2023-09-26|编程文摘|MySQL

问题从 MySQL 8 开始，身份验证插件更改为“caching_sha2_password”。因此，使用 JDBC 或其他客户端工具连接 MySQL 时，可能会遇到“Public Key Retrieval is not allowed”的问题。 1Public Key Retrieval is not allowed 解决方案一在连接 MySQL 时，设置以下参数，允许客户端自动向服务器请求公钥。1allowPublicKeyRetrieval=true如：1jdbc:mysql://localhost:3306/mysql_database?useSSL=false&allowPublicKeyRetrieval=true 解决方案二我们可以将身份验证插件更改回“mysql_native_password”来解决该问题。在终端中执行以下命令以使用 root 用户登录 MySQL： 1$ mysql -u root -p 进入mysql数据库： 1mysql> use mysql; 查看当前用户表中的 host 和用户信息： 1mysql>...

慢慢变富

发表于2023-09-26|慢慢变富|MySQL

Iuo

在路上

发表于2023-09-26|在路上|MySQL

在路上

如何找回DBeaver连接中保存的数据库密码？

发表于2023-09-26|编程文摘|MySQL

DBeaver 是一款功能强大的数据库管理工具，支持多种数据库平台。它提供了一个方便的方式来管理和操作数据库，包括连接、查询、导入导出等功能，但如果我们忘记了保存在其中的数据库密码，我们需要一种方法来恢复它。本文将介绍一种方法来找回 DBeaver 保存的数据库密码。步骤以下是找回 DBeaver 连接中保存的数据库密码的步骤：找到 DBeaver 的 workspace 位置：在 DBeaver 的界面中，点击“窗口”菜单，选择“首选项”选项。弹出的对话框中，点击“Workspace”按钮（中文名称：工作空间），即可找到 workspace 的位置。在 workspace 位置下，可以找到 General 文件夹。找到密码文件的位置：在 General 文件夹中，我们需要找到名为credentials-config.json的文件，该文件保存了 DBeaver 中连接的密码信息。解码密码文件：为了解码密码文件，我们需要使用 OpenSSL 工具。在本例中，使用了 Windows 10 上的 Linux 子系统 Ubuntu 18，并在终端中执行了以下命令： ...

分位数的概念及其应用

发表于2023-09-25|编程文摘|数学

分位数是统计学中常用的一个概念，用于描述数据集的分布情况。它将数据集按大小排序并将其分为几个等份，从而能够更加深入地了解数据集的中心趋势和离散程度。在统计学和数据分析领域，分位数是一个常用的工具。定义把顺序排列的一组数据分割为若干相等部分的分割点的数值即为相应的分位数（quantile）。常见的分位数有：二分位数：分位数中最简单的一种，它将数据等分成两分。四分位数（Quartile）：将数据按照大小顺序排序后，把数据分割成四等分的三个分割点上的数值。对原始数据，四分位数的位置一般为$\frac{n+1}{4}$，$\frac{2(n+1)}{4}$，$\frac{3(n+1)}{4}$。如果四分位数的位置不是整数，则四分位数等于前后两个数的加权平均。十分位数（Deciles）：将数据按照大小顺序排序后，把数据分割成十等分的九个分割点上的数值。百分位数（Percentile）：将数据按照大小顺序排序后，把数据分割成一百等分的九十九个分割点上的数值。常见的有 1% 分位数、5% 分位数、25% 分位数、50% 分位数（中位数）、75% 分位数、95% 分位数、99% 分...

了解分位数：定义与应用

发表于2023-09-24|编程文摘|数学

在统计学和数据分析中，摘要统计（如中位数、第一四分位数和第三四分位数等）是数据集位置的度量。这是因为这些数字指示了数据分布中特定比例的位置。例如，中位数是研究数据的中间位置。一半的数据值小于中位数。类似地，25% 的数据值小于第一四分位数，75% 的数据值小于第三四分位数。这一概念可以进一步概括。一种方式是考虑百分位数（percentiles）。第 90 个百分位数表示有 90% 的数据值小于这个数。更一般地说，第 p 个百分位数是一个数 n，使得有 p% 的数据值小于 n。换句话说，它表示了分布中的一个点，使得给定百分比的数据值小于该点。连续随机变量的分位数虽然中位数、第一四分位数和第三四分位数的序数统计通常是在离散数据集的情况下介绍的，但实际上它们也适用于连续随机变量。对于连续分布，我们使用积分来定义分位数。第 p 个百分位数是一个数 n，使得： $\int^{n}_{-\infty}{f(x)dx}=p/100$ 其中，$f(x)$是连续分布的概率密度函数，$[-\infty, n]$表示从某个起始点到 n 的积分范围，p 是百分位数的百分比值。这样，我们可以通过积分...

如何查看MySQL版本

发表于2023-09-23|编程文摘|MySQL

MySQL 是一种常用的关系型数据库管理系统，它被广泛应用于各种类型的应用程序中。在进行数据库维护和开发过程中，了解当前所使用的 MySQL 版本是非常重要的。本文将介绍几种简单的查看 MySQL 版本方法。方法一：通过 SQL 查询语句打开 MySQL 客户端工具，例如 MySQL 命令行或者图形化界面工具（如 MySQL Workbench）。连接到要查询版本的数据库实例。在 SQL 查询编辑器中输入以下查询语句：1SELECT VERSION(); 或者1SELECT @@VERSION; 执行查询语句，可在结果中获得 MySQL 的版本信息。1234567+------------+| VERSION() |+------------+| 5.7.31-log |+------------+1 row in set (0.06 sec) 方法二：通过命令行打开命令行终端。输入以下命令：1mysql --version 按下回车键执行该命令，在输出结果中看到 MySQL 的版本信息。12$ mysql --versionmysql Ver 1...

分位数：定义及简易查找方法

发表于2023-09-13|编程文摘|数学•翻译

什么是分位数？“分位数（quantile）”一词源于”quantity”。简单地说，分位数就是将样本划分为大小相等、相邻的子组（这就是为什么有时称为 “fractile”）。它也可以指将概率分布划分为具有相等概率的区域。中位数是一种分位数；在概率分布中，中位数被放置在这样一个位置，使得恰好有一半的数据小于中位数，另一半的数据大于中位数。中位数将一个分布切割成两个相等的区域，因此有时也被称为 2-分位数。四分位数也是一种分位数；它将分布划分为四个相等的部分。百分位数是将分布划分为 100 个相等部分的分位数，而十分位数是将分布划分为 10 个相等部分的分位数。有些作者将中位数称为 0.5 分位数，这意味着该比例的值（一半）将位于中位数之下，而另一半则在中位数之上。如果你想在一个数据集中找到特定的分位数（如中位数），使用以下公式来估计第 i 个观测值：第 i 个观测值 = q * (n + 1) 其中，q 代表你要寻找的第 i 个值以下的比例，n 代表数据集中的项目数量。上述方程可能有些令人费解，最好通过一个示例来解释。如何找到分位数？例题：从以下数据集中找到一个数，使...

Hive中校验两张表中的数据是否相同的方法

发表于2023-09-12|编程文摘|Hive

Hive 作为一种开源的分布式数据仓库解决方案，被广泛应用于大数据处理和数据分析领域。在实际应用中，我们经常需要对两个或多个表中的数据进行比对，以确保数据的一致性和准确性。下面将介绍如何在 Hive 中校验两张表中数据是否相同的方法。对比两张表的记录数是否相同在进行数据比较之前，首先需要确认两张表（表结构完全相同）的记录数是否相同。比如，假设我们有表 mydw.dwd_user 和表 test.dwd_user，可以通过以下 SQL 分别获取表 mydw.dwd_user 和表 test.dwd_user 的记录数： 12select count(*) as c1 from test.dwd_user;select count(*) as c2 from mydw.dwd_user; 如果 c1 和 c2 不相等，则表不完全相同。对比两张表去重后的记录数是否相同使用以下 SQL 统计表去重后的记录数，如果 dc1 和 dc2 不相等，则说明表不完全相同： 12345select count(*) as dc1from (select distinct * from mydw....

Apache Paimon 0.5版本震撼发布：数据导入、查询性能再升级

发表于2023-09-11|编程文摘|apache-paimon

昨日，Apache Paimon 0.5.0-incubating 版本正式发布。这个版本是在近 100 位贡献者的共同努力下完成的，共提交了 500 多次代码改进，为社区带来了许多令人兴奋的新功能和改进。其中的亮点之一是 CDC（Change Data Capture）数据入湖的功能已经成熟。在 0.5 版本中，引入了标签的概念，为离线数据仓库提供了不可变视图。此外，主键表的动态桶模式也已经投入生产，并引入了仅追加模式可扩展表来取代 Hive 表。 Paimon 支持多种方式将数据导入 Paimon 表，并且支持模式演化。在 0.5 版本中，新增了许多新功能，例如 MySQL 同步表和数据库、Kafka 同步表和数据库以及 MongoDB 同步集合和数据库。主键表可以通过在创建表的 DDL（数据定义语言）中指定主键来创建，它接受插入、更新或删除记录操作。而动态桶（Dynamic Bucket）模式是通过将 'bucket' 参数设置为 '-1' 来实现的，Paimon 可以动态维护索引并自动扩展桶的数量。用户可以通过控制目标行数和分配器操作符...

了解Flink中的History Server：记录和展示作业历史信息的重要工具

发表于2023-09-10|编程文摘|apache-flink

Flink 中的 History Server 是一个非常有用的组件，可以在相应的 Flink 集群关闭之后查询已完成作业的统计信息。并且，它还提供了一个 REST API，可接受 HTTP 请求并以 JSON 数据作为响应。本文将详细介绍 Flink History Server 的工作原理和主要功能。一、History Server工作原理Apache Flink 自带了一个 HistoryServer 进程，它是一个独立的 Web 服务器。HistoryServer 不参与 Flink 作业执行，仅用于展示作业的历史信息。它的工作原理如下： JobManager 会将已完成的作业的信息以存档文件的形式写入 HDFS 或者其他持久存储中。 HistoryServer 读取这些存档文件，并提供 Web 界面展示其信息内容。用户通过 HistoryServer 的 Web UI 查看作业记录和运行数据。每个作业完成后，JobManager 会把该作业的信息打包成一个个 JSON 格式的归档文件，包括作业配置信息、作业执行过程中的 Checkpoint 信息、已完成作业的...

Apache Flink的核心特性

发表于2023-09-09|编程文摘|apache-flink

在大数据和实时数据处理的时代，Apache Flink 以其卓越的性能和灵活性成为了业界的明星。本文将深入探讨这款框架的核心特性，以帮助我们更好地理解其在大数据分析和实时数据处理方面的优势和应用场景。批流一体Flink 采用了统一的流处理架构，可以用相同的编程模型和运行时系统支持有界数据的批处理和无界数据的实时流处理。这种设计理念使 Flink 在企业技术选型中具有重要意义：首先，Flink 消除了批处理和流处理之间的鸿沟，企业无需再采用多套框架分别实现两者。这简化了架构设计，降低了系统复杂度。其次，统一的编程模型可以重用批处理和流处理的代码逻辑，提高开发效率。开发人员无需学习多种编程模型，大大减少了学习和开发成本。最后，单一的运行时系统简化了运维工作，无须部署和维护多套框架，可以节省大量运维成本。也就是说，Flink 的统一流处理架构为企业提供了一个高效、灵活、易于使用的大数据处理解决方案。如果 Flink 能够满足业务需求，就无须用两种甚至多种框架分别实现批处理和流处理，这大大降低了架构设计、开发、运维的复杂度，可以节省大量人力成本。这是 Flink 相比其他框架的一个...

Presto关键字EXCEPT详解

发表于2023-09-07|编程文摘|Presto

EXCEPT 是 Presto 中一个关键字，用于执行两个查询的差集操作。它在 Presto 中起到了非常重要的作用，可以帮助我们更方便地处理和分析数据。 EXCEPT基本用法在 Presto 中，使用 EXCEPT 关键字进行两个查询之间的差集操作时，需要注意以下几点：查询的结果集必须具有相同的列数和相似的数据类型。查询的结果集中的列名称必须相同或具有相似的别名。 EXCEPT 关键字只返回第一个查询的结果集中存在，但在第二个查询的结果集中不存在的行。结果集中的行将按照第一个查询的顺序进行排列。使用示例下面是一个最简单的 EXCEPT 子句示例。第一个查询结果集为 13 和 42，第二个查询结果集为 13。因为 13 也在第二个查询的结果集中，因此它不会被包含在最终结果集中： 123SELECT * FROM (VALUES 13, 42)EXCEPTSELECT 13; 输出结果为： 1234 _col0------- 42(1 row) 接下来，我们再来看一个实际的例子来说明 EXCEPT 的用法。假设我们有两个表，一个是 employees，包含员工的姓...

Apache Paimon 0.5正式发布

发表于2023-09-06|编程文摘|apache-paimon

Apache Paimon 0.5.0-incubating 版本终于在今天正式发布了。有近 100 位贡献者参与了此版本的开发，共完成了 500 多次代码提交，为社区带来了许多令人兴奋的新功能和改进。该版本的主要亮点功能如下： CDC 数据入湖的功能已经成熟。引入了标签的概念，为离线数据仓库提供不可变视图。主键表的动态桶模式已投入生产。引入仅追加模式可扩展表，以取代 Hive 表。 CDC摄入Paimon 支持多种方式将数据导入 Paimon 表，并支持模式演化。在 0.5 版本中，新增了许多新功能，包括： MySQL 数据表同步支持将分片数据同步到一个 Paimon 表中。支持将所有字段类型映射为字符串。 MySQL 数据库同步支持合并多个数据库中的多个分片数据。支持 --mode combined 模式，将所有表整合到一个统一的数据汇中进行同步，并支持在不重启作业的情况下同步新增的表。从 Kafka 同步数据表将 Kafka 主题里的数据表同步到 Paimon 表中。支持 Canal 和 OGG 格式。从 Kafka 同步数据...

极简教程 - Gson

发表于2023-09-05|编程文摘|java•Gson•极简教程

深入解析Gson：一个强大的Java JSON库深入了解Gson：Java对象的序列化和反序列化 Gson基本使用：序列化与反序列化操作详解使用Gson进行数组、集合和映射的序列化与反序列化使用Gson对嵌套类进行序列化和反序列化深入探索Gson的泛型序列化和反序列化能力使用Gson库在Java中实现下划线与驼峰格式的转换 Java使用Gson判断字符串是否为JSON格式在Java中如何使用Gson库序列化NULL字段使用Gson将字符串转成JsonObject对象 Java使用Gson库格式化输出JSON字符串

数据分析的知识体系

发表于2023-09-05|编程文摘|数据分析

引言数据分析作为一种将原始数据转化为有价值信息的过程，在当今数据驱动的社会中变得越来越重要。本文将从数据采集、数据挖掘和数据可视化三个环节，介绍数据分析所涉及的主要知识点，以帮助读者全面了解数据分析的知识体系。一、数据采集数据采集是数据分析的第一步，决定了后续分析的质量和准确性。在数据采集阶段，需要关注以下知识点：数据来源：了解数据的来源渠道，如数据库、文件、传感器等，以便进行相应的数据获取方法选择。数据获取：选择适当的数据获取方法，如 API 接口、网页爬虫等，确保能够高效、准确地获取到所需数据。学会使用第三方工具如八爪鱼、火车采集器、搜集客采集数据，最好能编写 Python（Scrapy、Selenium、PhantomJS、lxml）爬虫。数据存储：选择合适的数据存储方式，如关系型数据库、非关系型数据库、云存储、分布式文件系统等，以方便后续的数据挖掘和分析。二、数据挖掘数据挖掘是利用统计学和机器学习算法从大量数据中提取模式、关系和规律的过程。该过程包含以下六个步骤：商业理解、数据理解、数据准备、模型建立、模型评估和上线发布。商业理解是首要步骤，我们需...

Gson基本使用：序列化与反序列化操作详解

发表于2023-09-05|编程文摘|java•Gson

在本文中，我们将学习如何使用 Gson 进行序列化和反序列化操作。在Maven中使用Gson要在 Maven 中使用 Gson，可以通过添加以下依赖关系，使用 Maven Central 中的 Gson 版本： 123456789<dependencies>  <dependency> <groupId>com.google.code.gson</groupId> <artifactId>gson</artifactId> <version>2.10.1</version> <scope>compile</scope> </dependency></dependencies> 现在，我们的 Maven 项目已经成功地集成了 Gson。序列化与反序列化原始类型以下代码演示了使用 Gson 库...

我收到的最好的职业建议

发表于2023-09-04|编程文摘|翻译

本文翻译自 Nicholas C. Zakas 的原创英文文章《The best career advice I’ve received》，希望能够以中文的形式把这些观点传播开来，在这里对原作者表示致敬。 Nicholas C. Zakas 是前端大牛工程师，全世界最著名的 JavaScript 程序员之一。目前在 Box 公司任职，之前是在雅虎将近工作 5 年。在雅虎期间，他是雅虎首页的前端技术主管，并且是 YUI 库的贡献者。 Nicholas 编写的技术书有：《Maintainable JavaScript | 编写可维护的 JavaScript》、《Professional JavaScript for Web Developers | JavaScript高级程序设计》、《High Performance JavaScript | 高性能JavaScript》、《Professional Ajax》。我最近和一位同事有过一个有趣的讨论。我们回顾了自己的工作经历，以及我们可以说是多姿多彩的个性，如何对我们的长期发展产生负面影响。说实话，我从大学毕业时有点混蛋（有...