/ dev / sda1을 표시하는 검은 색 화면과 함께 갑작스러운 충돌 :
On 2월 15, 2021 by admin때로는 명백한 이유없이 갑자기 화면이 “검정색”으로 바뀌고 한 줄의 텍스트 만 표시됩니다. :
/dev/sda1: clean 1068388/64102400 files, 29744985/256399616 blocks
시스템이 다시 시작되는 것처럼. 하지만 그 이후에는 아무 일도 일어나지 않으며 재설정 버튼을 눌러야합니다.
이런 일이 이제 세 번 발생했습니다. 아침에 새로 시작한 직후에 한 번 큰 작업을 실행하지 않습니다 (브라우저를 열기 만하면 재현 할 수 없음). 극심한 부하 (신경망 훈련)에서는 발생하지 않았으므로 이 게시물 에서와 같이 열 문제가 아니라고 확신합니다.
/var/log/kern.log
파일
... [ 0.024000] tsc: Fast TSC calibration failed ... ... [ 0.796335] dpc 0000:00:01.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+
에서 마지막 줄이 세 번 나타납니다. 행이지만 그게 무슨 뜻인지 모르겠습니다.
실행 중입니다.
- OS : Ubuntu 18.04
- 커널 : 4.15.0 -39-generic (x86_64)
- 데스크톱 : GNOME Shell 3.28.3
- 디스플레이 드라이버 : NVIDIA 396.45
- 컴파일러 : Clang 3.3 + LLVM 3.3 + CUDA 9.2
- 파일 시스템 : ext4
사양이있는 새로운 데스크톱 컴퓨터 :
- 프로세서 : AMD Ryzen Threadripper 1900X 8- 코어 @ 3.80GHz (16 코어)
- 마더 보드 : ASRock X399 Professional Gaming
- 메모리 : 64512MB
- 디스크 : 1050GB Crucial_CT1050MX + 4001GB Elements SE 25FF
- 그래픽 : 2x SLI NVIDIA GeForce GTX 1080 Ti 11264MB
이 p의 원인은 무엇일까요? roblem?
smartctl
댓글에 대한 응답에서
sudo smartctl --all /dev/sda
=== START OF INFORMATION SECTION === Device Model: Crucial_CT1050MX300SSD1 Serial Number: 173818DBA7DB LU WWN Device Id: 5 00a075 118dba7db Firmware Version: M0CR060 User C apacity: 1.050.214.588.416 bytes [1,05 TB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device Form Factor: 2.5 inches Device is: Not in smartctl database [for details use: -P showall] ATA Version is: ACS-3 T13/2161-D revision 5 SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Sat Nov 17 14:39:52 2018 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 2783) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 13) minutes. Conveyance self-test routine recommended polling time: ( 3) minutes. SCT capabilities: (0x0035) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 100 100 000 Pre-fail Always - 0 5 Reallocated_Sector_Ct 0x0032 100 100 010 Old_age Always - 0 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 454 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 333 171 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0 172 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0 173 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 1 174 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 1 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0 184 End-to-End_Error 0x0032 100 100 000 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 194 Temperature_Celsius 0x0022 074 059 000 Old_age Always - 26 (Min/Max 16/41) 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 100 100 000 Old_age Always - 0 202 Unknown_SSD_Attribute 0x0030 100 100 001 Old_age Offline - 0 206 Unknown_SSD_Attribute 0x000e 100 100 000 Old_age Always - 0 246 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 945594898 247 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 29549867 248 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 8744251 180 Unused_Rsvd_Blk_Cnt_Tot 0x0033 000 000 000 Pre-fail Always - 4424 210 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t] SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.
업데이트 (검은 색 화면 대신 로그 아웃)
지금 막 검은 색 화면 대신 명백한 이유없이 계정에서 로그 아웃했습니다. 이러한 문제는 관련이있는 것 같습니다. 이 이벤트가 진행되는 동안 Vim은 kern.log
에서 다음 줄을 강조 표시합니다.
Nov 19 09:44:52 Gauss kernel: [ 0.793729] dpc 0000:00:01.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+ Nov 19 09:44:52 Gauss kernel: [ 0.793735] dpc 0000:00:03.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+ Nov 19 09:44:52 Gauss kernel: [ 0.793744] dpc 0000:40:03.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+ ... Nov 19 09:44:52 Gauss kernel: [ 0.890282] RAS: Correctable Errors collector initialized. ... Nov 19 09:44:52 Gauss kernel: [ 1.026963] nvidia: module verification failed: signature and/or required key missing - tainting kernel ... Nov 19 09:44:52 Gauss kernel: [ 2.927217] scsi 10:0:0:1: Failed to get diagnostic page 0x1 Nov 19 09:44:52 Gauss kernel: [ 2.927219] scsi 10:0:0:1: Failed to bind enclosure -19 ... Nov 19 09:44:52 Gauss kernel: [ 5.227132] EXT4-fs (sda1): re-mounted. Opts: errors=remount-ro ... Nov 19 09:44:52 Gauss kernel: [ 5.602354] thermal thermal_zone0: failed to read out thermal zone (-61)
댓글
답변
X11 또는 Wayland GUI 서버가 충돌하여 텍스트 모드 콘솔로 돌아가는 것 같습니다. 한 줄의 텍스트는 GUI 모드로 전환하기 전에 시스템을 부팅 할 때 발생한 파일 시스템 검사에서 가져온 것입니다. Ubuntu 18.04는 첫 번째 가상 콘솔에서 GUI를 시작하므로 GUI 서버가 충돌하고 다시 시작되지 않으면 해당 가상 콘솔이 응답하지 않습니다.
(기타 Linux 배포판은 전통적으로 GUI 용 7 번째 가상 콘솔을 사용하여 시스템이 X11 서버 충돌시 기능 로그인 프롬프트와 함께 기본 1 번째 가상 콘솔로 자동 복귀하도록했습니다. 우분투는 분명히 GUI 서버를 첫 번째 가상 콘솔로 전환하여 부팅 시작과 GUI 로그인간에보다 원활하게 전환 할 수 있지만 GUI 서버가 충돌하는 경우 “이제 텍스트 모드 로그인에 액세스하려면 가상 콘솔을 인식해야합니다. 프롬프트.)
/var/log/kern.log
의 행은 모두 Linux 커널 시작 후 몇 초 내에 기록됩니다 (초-시작 후 값에 따라). 각 줄의 시작 부분에 대괄호)가 있으므로 “직접 관련이 없을 수 있습니다.
Ctrl + Alt + F2 를 눌러보십시오. 커널이 아직 살아 있다면 이제 검은 화면에 텍스트 모드 로그인 프롬프트가 표시됩니다. 그런 다음 로그인하고 sudo systemctl restart gdm
를 시도하여 GUI를 다시 시작하거나 텍스트 모드에서 로그 및 기타 문제 해결 정보를 수집 할 수 있습니다. gdm
를 다시 시작하면 자동으로 GUI로 돌아갈 수 있지만 두 번째 가상 콘솔의 로그인 세션은 계속 로그인 된 상태로 유지됩니다. Control-을 사용하여 전환 할 수 있습니다. Alt-F1 및 Control-Alt-F2 .
커널 로그에 아무것도 표시되지 않으므로 커널이 정상이고 데스크톱 만 충돌하는 것일 수 있습니다. . 이 경우 다른 로그 파일이 더 유용 할 수 있습니다.
-
/var/log/gdm.log
-
/var/log/Xorg.0.log
존재하는 경우 (음, Wayland에 해당하는 것은 무엇입니까?)
면책 조항 : 우분투 18.04를 직접 사용해 본 적이 없습니다.이 답변은 제가 읽은 내용을 기반으로합니다.
댓글
-
gdm.log
는 없지만grep -E "EE|WW" Xorg.0.log
는 ” Failed to open DRM device “를 포함하여 몇 줄을 제공합니다. 내 GPU와 관련이있을 수 있습니까?pastebin은 다음과 같습니다. paste.ubuntu.com/p/zJ9Gqhfq9B -
Xorg.0.log
는 X11 서버가 시작될 때마다 교체되므로 ‘ 이미 GUI를 다시 시작했거나 충돌 후 시스템을 재부팅 한 경우 대신. - 알겠습니다. 다음은 전체
Xorg.0.log.old
파일입니다. paste.ubuntu .com / p / 925mb7xMtz 도와 주셔서 감사합니다!xf86CloseConsole: KDSETMODE failed
와VT_GETMODE
및VT_ACTIVATE
로 표시됩니다. 그리고 미리 내 GPU에 대해 언급했습니다. - 흠, 심각한 오류없이 X11 서버가 성공적으로 종료 된 것 같습니다. 해당 로그가 충돌에서 비롯된 것이라면 디스플레이 관리자 프로세스가 충돌하여 X11 세션이 부작용으로 종료되기 때문일 수 있습니다. 시스템에
/var/log/*dm.log
와 일치하는 로그 파일이 있습니까? 또는 Ubuntu 18.04가journald
기반 로깅에서 표준화 된 경우/var/log/journal
디렉터리가 있는지 확인한 다음를 사용하여 종료까지 이전 부팅의 로그를 확인합니다.
- 발생한 정확한 시간을 기록 했어야합니다. 오늘은 예상치 못한 로그 아웃 만 받았습니다.
*dm.log
는 없지만jounal
-일이 작동했습니다. 중요한 시점에 대한 로그를 여기에 붙여 넣었습니다. paste.ubuntu.com/p/37XmRYRpVK
Answer
이것은 약간 긴 샷일 수 있지만, 오늘 제 컴퓨터에서 설명한 것과 똑같은 증상을 보였습니다 (충돌 후 나중에 검은 화면 대신 로그 아웃).
또한 Ubuntu 18.04를 사용하고 Nvidia GPU를 사용하고 있습니다.
모두가 이것이 Nvidida 드라이버의 문제 일 수 있다고 가정하고 있습니다. 문제에 부분적으로 만 적용 되었음에도 불구하고이 대화 목록의 답변을 제공하기로 결정했습니다.
-
다음으로 nvidia 드라이버 삭제
sudo apt-get purge nvidia*
-
재부팅
-
Nvidida 드라이버 다시 설치
지금까지 더 이상 검은 색 화면이나 갑작스러운 로그 아웃이 없었습니다.
p>
댓글
- 좋아요. ‘ 해보겠습니다!
- G 문제가 해결되면 업데이트를 보내주세요.
- 빠른 참고 :
zsh
를 사용하고 있으므로nvidia*
를 따옴표로 묶으려면 github.com/robbyrussell/oh-my-zsh/issues/6748 을 참조하세요.
답변
여기에 또 다른 해결책이 있습니다. 나는 이미 같은 문제가 있었고 내 사례에 유용한 제안 된 해결책을 찾을 수 없었습니다. VMware 워크 스테이션을 사용했고 Ubuntu가 부팅을 시작할 때 동일한 문제에 직면했습니다. 제 경우 충돌의 주된 이유는 그래픽 카드 드라이버 나 이와 같은 것 때문이 아닙니다. 설치된 Ubuntu에 여유 공간이 충분하지 않았습니다. 따라서 문제를 해결하기 위해 다음 단계를 따랐습니다.
1) 다음 줄을 추가하여 .vmx 구성 파일을 변경합니다.
bios.bootDelay = “50000”
* 이로 인해 부팅 시간이 길어집니다. 따라서 Shift + Enter를 사용하여 Grub 메뉴로 들어갈 수 있습니다.
* Windows에서 .vmx 파일을 여는 데 문제가있는 경우 먼저 파일의 확장자를 .txt로 변경 한 다음 앞서 언급 한 줄을 추가하고 파일을 저장 한 다음 확장자를 다시 .vmx
2) VMware 실행 및 Ubuntu 실행
3) 화면을 클릭 한 후 Shift 키를 누른 상태에서 Enter 키를 눌러 grub 메뉴로 들어갑니다.
4) Ubuntu의 고급 옵션을 선택하십시오.
5) 루트를 선택한 다음 Enter를 누르십시오.
6) 이제 모든 파일을 삭제할 수있는 루트 액세스 권한이 있습니다. Ubuntu에서 여유 공간을 확보하십시오.
일부 사용자는 Alt + Shift + F2 또는 F3을 사용하여 터미널에 액세스 할 것을 제안했습니다. 루트 사용자의 암호가 없었기 때문에 이것은 나를 위해 작동하지 않았습니다. 그러나 다음 단계를 사용하여 문제를 해결하는 데 도움이되었습니다.
행운, 하메드
답변
제 경우에는 gdm3 가 실행되지 않습니다. 그래서 다음 명령을 사용하여 다시 시작했습니다.
sudo service gdm3 status (to ckeck status) sudo service gdm3 start
lightgdm, gdm 또는 gdm을 사용하는지 여부는 중요하지 않습니다. 사용중인 명령을 확인하려면 sudo service --status-all | grep gdm
답변
여기에 내가 본 적이없는 또 다른 해결책이 있습니다. 다른 곳에서 공유하는 것이 도움이 될 것이라고 생각했습니다.
Ubuntu 20.04 LTS, amd64 distro를 사용하고 있으며 ” / dev / sda1 : clean … ” 오류.제 경우 문제의 2 차 원인은 디스크가 꽉 찼기 때문입니다 . p>
따라서 이러한 증상이있는 경우 빠른 df
또는 df -h
를 수행하여 남은 공간을 확인하세요. 파티션. du
또는 du -h
명령을 사용하여 많은 양의 데이터가 포함 된 디렉토리를 다듬을 수 있습니다. 해결책은 불필요한 파일을 삭제하는 것만 큼 간단 할 수 있습니다.
하지만 제 경우에는 / var / log 디렉토리가 약 100GB (?!)로 시스템의 일부 문제로 인해 발생한 것으로 나타났습니다. / var / log / syslog 파일에 지속적으로 기록하고 결국 드라이브를 채 웁니다. 그래서 그것이 문제의 주요 원인이었습니다. 이 시점에서 나는 어떤 리소스가 범인인지 확실하지 않지만 / var / log / syslog 파일을 확인하면 귀하의 경우에 몇 가지 포인터를 제공 할 수 있습니다. 이 경우에도 해당되는 경우 / var / log / syslog 파일을 올바르게 제거하는 방법을 조사한 다음 문제의 주요 원인을 해결하는 것이 좋습니다.
시스템에 문제가 없기 때문에 중요한 것들이 있었기 때문에 로그 파일을 보관하는 데 관심이 없었고 logrotate 패키지를 설치하고 매일 순환을 설정하고 순환 된 파일을 삭제하도록 시스템을 구성했습니다. 또한 대용량 저널 파일을 발견했기 때문에 cronjob을 루트로 설정하여 1 일이 지난 저널 파일을 삭제했습니다. 루트 권한으로 crontab -e
를 수행하고 다음 줄을 파일 끝에 추가 할 수 있습니다.
0 * * * * journalctl –vacum-time = 1d
저는 또한 좋은 측정을 위해 apt-get update
및 apt-get upgrade
주기를 수행했습니다.
추가 자료 :
https://ma.ttias.be/clear-systemd-journal/
https://github.com/andyholmes/gnome-shell-extension-gsconnect/issues/588 https://askubuntu.com/questions/515146/very-large-log-files-what-should-i-do https://kifarunix.com/how-to-configure-log-rotation-with-logrotate-on-ubuntu-18-04-lts/
재미있는 디버깅과 행운을 빕니다.
8bitrocks
답변
이 문제. 이미 너무 많은 질문이 있고 내 문제가 지금 해결되는 것 같아서 새로운 질문을 열고 싶지 않았습니다. 그래서 관련 주제에 대한 답변을 작성하기로 결정했습니다 (실제로 답변을 작성할 수 있고 평판 포인트 10 점 등이 필요하지 않음).
시작하기 전에 몇 가지 사양 :
- Ubuntu 18.04.4
- Windows 듀얼 부팅
- 내 PC에 AMD Radeon RX 5500 XT 그래픽 카드가 있습니다.
지금 당장은 생각하지 않는 사양을 더 알고 싶으시면 알려주세요.
이 문제에 대한 첫 만남은 다음과 같습니다. 듀얼 부팅 메뉴에서 Ubuntu를 선택했습니다. . 이 메뉴에는 보라색 배경이 있습니다. Enter를 클릭했을 때 메뉴가 사라졌지 만 (그렇게) 보라색 배경은 15 분 이상 유지되었습니다. 재부팅하기로 결정했습니다. 인터넷 검색을 한 후 /etc/default/grub
라인
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
에서 편집 한 복구 모드로 들어갔습니다. / p>
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nomodeset"
다음 메시지가 깜박이는 화면 만보기 위해 재부팅했습니다.
/dev/sdb1: Superblock last mount time is in the future. (by less than a day, probably due to the hardware clock being incorrectly set) /dev/sdb1: Superblock last write time is in the future. (by less than a day, probably due to the hardware clock being incorrectly set) /dev/sdb1: clean, 30163/6594560 files, 5137309/26366943 blocks
every ~ 약 0.5 초 동안 10 초. 여기에서 이미이 문제가 설치된 그래픽 드라이버와 관련이 있다는 것을 “알았습니다”. AMD 그래픽 카드 용 드라이버를 제거하기 위해 다시 복구 모드로 재부팅했습니다.
$ amdgpu-pro-uninstall
이후 Ubuntu는 정상적으로 시작되었습니다. 단 하나의 모니터 만 변경할 수없는 1024x768의 해상도로 인식되었습니다 (1920x1080의 모니터 2 개가 있습니다). 좀 더 인터넷 검색을 한 후에 etc/fstab
파일을
# /etc/fstab: static file system information. # # Use "blkid" to print the universally unique identifier for a # device; this may be used with UUID= as a more robust way to name devices # that works even if disks are added and removed. See fstab(5). # # <file system> <mount point> <type> <options> <dump> <pass> # / was on /dev/sdb1 during installation UUID=b440d779-f2d8-4e85-a425-86c264cf1086 / ext4 errors=remount-ro 0 1 # /boot/efi was on /dev/nvme0n1p2 during installation UUID=4E80-9146 /boot/efi vfat umask=0077 0 1 # /home was on /dev/sdb3 during installation UUID=3b2456a3-8d84-41f8-81b1-094c3014126f /home ext4 defaults 0 2 # swap was on /dev/sdb2 during installation UUID=5d727b45-f3f0-40ad-8f6b-41528f8fb611 none swap sw 0 0
에서
(첫 번째 비 주석 줄에서 마지막 숫자 1
를 0
로 변경했습니다.) . AMD gpu 드라이버를 다시 설치하고 재부팅했는데 문제가 사라졌습니다. 1920×1080 해상도로 2 대의 모니터에이 글을 쓰고 있습니다. 또한 /etc/default/grub
에서 nomodeset
를 제거했습니다.
따라서 누군가가 같은 문제를 가지고 있다면이 사람이 내 대답을 찾을 것이고 아마도 내 접근 방식이 문제를 해결할 것입니다.
smartmontools
를 설치하고 드라이브의 SMART 데이터를 확인하는 것입니다.smartctl --all /dev/sda
의 출력에도 관심이 있습니다.